その感覚、よくわかりますよね。
深夜、ブランドキャンペーンの修正が4回目に入っている時。AIが完璧なライティングのヒーローショットを生成したのに、モデルの顔が今夜だけで3回目の微調整で変わってしまった。衣装は同じなのに、別人に。これでは納品できない。直すこともできない。最初からやり直しだ。
深夜0時を過ぎると、もう動画編集をしている感覚ではない。まるでルーレットを回しているような気分だ。
一貫性のあるストーリーを構築しようとする人にとって――カットごとに同じモデルが登場する製品デモ、シーンをまたいで同じ講師が登場するチュートリアル、カットが変わっても同じ歌手が映るミュージックビデオ――「キャラクターの崩壊(キャラクタードリフト)」は、あらゆるAI動画ツールにとっての静かなる殺し屋でした。AI動画が「面白いデモ」という地獄から抜け出し、ビジネスレベルに到達できなかったのは、これが理由です。

5月19日のGoogle I/O 2026にて、GoogleのGemini Omniは、この時代が終わりを告げることを証明しました。
その約束は、Google DeepMindの製品ページにある一文に集約されています。「行った編集はすべて前の編集内容に基づいて構築され、一貫性のあるまとまったシーンを維持する」
歴史を静かに変えた3ステップのバイオリニストデモ
I/Oの発表で最も重要な瞬間は、転がるビー玉でも、泡の彫刻でもありませんでした。それは、一人のバイオリニストでした。
Googleがステージ上で見せ、ブログに掲載した一連の動きは以下の通りです。
- ステップ1: ステージで曲を演奏するバイオリニストのベースライン動画。
- ステップ2: プロンプト「バイオリニストを画像内の環境へ移動させて」を実行。結果:背景が変わっても、奏者の顔、姿勢、弓の持ち方、手首の角度まで完全に一致。
- ステップ3: プロンプト「カメラアングルをバイオリニストの肩越しに変更して」を実行。結果:画角は変わったが、同じバイオリニスト。同じ本人。同じパフォーマンス。
3回のターン。1人の被写体。ドリフトはゼロ。
現在のAI動画ツールを使い込んでいる人なら、これが「ズル」のように見えるはずです。しかし、そうではありません。これは、映像作家や広告主、教育者が待ち望んでいた「マルチターン(複数回)のリファインメント」ワークフローが、技術的に実現可能であり、実用レベルにあることを示す最初の公式な証拠なのです。
なぜマルチターンの「一貫性」がAI動画の難問だったのか

なぜこのバイオリニストのデモが重要なのかを理解するには、他のすべてのAI動画モデルが何に失敗してきたかを知る必要があります。
従来の生成動画パイプラインでは、新しいプロンプトを入力すると、元のプロンプトと新しいプロンプトを組み合わせて、実質的にシーンをゼロから再生成していました。モデルにはターン間での内部的な連続性がほとんどありません。顔は崩れ、背景の小物は消え、ライティングは変わります。3回目のターンを迎える頃には、結果は当初のビジョンから大きく逸脱してしまい、クリエイターは諦めて最初からやり直すことになります。
根本的な原因はアーキテクチャにあります。ほとんどの動画モデルは「マルチターンエージェント」ではなく「ワンショットジェネレーター」として訓練されてきました。プロンプトから最高の一枚を生成することには最適化されていても、前回生成した内容を記憶し、そこから洗練させることには対応していなかったのです。編集を求めても、それは実質的に「追加のコンテキストを加えた上でやり直す」ことを意味し、その計算によってドリフトが蓄積されていたのです。
Omniのアプローチは異なります。これは「ステートフル(状態保持型)エディター」として構築されており、各ターンはシーンの永続的な表現を更新するため、最初から作り直す必要がありません。
「シーンが記憶する」ことの本当の意味
海外のテックメディアも、それぞれ異なる言葉で同じ事実に気づいています。
Decryptは、このブレイクスルーを最も簡潔に解説しました。「Googleによれば、Omniはユーザーが動画に変更を加えても、同じキャラクター、背景、動きを一貫して維持できる。これは多くのAI動画モデルが苦戦してきた点だ」
Android Centralは、重要な技術的詳細を抽出しました。「このモデルは段階的な修正の間、以前のコマンドを記憶しているため、反復的な編集が非常にスムーズで混乱のないものになる」
TechRadarは映画的な観点から語りました。「キャラクターは認識可能であり続け、シーンは連続性を維持する。プロンプトが変わるたびにリセットされるのではなく、動きに一貫性がある」
そしてPhandroidは、その能力をわずか5単語に要約しました。「シーンは以前のことを記憶している」
これが結論です。シーンが記憶する。 この単一の特性こそが、AI動画を「おもちゃ」から「ツール」へと変える決定的な違いなのです。
OmniとSora、Veo、Seedanceの一貫性比較
2026年5月現在、主要AI動画モデルのマルチターン一貫性に関する比較は以下の通りです。
| モデル | マルチターン編集 | 対話型リファインメント | キャラクター一貫性 (Medium評) | 現在のステータス |
| Gemini Omni Flash | ステートフル、マルチターン | ネイティブチャットベース | (3/5) | 2026年5月19日リリース |
| Sora 2 (OpenAI) | ワンショット再生成 | 限定的 | 提供終了 | Soraアプリ停止、APIは2026年9月終了 |
| Veo 3.1 (Google) | 部分的 | テキスト+画像のみ | Omni以下 | 公開中だがOmniにより非推奨へ |
| Seedance 2.0 (ByteDance) | 参照ベース、非反復的 | 限定的 | (4/5) | 公開中、Artificial Analysis動画部門1位 |
正直な評価をすれば、真の意味で「ステートフルな」マルチターン編集ができるのはOmniだけです。Seedanceは生成ごとに最大9枚の参照画像を活用することで(Mediumのレビュアーによれば)キャラクターの一貫性はより高いものの、「編集セッション全体」を通じてその一貫性を維持することはできません。Soraは一般向けからは撤退し、Veoは統合されつつあります。
「やり直し」から「洗練」へ — このワークフローがもたらすもの

ここで真に価値があるのはデモの内容ではなく、ワークフローの変革そのものです。
Blockchain.newsは、その商業的影響を的確に表現しました。「バッチ編集により、複数の動画セグメントで同時に修正が可能となり、AI生成コンテンツの品質基準を保ちながら制作を加速できる。映画、広告、教育コンテンツのクリエイターは、コスト削減と物語の信頼性向上という大きな恩恵を受けることになる」
最後の一言――「物語の信頼性」――こそが、コンテンツに関わるすべての人にとって重要な部分です。
これまで、AI動画は「良いクリップを1つ作ること」はできても、「キャンペーン」を作ることはできませんでした。つまり、同じ主人公、同じブランド資産、一貫したビジュアル言語を用いて、複数の成果物を作ることは不可能だったのです。すべての編集はコイン投げのような運任せでした。しかし今、編集は積み重なるものとなりました。
TechTimesは公開された機能をこうまとめました。「ユーザー撮影のフッテージにおけるアクションやオブジェクトの編集、現実的ルックとアニメーション風ルックのスタイル転送、マルチターンリファインメント、解説動画の生成などが可能だ」
また、DataCampの実践レビューでもマルチターンの挙動が確認されています。「Omniはマルチターン編集に対応しているため、シーンの一貫性を保ったまま、詳細、環境、カメラアングルをステップバイステップで洗練できる」
このワークフローの変化は、紙の上では小さく見えるかもしれません。しかし実際には、「生成→再生成→再生成→諦め」という流れが、「生成→リファイン→リファイン→納品」へと劇的に変わるのです。
開発者も気づき始めています。中国のエンジニア向けフォーラムV2EXで、リリース初日にOmniをテストしたあるエンジニアはこう書いています。「生成速度と一貫性は予想を超えていた」
AIエンジニアと現場のクリエイターが、リリースから数時間で同じ観察結果に至っているということは、マーケティングではなく、実用能力が実際にシフトしたことを意味しています。
残る懸念 — Omniはまだ完璧ではない
「一貫性の問題は解決した」と宣言する前に、冷ややかな視点も述べておく必要があります。
MediumのAI Analytics Diariesのレビュアーは、OmniをByteDanceのSeedance 2.0と比較し、キャラクターの一貫性に5点満点中3点を与えました。
すべてのAI動画プロダクトマネージャーが心に刻むべき一文があります。「どちらのモデルも複数のカットを通じたキャラクターの一貫性には苦戦している。これは依然としてAI動画における『開いた傷口』である」
言い換えれば、Omniは「単一の編集セッション内」でのマルチターンリファインメントにおいては他の公開モデルより明らかに優れていますが、カテゴリー全体で見ればまだ解決済みの問題ではないのです。
残されたギャップは何でしょうか。
- 単一シーンにおけるマルチターン一貫性は非常に良好(バイオリニストのデモ)
- クロス・カットの一貫性(同じキャラクター、異なるシーン、異なるライティング、異なる構図)は依然として不完全
- 微細な特徴(顔のディテール、手の関節、特定の衣類の質感など)は、多くの編集を重ねるとまだ変化する可能性がある
- Omni Flashの現在の10秒クリップ制限により、長編作品でのマルチターン一貫性はまだ公開レベルでストレス耐性が試されていない
しかし、用途の80%――単一シーンのリファインメント、SNSサイズのコンテンツ、マーケティング素材――においては、Omniはすでに十分納品可能なレベルです。残りの20%、つまり30カット以上のシーケンスでキャラクターの連続性を維持しなければならない映画レベルの作業については、依然として編集側での仕上げ作業が必要です。
業界ごとに何が変わるのか
マルチターンの一貫性が(少なくとも単一セッション内では)解決された今、何が解禁されるのでしょうか。
ブランド広告主へ: キャンペーンの連続性。ファッションブランドは、再撮影も、新しいタレントの起用も、手作業での修正もなく、同じヒーローモデルで10種類のバリエーションを生成できます。SNS向けのクリエイティブ制作の収支は劇的に変わります。
教育・チュートリアル作成者へ: シリーズの一貫性。1人のAIプレゼンターが、視聴者に違和感を与えることなく、第1回から第12回まで全コースを担当できます。「コンテンツ全体で顔が一貫しない」という問題が、これまでAI講師の導入を阻んでいました。それが解消されたのです。
映画製作者へ: プレビジュアライゼーションの大規模化。同じ俳優で、複数のシーン案、複数の照明設定、複数のカメラアングルを単一セッションで生成・洗練できます。「アイデアがある」から「監督に見せられる」までのギャップは、数日から数分に縮まります。
ECチームへ: リストのバリエーション全体でマッチする商品写真。同じモデルで、6着の服、ライフスタイルショット、スタジオショット、環境ショットまで。すべて一貫し、すべて納品可能で、同じマルチターンセッションから生成できます。
ゲーム開発者へ: シーンをまたいでも同じ見た目のNPC。ゲーム内のAIシネマティクスの最大の弱点は、シーンが変わると主人公の顔が微妙に変わることでした。Omniのステートフル編集により、キャラクターの固定が商業的に現実味を帯びてきます。
コンテンツの信憑性 — 「偽物」の検知は難しくなる
このブレイクスルーには、直視すべき「闇の側面」もあります。
マルチターンの一貫性が向上するということは、「検知しにくい偽物」が増えることを意味します。カット間で顔が変形する、手の形が変わる、髪の色が変わるなど、これまでAI動画の証拠となっていた「欠陥」が修正されてしまうからです。Omniやその後継モデルが内部的な連続性を高めるほど、「明らかにAI製」と「本物と見分けがつかない」の境界線は急速に消滅します。
これこそが、Omniで生成されるすべてのクリップにGoogleの不可視の**「SynthID」ウォーターマークと「C2PA」コンテンツクレデンシャル**が生成時に埋め込まれている理由です。Geminiアプリ、Chrome、検索内で検証可能であり、これはオプションではありません。オフにできない機能です。
Googleが既存動画での音声編集を慎重に控えているのもそのためです。「責任を持ってこの機能をユーザーに提供する方法を理解するため、現在テストを続けている」。つまり、一貫性のある顔と改変された音声が組み合わさったディープフェイクのリスクは、ガードレールなしでリリースするには高すぎるということです。
ブランドやクリエイターにとっての計算式は変わります。人間の目による「フェイク」の検知が信頼できなくなるにつれ、暗号化された来歴証明(Provenance)がコンテンツの信頼性における新たな基準となります。 連続性という勝利には、必ず証明義務が伴うのです。
新たなボトルネックは「品質」ではなく「モデルの乱立」
AI動画製品を構築する戦略的な観点から、これは何を意味するのでしょうか。
主要モデル間の能力ギャップは急速に縮まっており、同時に断片化も進んでいます。2026年半ば現在、状況は以下の通りです。
- Gemini Omni はマルチターン一貫性と対話型編集でリード
- Seedance 2.0 は映画的な動きとスタイル化されたアニメーションでリードし、参照ベースのキャラクター一貫性で強みを持つ
- その他専門モデル は長編生成、詳細なキャラクター制御、音声同期、低コストバッチ処理でリード
今四半期に一貫性で最強のモデルが、次の四半期に映画的な動きで最強であるとは限りません。物理演算が最も優れているモデルが、半年後の音声同期でも最高とは限らないのです。しかも、それらはすべて独自のSDK、認証フロー、価格体系、レート制限、契約条項を持っています。一つのモデルを統合するたびにエンジニアリングスプリントを消費し、廃止されるたびにまたスプリントが消えていきます。
これこそが、Atlas Cloudが解決するために作られた断片化の問題です。私たちは、開発者が300以上のモデル――主要な基盤モデル、最新のオープンソースリリース、画像・動画・音声・推論に特化した専門モデルすべて――へアクセスできる単一の統合エンドポイントを提供します。Gemini Omniへのアクセスは数週間以内にAtlas Cloudに追加されますので、テストの準備が整えば、すぐに統合を切り替えることができます。
現場でこれが意味することは以下の通りです。
- 一行のコードでモデルを切り替え — 新しいSOTAが出るたびにSDKを書き直す必要はありません
- 同一プロンプトでサイド・バイ・サイド評価 — 予算を投じる前に、特定のユースケースでどのモデルが実際に勝つのかを確認できます
- 機能ごとに最強のモデルを採用 — 今日は一貫性のリーダー、明日は cinematic motionのリーダー、来期はコスト効率のリーダーを使うことができます
- 請求、オブザーバビリティ、レート制限を一つのダッシュボードで管理 — 12個の個別の管理画面はもう必要ありません
2026年にAI動画製品を構築する開発者にとって、賢いアーキテクチャ上の判断は「Omniに賭ける」ことではありません。「勝者が出るたびに切り替えられる抽象化レイヤーの上で構築する」ことです。Gemini OmniがAtlas Cloudに搭載されれば、Seedanceや次のブレイクスルーモデルと戦わせることができます。統合コードを一文字も変えることなく。
一貫性、物理演算、映画的な動き、音質のそれぞれを異なるモデルが牽引する市場において、特定のモデルにロックインされることは、負い得る中で最悪の技術的負債です。 Atlas Cloudは、その断片化という足かせを、成長を後押しする追い風へと変える抽象化レイヤーです。
中核となる洞察
マルチターンの一貫性が重要な理由はデモそのものではなく、それが可能にする「解禁」にあります。
5年間、「AI動画はいつビジネスで使えるようになるのか?」というあらゆる議論は同じ壁に突き当たってきました。「モデルが編集を通じてキャラクターを維持できるようになった瞬間」という壁です。その壁は、今動きました。
バイオリニストのデモはスタントではありません。主要な研究機関が、実用的なマルチターン編集ワークフローをステージ上で提示した初めての事例です。次にマーケティングチームがAI動画ツールに「6つのシナリオで同じ商品を6つ生成して」と頼む時、彼らは6つの無関係な顔ではなく、6つの「使える成果物」を期待できるようになるのです。







