映画のようなAI動画クリップ。美しい照明、夜の東京を歩く人物。しかし、中盤でその足が縁石を通り抜けてしまう。あるいは、フレームの途中で雨が止む。コーヒーカップが瞬間的に自らの形を失う。
その幻想は完璧だった。物理法則が介入するまでの、わずか6秒間を除いて。
3年間、それは生成AI動画の核心にある「修正不能なバグ」であり続けた。モデルは見た目を模倣することはできても、世界をシミュレートすることはできなかったのだ。
5月19日、Googleは「I/O 2026」において、Gemini Omniこそがそのバグを解決できる存在であると示唆した。そして、どんなベンチマークよりも雄弁にその点を証明する、あるデモを静かに公開した。
AI動画界隈を揺るがした「ビー玉」デモ
そのデモとは、複雑な連鎖反応を起こすコースを転がり落ちる、たった一つのガラスのビー玉の映像だ。皿で弾み、ベルを鳴らし、傾斜を滑り、ドミノを倒していく。すべての接触には説得力のある反作用があり、すべての着地には一致した音が伴う。
9to5Googleの報道は、その驚きを隠していない。「ビー玉が転がる映像は素晴らしい例だ。ボールの物理挙動はもっともらしく、バウンドやベルの音もそれぞれ納得できるものだ」
その一文は退屈に聞こえるかもしれない。だが、実際にはこれは業界の金字塔である。
このデモは数時間で拡散された。AI界の重鎮たちも黙っていられなかった。免疫学者でありAIコメンテーターのDerya Unutmaz博士は、基調講演からわずか数分でこうツイートした。「ワオ!Google DeepMindがGemini Omniという驚異的なマルチモーダルAIをリリースした。動画は非常に高品質だ!すぐに試すべきだ!」
なぜ「ビー玉を転がす」ことが3年間も不可能だったのか
なぜビー玉のデモが業界の金字塔と呼べるのか。それを理解するには、AI動画が2023年以来、何に失敗し続けてきたかを振り返る必要がある。
Soraが登場した時代、すでに視覚品質は達成されていた。モデルは夜の東京を歩く人物の4K映像をレンダリングできた。しかし、そこには以下の問題があった。
- 噴水の水が「上向き」に流れる
- スプーンがシリアルボウルを通り抜ける
- 歩行中にキャラクターの足が一時的に透明になる
- 重力が……機能する時としない時がある
ビジュアルは90%完成していた。しかし、ワールドモデル(世界モデル)は50%だった。一度でも物理法則の破綻を目にしてしまうと、視聴者はそれを無視できなくなる。幻想は一瞬で崩れ去るのだ。
プロのクリエイターにとって、これは単なる仕上げの問題ではなく、使い物にならないという「崖」だった。物理的な破綻がないか手作業で全フレームを確認しなければ、クライアントに動画を納品することはできない。その結果、多くの企業チームはAI動画を完全に敬遠していた。
GoogleがOmniで提示した方針は、まさにこのギャップを突くものだ。公式ローンチページにはこう記されている。「Omniは、重力、運動エネルギー、流体力学などの力に対する直感的な理解が向上しており、よりリアルなシーンを作成できる」
Hassabisが語った「重要な本音」
I/O 2026で最も重要な発言は、マーケティングスライドからではなく、DeepMindのCEOであるDemis Hassabisの口から直接語られた。彼はOmniを**「汎用人工知能(AGI)への一歩」**と表現したのだ。
Decryptの報道の通り、Hassabisは物理シミュレーションとAGIという壮大な野望を明確に結びつけ、Geminiを**「世界を理解しシミュレートできるワールドモデルAI」**と呼んだ。
これこそが、人々が注目すべき点だ。HassabisはOmniが優れた「動画のおもちゃ」だと言っているのではない。彼は、**「物理法則を真に理解するモデルは、いずれ物理世界で行動できるモデルになる」**と言っているのだ。それこそが、まさにロボットが必要としているものに他ならない。
中国以外ではほとんど注目されなかった「ロボティクス」の視点

ここからは、英語圏のメディアが完全に見落としていた視点だ。中国のテックメディアが真っ先に注目したポイントである。
DeepMindのCTOであるKoray Kavukcuogluの情報を引用したSina Financeの報道によると、Omniの物理理解は**「フロンティアロボティクスのトレーニングに直接応用されている」**という。
Technobezzも同様の見解を伝えており、OmniはGeminiの基盤となる膨大なトレーニングデータ(現在では物理シミュレーションの裏付けを大量に含む)を継承しているため、**「Veoよりも遥かに深い世界知識を持っている」**としている。
つまり、**ビー玉のデモは、コンテンツクリエイターのための単なる見世物ではない。**それは、Googleがロボットに掴む、投げる、バランスを取る、反応するといった動作を教えるために使用しているシミュレーターの一般公開プレビューなのだ。動画モデルは、生成動画から物理的理解、そして具現化されたAI(Embodied AI)へと至る、より巨大なワールドモデリングという氷山の一角に過ぎない。
これを知れば、転がるビー玉の映像の見え方は変わるはずだ。「Googleがクールな物理デモを作った」のではなく、「Googleがロボットの事前トレーニングのパイプラインが稼働していることを、静かに世界に証明した」ということなのだから。
誰もが見落とした隠れた証拠:黒板のデモ
もう一つ、中国のテックフォーラムで密かに話題になっている物理挙動の証拠がある。
I/O 2026の数日前、Omniのデモ動画が流出した。それは、ある教授が黒板に三角関数の証明を書き進めていくものだった。36Krの報道によると、その数式は数学的に正しく、手順は論理的で、筆跡も自然であり、すべて一つの英語プロンプトから生成されたものだった。
これは単なるテキスト生成の成果のように聞こえるが、実際には「物理学の成果」である。
正しい筆跡を再現するには、AIは以下をモデル化しなければならない。
- 文字を形作るための手の動きのメカニズム
- 証明が書き進められる一般的な順序
- 黒板に対するチョークの物理的な圧力
- 導出ステップの時間的な論理性
対照的にSoraが生成した黒板の文字は、36Krの記事によれば「書き物のように見えたが、よく見ると完全に意味不明な文字列だった」という。
根底にある能力、すなわち「物理的・時間的な一貫性」が、異なる領域に適用された結果だ。ビー玉は正しくバウンドし、チョークは正しくボードに当たる。どちらも、異なる表面テストにおいて同じワールドモデルが機能していることを示している。
ただし、まだ勝者と決めるのは早い
批判を忘れることは無責任だろう。DataCampのハンズオンレビューでは、Omniが物理法則を破る様子が既に捉えられている。レビュアーがトレビュエ(投石機)の発射を指示した際、投射物が「後ろ向き」に飛んだのだ。バグは確かに存在する。ただし、レビュー対象がタペストリー風の視覚スタイルだったため、不完全さが中世美術のように馴染んでしまい、悲劇というよりは滑稽な結果となった。
Engadgetは、過熱する報道に釘を刺している。「Veo 3.1や他の動画生成アプリの主な問題は、動画が『不気味の谷』現象を起こし、エンドユーザーから敬遠されることだ。Googleの誇大広告と出力品質が一致しているかどうかは、今後の検証が必要だ」
さらに、3つの現実的なチェックポイントがある。
- ベンチマークが公開されていない。 Googleはローンチ時に数値的な評価をリリースしていない。第三者機関による独立したベンチマークは数週間後になるだろう。
- 10秒の制限。TechCrunchによるDeepMindへのインタビューによると、Omni Flashの出力は現在10秒に制限されている。長尺版も予定されているが、現時点では短編向けだ。
- 音声/話者の編集は保留中。Google自身も認めているように、同社は「この機能を責任を持ってユーザーに提供する方法を慎重にテストしている」段階であり、音声編集におけるディープフェイクのリスクを考慮して、あえて実装を見送っている。
すべてのOmniのクリップには、Googleの不可視のSynthID透かしとC2PAコンテンツ認証情報が組み込まれており、Geminiアプリ、Chrome、検索で検証可能だ。物理法則がリアルになればなるほど、暗号学的な来歴の証明は重要になる。偽物が見分けにくくなればなるほど、「それが偽物である」と知る権利が必要になるからだ。
物理挙動におけるOmni、Sora、Veo、Seedanceの比較
2026年5月現在、主要なAI動画モデルの物理と世界理解に関する評価は以下の通りだ。
| モデル | 物理のリアリズム | 世界知識 | 会話型編集 | ステータス |
|---|---|---|---|---|
| Gemini Omni Flash | 新たなリーダー(主張) | 最高(Geminiの学習を継承) | あり(マルチターン) | 2026年5月19日リリース |
| Sora 2 (OpenAI) | 改善済みだが不安定 | 限定的 | なし | Soraアプリ廃止、API終了予定(2026年9月) |
| Veo 3.1 (Google) | 良好、世界知識なし | 限定的 | テキスト+画像のみ | 公開中、Omniへの移行に伴い非推奨 |
| Seedance 2.0 (ByteDance) | モーションに強み | 良好 | 限定的 | 公開中、Artificial Analysis動画アリーナで1位 |
正直な評価として、Omniは最も強気な物理性能を主張しており、Seedanceは現在公開されているベンチマークで最強の地位を維持している。Soraは競争から脱落し、Veoは静かに吸収されつつある。
業界ごとの変革
もし物理法則の壁が解決(またはほぼ解決)されたなら、何が起こるのか。
映画監督や広告クリエイター: フレームごとの物理QAは不要になる。編集者が1日を費やしていた、オブジェクトのわずかな glitches(不具合)の修正や、不自然なバウンドの修正といった作業は消滅する。プリプロダクションの絵コンテ制作は劇的に高速化し、コンセプトからアニマティクスまでの時間は数週間から数分へと短縮される。
教育者: アニメーターを介さずに正確な科学解説を作成できる。HassabisがI/Oで披露した「タンパク質折り畳みのクレイアニメーション」は、ギミックではない。あらゆる高校の物理教師が、コンピューティングコスト20ドル以下で作成できる未来の姿だ。連鎖反応、流体力学、惑星運動など、すべてがオンデマンドで解説可能になる。
ロボット開発チーム: Googleが大規模な物理シミュレーターを保有しているという確証だ。たとえGoogleのスタックを使用していなくても、主要な研究所がOmniレベルの物理演算を実現したという事実は、全業界における「具現化AI」のタイムラインを加速させる。
ゲームスタジオ: 没入感を損なわないAI生成のカットシーン。ゲームのシネマティック映像は、常に物理的な忠実さが最も重要であり、かつAI動画ツールが最も失敗し続けてきた領域だった。Omniはその基準を塗り替える。
広告主: 偽物に見えない商品動画。ブランドがAI動画を避けてきた理由は品質ではなく、不気味な不具合だった。ソーダが正しくグラスに注がれ、スニーカーのソールが衝撃でリアルに曲がるなら、AI動画は商業的に納品可能な製品となる。
新しい境界線 — 特定のモデルに固執するリスク
2026年にAI製品を構築する人々にとって、重要な結論はこれだ。
AI動画の古いベンチマークは「視覚品質」だった。新しいベンチマークは「世界理解」である。この変化に伴い、モデルの情勢は超専門特化したリーダーたちへと断片化している。
- Gemini Omni は、物理演算と推論の王座を主張。
- ByteDanceのSeedance は、映画のようなモーションとキャラクターアニメーションでリード。
- 他のモデルも、長尺生成、リアルタイム編集、オーディオ同期、低コストバッチ出力などの分野で強みを持つ。
開発者にとって、この断片化は運用上の深刻な頭痛の種だ。今四半期に物理性能が最高のモデルが、来四半期にはキャラクターの一貫性でトップとは限らない。今日4K出力に強いモデルが、半年後に最もコスト効率が良いとは限らない。さらに、それぞれが独自のSDK、認証フロー、価格体系、レート制限の癖を持っている。モデルを統合するたびに、あるいはモデルが非推奨になるたびに、チームは貴重なエンジニアリングスプリントを浪費することになるだろう。
このギャップを解消するために作られたのが、Atlas Cloudだ。私たちは開発者に、300以上のモデルにアクセスできる単一のエンドポイントを提供する。主要なファウンデーションモデル、最先端のオープンソースリリース、画像・動画・音声・推論の専門モデルまで、すべて網羅している。1行のコードでモデルを切り替え、統合を書き直すことなく並行評価を実行可能だ。今その瞬間に必要な能力を持つ最強のモデルを採用し、リーダーボードが動いた瞬間に別のモデルへ乗り換えることができる。
計算は単純だ。物理、キャラクターの一貫性、 cinematic motion、テキストレンダリングがそれぞれ異なるモデルによってリードされる世界において、最も最悪な建築的決定は、どれか一つのモデルに固執することだ。
Atlas Cloudは、断片化するモデル環境をナビゲート可能にする抽象化レイヤーである。チームの負担を増やすのではなく、解放するために存在する。
真の結論
「どのAI動画が最も綺麗か」という時代は、想像以上に速く終わりを迎えている。
これから始まるのは、「どのAI動画が実際に世界を理解しているか」という時代だ。その競争において、予測可能なバウンドをし、正しいピッチでベルを鳴らし、物理法則が示す場所に正しく着地する一つのビー玉は、Googleがレンダリングできたどんなフォトリアルな風景よりも重要なデモなのだ。
綺麗なピクセルはもう古い。ワールドモデルの時代だ。
今後3年間のAI動画の行方は、まさにここにかかっている。







