Gemini Omni機能：現実世界の物理法則に従う出力を生成する

映画のようなAI動画クリップ。夜の東京を歩く人物、ゴージャスなライティング。しかし、途中で足が縁石をすり抜けてしまう。あるいは、フレームの途中で雨が止む。コーヒーカップが自分自身を飲み込んでしまう。

その幻想は6秒間だけ完璧でしたが、物理法則に邪魔をされた瞬間に崩壊しました。

3年間、これは生成AI動画の核心にある「修正不可能なバグ」でした。モデルは見かけを偽ることはできても、世界を偽ることはできなかったのです。

5月19日、GoogleはI/O 2026において、Gemini Omniを発表しました。同社はこのバグがついに解決可能であることを示し、どんなベンチマークよりも雄弁にその点を証明するデモを静かに提示しました。

AI動画界隈を騒然とさせた「ビー玉デモ」

そのデモとは、複雑な連鎖反応を起こすコースを転がる1個のガラスのビー玉でした。皿で跳ね返り、ベルを鳴らし、傾斜を滑り降り、ドミノを倒して別のものを動かす。すべての接触に納得のいく反作用があり、すべての着地に適合したサウンドが伴います。

9to5Googleの報道は、その驚きを隠しませんでした。「ビー玉が転がる動画は素晴らしい例だ。ボールの物理挙動はもっともらしく、跳ね返りやベルの音もそれぞれの接触と整合している」

この一文は地味に聞こえるかもしれませんが、実際には業界の金字塔です。

このデモは数時間のうちにバイラル化しました。AI界の重鎮たちも黙ってはいられません。免疫学者でありAIコメンテーターのDerya Unutmaz博士は、基調講演から数分以内にこうツイートしました。「ワオ！Google DeepMindがGemini Omniという驚異的な新しいマルチモーダルAIを発表した。動画のクオリティがものすごい！すぐに試さねば！」

なぜ「ただのビー玉」が3年間も不可能だったのか

ビー玉のデモが「業界の金字塔」と呼ばれる理由を理解するには、2023年以来AI動画が何に失敗し続けてきたかを振り返る必要があります。

Soraの時代には、すでに視覚品質は達成されていました。モデルは、夜の東京を歩く人物の4Kシネマティック映像をレンダリングできました。しかし、以下の問題がありました。

噴水の水が「上向き」に流れる
スプーンがシリアルボウルをすり抜ける
歩行中にキャラクターの足が一時的に透明になる
重力が……効いたり効かなかったりする

見た目は90%完成していても、世界モデルは50%程度でした。一度でも物理法則の破綻を目にしてしまうと、視聴者はそれを無視できません。幻想は一瞬で崩れ去ったのです。

プロのクリエイターにとって、これは単なる調整の問題ではなく、「ユーザビリティの断崖」でした。物理的な破綻がないか手作業で全フレームを確認しなければ、クライアントに動画を納品できなかったのです。その結果、ほとんどの企業チームがこの技術を完全に敬遠していました。

OmniによるGoogleの打ち出しは、まさにこの欠点に焦点を当てています。公式サイトにはこうあります。「Omniは重力、運動エネルギー、流体力学などの力を直感的に理解しており、よりリアルなシーンを生成できる」

ハサビス氏が「核心」をさらりと明言

I/O 2026で最も重要な発言は、マーケティングスライドからではなく、DeepMindのCEOであるデミス・ハサビス氏の口から出ました。彼はOmniを**「汎用人工知能（AGI）への一歩」**と表現したのです。

Decryptが報じた通り、ハサビス氏は物理シミュレーションとAGIへの野心を明確に結びつけ、Geminiを**「世界を理解し、シミュレートできる世界モデルAI」**と呼びました。

これこそが、人々が注目すべき文脈です。ハサビス氏はOmniが単なる「動画生成玩具」として優れていると主張しているわけではありません。**「物理を真に理解したモデルは、いずれ物理世界で行動できるようになる」**と言っているのです。これこそが、ロボットが求めている能力です。

中国以外ではほとんど注目されなかった「ロボティクスの側面」

Gemini Omni world model diagram linking AI video generation, physics simulation, and robotics training.jpg

ここからは、英語圏のニュースメディアが完全に見落としていた視点です。中国のテックメディアはこれに真っ先に気づいていました。

DeepMindのCTOであるKoray Kavukcuoglu氏を引用したSina Financeの報道によると、Omniの物理理解は**「最先端ロボティクスのトレーニングに直接応用されている」**といいます。

Technobezzも同様の論調で、OmniにはVeoよりもはるかに多くの「世界知識」が組み込まれており、それは物理シミュレーションの膨大なデータで接地（グラウンディング）されたGeminiのトレーニングデータを受け継いでいるからだと解説しています。

つまり、このビー玉デモはコンテンツクリエイター向けの余興ではありません。 Googleがロボットに物を掴む、投げる、バランスを取る、反応するといった動作を教えるために使用しているシミュレーターの公開プレビューなのです。「動画生成」は、物理理解、そして「身体性を持つAI」へと続く、巨大な氷山の一角に過ぎません。

突然、転がるビー玉の見え方が変わってきませんか？「Googleがすごい物理デモを作った」ではなく、「Googleはロボットの事前学習パイプラインが実用段階にあることを、さりげなく世界に示した」と解釈すべきです。

全員が見落としていた隠された証拠：黒板のデモ

中国のテックフォーラムでひそかに話題になっている、物理法則を示すもう一つの証拠があります。

I/O 2026の数日前、Omniのリークデモが出回り始めました。黒板の前で教授が三角関数の恒等式の証明を書いている動画です。36Krの報道によると、数式は数学的に正しく、手順も論理的で、筆跡も自然でした。これらはすべて、英語のプロンプト一つから生成されました。

これは単なるテキストレンダリングの成果に見えますが、実際には物理法則の成果でもあります。

正確な筆跡には、AIが以下の要素をモデル化する必要があります。

各文字を形成するための手の動きのメカニズム
証明が記述される際の一般的な手順
黒板に対するチョークの物理的な圧力
導出ステップにおける時系列の論理

対照的にSoraが生成した黒板の文字は、36Krの記事によれば「文字には見えるが、よく見ると完全にデタラメ」でした。

根本的な能力は同じです。物理的・時間的な整合性が、異なるドメインに応用されているのです。ビー玉は正しく跳ね返り、チョークは正しく黒板に当たる。どちらも、同じ世界モデルが異なる表面テストで機能している証拠です。

ただし、現時点で過信は禁物

賞賛ばかり送るのも無責任というものです。

DataCampのハンズオンレビューでは、Omniが物理法則を破っている瞬間も捉えられています。レビュアーがトレビュシェット（投石機）の射出を求めたところ、投射物が「後ろ向き」に飛んでいきました。バグは確かに存在します。ただ、今回はタペストリー風のスタイルが選ばれていたため、不完全さが中世アートのような味となって誤魔化せていたに過ぎません。

Engadgetも、熱狂的な報道に対して釘を刺しています。「Veo 3.1や他の動画生成アプリの主な問題は、いわゆる『不気味の谷』現象であり、ユーザーから嫌われやすいことだ。Googleの誇大広告に見合う出力品質が出せるのか、注視する必要がある」

他にも、以下の3つの現実的な課題があります。

ベンチマークが未公開。 Googleは立ち上げ時に数値的な評価を公開しませんでした。独立した第三者機関によるベンチマークが出るのは数週間先になります。
10秒の制限。TechCrunchのインタビューによると、Omni Flashは現在10秒までの生成に制限されています。長尺化は予定されていますが、今はショート動画の領域です。
音声/話術の編集は保留中。Google自身も「この機能を責任を持ってユーザーに届ける方法を検証中」としており、音声編集によるディープフェイクのリスクを考慮し、意図的に機能を制限しています。

なお、すべてのOmniクリップにはGoogleの不可視なSynthID透かしに加え、Geminiアプリ、Chrome、検索で検証可能なC2PAコンテンツクレデンシャルが付与されます。物理挙動がリアルになるほど、暗号学的な来歴証明の重要性は増します。偽物が本物らしく見えるほど、それが偽物であることを知る必要性は高まるのです。

Sora、Veo、Seedanceとの物理挙動比較

2026年5月時点での、物理法則と世界理解における主要AI動画モデルの立ち位置は以下の通りです。

モデル	物理的リアリズム	世界知識	会話的編集	ステータス
Gemini Omni Flash	新リーダー（公称）	最高（Geminiの学習データ）	あり（マルチターン）	2026年5月19日公開
Sora 2 (OpenAI)	向上したが glitchy	限定的	なし	Soraアプリ終了、APIは9月終了
Veo 3.1 (Google)	普通、世界知識なし	限定的	テキスト+画像のみ	公開中、Omniへ移行
Seedance 2.0 (ByteDance)	動きに強み	良好	限定的	公開中、Artificial Analysis Video Arenaで1位

正直な評価としては、Omniが最も過激な物理性能を主張しており、Seedanceが現時点で最も強力な公的ベンチマークを有し、Soraは消費者向け競争から離脱し、Veoは静かに統合されている、という状況です。

業界ごとに何が変わるのか

物理法則が解決（あるいは近似的な解決）された場合、以下のような変化が起こります。

映画・広告制作： フレーム単位の物理検証は不要になります。編集者の時間を浪費していた微調整（オブジェクトのグリッチ修正、不自然なバウンドの再アニメーションなど）は不要になります。プレプロダクションの絵コンテ制作は劇的に高速化し、コンセプトからアニマティクスまでの期間は数週間から数分に短縮されます。

教育： アニメーターを介さずに、正確な科学解説動画を作れます。ハサビス氏がI/Oで見せたタンパク質折り畳みのクレイアニメーションデモは、単なるギミックではなく、あらゆる高校の物理教師が間もなく20ドル未満のコンピューティングコストで作れるようになる未来の姿です。連鎖反応、流体力学、惑星運動など、すべてがオンデマンドで解説可能になります。

ロボティクス： DeepMindが大規模な物理シミュレーターを持っているという確証が得られます。Googleのスタックを使っていない企業にとっても、主要な研究機関がOmniレベルの物理シミュレーションを実現したことは、AI搭載ロボットの産業全体のタイムラインを前倒しします。

ゲームスタジオ： 没入感を損なわないAI生成カットシーン。物理的な忠実度が最も重要でありながら、AI動画ツールが最も苦手としていた分野です。Omniはそのハードルを確実に引き上げました。

広告： 本物らしく見えるプロダクト動画。ブランドがAI動画を避けてきた理由は品質ではなく、「不気味な破綻」でした。炭酸飲料がグラスに正しく注がれ、スニーカーのソールが衝撃でリアルに曲がるなら、AI動画は商業的に納品可能な水準となります。

新たな境界線と、単一モデルに固執するリスク

2026年にAI製品を構築するすべての人に伝えたいのは、以下の点です。

AI動画の旧基準は「視覚品質」でしたが、新基準は「世界理解」です。このシフトに伴い、モデル環境は超専門化されたリーダーたちによって断片化しています。

Gemini Omni は物理と推論の王座を狙う
ByteDanceのSeedance はシネマティックな動きとキャラクターアニメーションでリードする
その他のモデルは長尺生成、リアルタイム編集、音声同期、低コストバッチ出力で強みを持つ

開発者にとって、この断片化は運用上の大きな頭痛の種です。今四半期に物理性能が一番だったモデルが、来四半期もキャラクターの一貫性が一番とは限りません。今現在、4K出力に強いモデルが半年後もコスト効率が高いとは限りません。すべてのモデルには、それぞれ独自のSDK、認証フロー、課金モデル、レート制限があります。モデルを一つ統合するたびに1エンジニアリングスプリントを消費し、非推奨化のたびにまた別のスプリントを消費することになりかねません。

これこそが、Atlas Cloudが解決しようとしているギャップです。私たちは開発者に、300以上のモデル（すべての主要な基盤モデル、主要なオープンソース、画像・動画・音声・推論の高速な専門モデル）にアクセスできる単一のエンドポイントを提供します。たった一行のコードでモデルを切り替え、統合を書き直すことなくサイド・バイ・サイドで評価を実行できます。その瞬間に必要な能力に対して最強のモデルを採用し、リーダーボードが変われば即座に次へ切り替える。これらすべてが、エンドポイントを書き直す必要なしに可能です。

計算は単純です。物理性能、キャラクターの一貫性、 cinematicな動き、テキストレンダリングのそれぞれが異なるリーダーに支配されている世界では、いずれか一つにロックインしてしまうことが、最悪のアーキテクチャ上の意思決定なのです。

Atlas Cloudは、断片化するモデル環境を、チームの負担ではなく、活用可能な「抽象化レイヤー」へと変えます。

動画生成プロダクションに向けた統一API

GoogleがGemini Omni FlashをGeminiアプリやGoogle Flowを通じて展開する一方で、同様のマルチモーダル動画エンジンを自社のワークフローに組み込みたい開発者やプロダクトチームには、安定した予測可能なAPIレイヤーが必要です。

Atlas Cloudは、Gemini Omni FlashをOpenAI互換の統一APIを通じて提供しています。300以上の他のモデルと併せて利用できるため、ベンダーごとのアカウントや請求、SDKの管理に追われることなく、Googleのマルチモーダルモデルを統合できます。

Gemini Omni Flashの全バリアントがAtlas Cloudで利用可能です：

バリアント	用途	入力	解像度	長さ	開始価格
Gemini Omni Flash Text-to-Video	プロンプト駆動生成	テキスト (2万字まで)	720p/1080p/4K	4,6,8,10秒	USD0.2 + USD0.1/秒
Gemini Omni Flash Image-to-Video	一貫性のある動画生成	テキスト+参照画像7枚	720p/1080p/4K	4,6,8,10秒	USD0.2 + USD0.1/秒

クイックスタート：5行でGemini Omni Flash動画を生成：

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

APIは即座に予測IDを返し、/api/v1/model/prediction/{id} をポーリングしてレンダリングされたMP4 URLを取得します。完全なスキーマ、7言語のコードサンプル、ノーコードのPlaygroundが各モデルページで利用可能です。

結論

「どのAI動画が一番きれいか」という時代は、多くの人が想像するよりも早く終わりを迎えようとしています。

これから始まるのは、「どのAI動画が実際に世界を理解しているか」という時代です。その競争において、予測通りにバウンドし、適切な音程でベルを鳴らし、物理的に正しい位置に着地する「転がるビー玉」は、Googleが生成し得たどんなフォトリアリスティックな風景よりも重要なデモなのです。

きれいなピクセルは過去の遺物、世界モデルが未来の主流。

今後3年間のAI動画の行方は、まさにこの一点で決まります。

一覧に戻る

さようなら、空飛ぶスプーン：GoogleのGemini OmniがAI動画の物理演算をいかにして現実に近づけたか

AI動画界隈を騒然とさせた「ビー玉デモ」

なぜ「ただのビー玉」が3年間も不可能だったのか

ハサビス氏が「核心」をさらりと明言

中国以外ではほとんど注目されなかった「ロボティクスの側面」

全員が見落としていた隠された証拠：黒板のデモ

ただし、現時点で過信は禁物

Sora、Veo、Seedanceとの物理挙動比較

業界ごとに何が変わるのか

新たな境界線と、単一モデルに固執するリスク

動画生成プロダクションに向けた統一API

Gemini Omni Flashの全バリアントがAtlas Cloudで利用可能です：

クイックスタート：5行でGemini Omni Flash動画を生成：

結論

最新モデル

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

ひとつのAPIで、あらゆるメディアAIを。

Join our Discord community