Google Gemini Omniを実際に試してみた:まだ発展途上の段階

Google I/O 2026で発表されたその日に、Gemini Omniをテストしました。マルチターンの編集は安定しており、物理シミュレーションもリアルに見えますが、微細な制御やダイアログの編集にはまだ課題が残ります。クリエイターが知っておくべきポイントは以下の通りです。

Google Gemini Omniを実際に試してみた:まだ発展途上の段階

数週間にわたるリークと憶測を経て、Gemini Omniが今朝早く、Google I/O 2026でついに正式発表されました。

これは噂されていたような専用の動画生成モデルではなく、Veo 3の系譜を継ぐ「Veo 4」でもありません。Google DeepMindのCEOであるデミス・ハサビスが自ら登壇し、次のように発表しました。

「私たちは次なる重要なステップを踏み出します。Gemini Omni、あらゆる入力からあらゆるものを作成できる全く新しいモデルです」

Gemini Omni I/O 2026 video editing demo

言い換えれば、Gemini Omniは真に「オムニ(全能)」な大規模モデルであり、あらゆる形態の入力を受け入れ、あらゆる種類のコンテンツを生成します。動画生成はその一部に過ぎません。

Gemini Omniは現在、すべてのGoogle製品で利用可能です。AI Plus、Pro、およびUltraのサブスクリプションプランのユーザーは、GeminiアプリまたはGoogleのAI動画作成プラットフォーム「Flow」を通じてアクセスできます。

私たちは早速、最上位のUltraメンバーシップに加入し、Gemini Omniを直接テストしてみました。

結論から言うと、期待外れでした。

Gemini Omniのテスト:一貫性は概ね維持

Omniの最も強力に宣伝されている機能の一つは、自然言語による複数回の編集指示を通じて、視覚的な一貫性を維持する能力です。

Googleの公式デモでは、屋内で演奏するバイオリニストの映像が紹介されています。背景環境の変更、カメラアングルの切り替え、さらにはバイオリンの消去といった指示を行っても、演奏者の表情、動き、照明、そして手の微妙な位置に至るまで、すべてが音楽と合わせて新しい設定に適応していました。

編集の精度とメイン被写体の一貫性は、確かに印象的でした。

Gemini-Omni-testing-consistency-2.GIF Gemini-Omni-testing-consistency-1.GIF Gemini-Omni-testing-consistency-3.GIF

そこで、環境と雰囲気の変更からテストを開始しました。

最初のプロンプト:交差点で衝突する2台の車(1台は青いスポーツカー)を鳥瞰図で、緊張感とスリルを伴う雰囲気で。

次に、より詳細な編集と調整を行いました。プロンプト:黄金色の夕日に変更し、青い車を赤に変更。衝突の瞬間に車が紙吹雪と風船に変化する、軽快で夢のような風変わりなトーンで。

車の色や照明は指示通りに変更され、シーン全体の構造や動きも概ね一貫しており、破綻や視覚的な歪みはありませんでした。

しかし、微妙ながら重要な問題がありました。Omniは実際の衝突の瞬間をうまく扱えませんでした。どちらの動画でも、2台の車はまるで意図的にぶつかりに行くかのように見え、衝突直前にわずかに減速して角度を調整していました。

一言で言えば、演出が「わざとらしい」のです。プロンプトを満たすために、Omniの「見えない手」が車を操作している様子が伝わってきました。

次に、動的な動きを通じて一貫性を維持できるかをテストしました。ベンチマーク:一人のキャラクターが複数のカメラアングルを切り替えても、顔の表情、服装、小道具、髪型が安定していること。「服装は同じだが、角度が変わると色が変わる」といったバグがないかを確認します。

プロンプト:古い駅で赤いドレスを着た女性ダンサーがコンテンポラリーダンスを踊るミディアムトラッキングショット。ジャンプ後に固定のワイドショットに切り替わるが、赤いドレスと駅の背景は完全に一貫していること。

これは比較的うまくいきました。ダンサーの動きは流暢で連続性があり、シルクのドレスの物理演算は説得力があり、カットの切り替えもスムーズでした。

Omniは自動的に背景音楽を追加しましたが、表現力や雰囲気は今ひとつなものの、ダンスのムードには合っていました。

次に、「背景音楽を削除し、ダンスの動きと同期した足音やドレスの擦れる音だけを残す」という小さな変更を加えました。

ここで少し混乱が生じました。動画の前半ではドレスの擦れる音や足音を拾っていましたが、後半になると背景音楽が不可解にも復活してしまいました。

続いて、複雑なキャラクター関係と空間配置の理解度をテストしました。

ベンチマーク:見た目や服装が異なる複数のキャラクターが相互作用する場合、カメラアングルの切り替え中に個々の特徴が混同されたり入れ替わったりしてはならない。

プロンプト:研究室でホログラムを議論する、見た目が全く異なる4〜5人の科学者の肩越しショット。カメラがゆっくり回転する中、全員の見た目と服装が維持されること。

科学者たちが全員異なって見えるようにというプロンプトに応えようとしたのか、Omniは年齢、性別、民族が異なる4人を配置しました。回転するショット全体を通して、キャラクターの見た目、服装、声、相対的な位置関係は概ね一貫していました。

唯一の欠点は、動画の後半で明らかに不自然で唐突なカットが入り、流れが完全に壊れてしまったことでした。

きめ細やかな制御?改善の余地あり

編集と調整は、Googleが公式デモで中心に据えた機能の一つです。

そこで、韓国のSNSで拡散されたAI生成の野球観戦動画を用意し、Google自身のデモ資料から引用したアニメスタイルのキャラクター画像を入力して、元の動画の人物をそのキャラクターに置き換えるよう指示しました。

結果は、控えめに言っても期待外れでした。

置き換わったキャラクターは元の位置を維持していましたが、唇を噛む、視線を泳がせる、カメラに気づいて微笑むといった微妙な表情は、ほとんど失われていました。

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

この詳細な制御の難しさは、このケースだけではありませんでした。

薄暗い部屋で鏡の中の自分に向かって「お前がやったことは知っている。とぼけるな」と静かに語りかける男性の動画を生成するよう指示しました。

最初の結果はまずまずでした。中国語のアクセントにわずかな違和感はあるものの、口の動きは言葉と一致していました。それが人間味のある感情を伝えているかどうかは個人の解釈によります。

しかし、男性のセリフを変更しようとすると、Omniの回路は完全にショートしたかのようでした。

プロンプト:薄暗い部屋で、鏡に向かって「5月20日がまたやってきた。結婚記念日おめでとう」と静かに言う男性。

まず、Omniは「セリフを変える」という概念を理解できず、新しいセリフを画面下の字幕として表示しただけでした。次に、元のセリフの半分と新しいセリフの半分を組み合わせるという挙動を示しました。最終的には完全に崩壊しました。

照明は少し明るくなり、表情は笑顔に変わりましたが、男性は温かく笑いながら「お前がやったことは知っている。とぼけるな」と言っており、背景には不気味な音楽が流れていました。ある意味で、最初よりも不気味になっていました。

要するに、きめ細やかな制御という点では、Omniはまだ道の半ばです。

プロダクション動画生成のための統合API

GoogleはGeminiアプリとGoogle Flowで「Gemini Omni Flash」を展開していますが、同じマルチモーダル動画エンジンを自社のワークフローに組み込みたい開発者や製品チームには、安定した予測可能なAPI層が必要です。

Atlas Cloudは、OpenAI互換の統合APIを通じてGemini Omni Flashを提供しています。300以上の画像、動画、LLMモデルと併用できるため、個別のベンダーアカウントや請求ポータル、SDKを使い分けることなく、Googleのマルチモーダルモデルを統合できます。

両方のGemini Omni Flashバリエーションが Atlas Cloud で利用可能です:

      
バリエーション用途入力解像度時間開始価格
Gemini Omni Flash Text-to-Video (Developer)プロンプト主導のシネマティック生成テキスト (最大20,000文字)720p / 1080p / 4K4, 6, 8, 10秒$0.2 + $0.1/秒
Gemini Omni Flash Image-to-Video (Developer)リアルな参照画像に基づく一貫した動画生成テキスト + 参照画像(最大7枚)720p / 1080p / 4K4, 6, 8, 10秒$0.2 + $0.1/秒

クイックスタート — 5行でGemini Omni Flash動画を生成:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

APIは即座に予測IDを返します。/api/v1/model/prediction/{id} をポーリングしてレンダリング済みのMP4 URLを取得してください。詳細なスキーマ、7言語のコードサンプル、ノーコードのPlaygroundは、上記のリンク先で確認できます。

世界知識:物理法則と歴史には強いが、依然としてバグあり

最後に、世界知識と推論能力についてです。

Googleの公式見解では、GeminiフラッグシップモデルをベースにしたOmniは、重力、運動エネルギー、流体力学といった物理法則や、世界史、科学、数学の理解が大幅に向上したとしています。

早速「チェーンリアクションのコースを猛スピードで転がるビー玉」というプロンプトでテストしました。

結果は非常に印象的でした。Omniは重力、弾性、遠心力などを取り入れた、かなり複雑なチェーンリアクションのコースを独自に設計し、すべてが説得力のあるリアルさでした。

とはいえ、後半でバグが発生しました。突然、1つのビー玉が不可解にも2つに分裂してしまったのです。

もう一つ試しました:U字型のトラックの内壁に沿って往復し、最終的に最低点で静止するボール。

これは少し違和感がありました。

ボールは指示通りに往復して底で止まりましたが、まるで地球ではない別の場所で起きているような感覚でした。ボールは奇妙に無重力でふわふわとした動きを見せ、時折トラックの形状を突き抜けているように見えました。

最後に、短くパンチがあり、中国の文化的な参照を具体的に含んだプロンプトを投げました。「玄武門で対峙する唐の太宗と兄」という動画の生成です。

背景にある「玄武門」という漢字は少し崩れており、唐王朝の二人はわずかに外国語のアクセントがある中国語を話していました。しかし、Omniは歴史的な背景を理解しており、李世民と李元吉の間の剣を交える緊迫した対決を見事に表現しました。

世界史に関しては、Omniはしっかりと学習しているようです。

最終的な感想:Seedance 2.1を待つ

Omniを取り巻く騒ぎは、今日の発表よりずっと前から高まっていました。

すべては5月初旬、Geminiの動画生成ページの隅に「Powered by Omni」という見落としそうな一行のテキストが記載されていたことに始まります。その小さな詳細が、世界中のテックコミュニティで憶測の波を引き起こしました。

誰もが同じ疑問を抱きました。「Omniとは何なのか? Google I/O 2025のVeo 3の次世代版であるVeo 4なのか? それとも全く新しいマルチモーダルモデルなのか?」初期のレポートで「Gemini Omni」と「Veo 4」という呼称が交錯していたのはそのためです。

そして5月11日、「黒板で数式を導き出す教授」という内部テスト動画がXでバイラル化し、数日で240万回以上の再生数を記録しました。

わずか10秒のクリップの中で、教授の背中、横顔、チョークで数式を書くクローズアップと、複数のアングルが切り替わり、黒板にチョークが当たるかすかな音とともに、ボード上のすべての数式が数学的に正しく描かれていました。期待は最高潮に達しました。

当時、Omniは映画的な言語と編集の直感を完全に内面化しており(マルチアングルカット、ネイティブのBGMなど)、そのまま「完成された動画をすぐに出力できる」と言われていました。

しかし、期待を集めてついに登場したGemini Omniの評価は、極めて賛否が分かれるものとなりました。

どうやら、私たちはSeedance 2.1の登場を待つしかなさそうです。いつになるかは分かりませんが。

最新モデル

300以上のモデルから始める、

すべてのモデルを探索

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.