2026年5月19日、Google I/OにてDeepMindはGemini Omniを発表しました。同日、Gemini OmniプロンプトガイドがDeepMindのドキュメントサイトに公開されました。Omni FlashのモデルカードとAPIノートの間にひっそりと配置されていたため、基調講演のデモに注目が集まる一方で、このドキュメントを読んだ人はほとんどいませんでした。
まずは重要な事実から。Gemini Omniは、DeepMindが新たに発表したマルチモーダル生成モデルです。第一弾となる「Gemini Omni Flash」は、テキスト、画像、音声、動画のあらゆる組み合わせから最大10秒間の動画を生成します。すべての出力にはSynthIDによる電子透かしが適用されます。AI Plus、AI Pro、AI Ultraのサブスクリプションユーザーは即時利用が可能で、YouTube ShortsおよびYouTube Createアプリのユーザーは、今週のローンチ週から無料アクセスが提供されます(Gagadget報道)。Googleによれば、APIアクセスは「数週間以内に」提供予定です。
プロンプトガイドに話を戻します。Google DeepMindのプロンプトガイドでは、「World understanding(世界理解)」セクションにおいて、考え方の転換を直接的に示しています。
Veoでは、最良の結果を得るために正確な指示を記述する必要がありました。しかし、Gemini Omniではそれほど厳密に指示する必要はありません。作りたいものをOmniに伝えれば、モデルの推論能力と世界に関する知識が細部まで命を吹き込んでくれます。
つまり、「書く量を減らせ」ということです。
この指針は、ByteDanceやKuaishouが自社の動画生成モデル向けに公開しているプロンプトガイドと比較すると興味深いものがあります。表現こそ異なりますが、目指す方向性は同じです。

ByteDanceは、同社の国際開発者プラットフォーム上でBytePlus ModelArkプロンプトガイドにてSeedance 2.0について解説しています。推奨される構造は「被写体 + 動作 (+ 環境 + 美学 + カメラワーク/カット + 音声)」です。すべての要素が必要なわけではなく、ショットに合わせて必要なものを選ぶ形式です。
KuaishouのAIプロンプトウェイトガイドでは、5W1H(Who, What, Where, When, Why, How)の公式が用いられています。Kling 3.0では単語の位置が重み付けに影響するため、通常、最も優先順位の高い「Who(被写体)」をプロンプトの先頭に置くよう推奨しています。つまり、先に記述された要素ほど計算リソースが集中して割り当てられます。画風やアングルなどのスタイル指定は最後に配置し、すでに確立されたシーンに対するフィルタとして機能させるのが最適です。ガイドでは、要素を無計画に積み重ねることは避け、キーワードの競合による品質低下を防ぐよう警告しています。
これら3社が独立して同様の結論に達したことは、各社のモデルが同時期に同等の能力レベルに到達したことを示唆しています。Googleは「少なく書く」ことを推奨し、ByteDanceは「多くの要素を任意」とし、Kuaishouは「単純な量より単語順序」を重視しています。細かなアプローチは違えど、いずれの研究室も、より自由で自然なプロンプトを作成する方向へクリエイターを導こうとしています。
では、Gemini Omniのプロンプトガイドが実戦でどう機能するかを見ていきましょう。
Gemini Omniのプロンプト構造:Google DeepMindが活用する5つの次元
ガイドの冒頭には、以下の包括的な例が挙げられています。
広角のトラッキングショットが静かな湖面をゆっくりと滑り、その上空を浮かぶ巨大で反射するクロームのような豆型の物体を捉える。ゆっくりと回転する物体には、雄大な崖の歪んだ反射と、下の澄んだ紺碧の水面に半分浸かった同じような小さな物体が映し出される。輝く太陽が浮かぶ物体の後ろから昇り、シーン全体を鮮やかで青と緑の色調が混ざった、爽やかで幻想的な昼光で包み込む。異星の風景の広大さと神秘を強調する雄大で異質なオーケストラのスコアと、浮かぶ物体から発せられるかすかな低い唸り声が、映画のようで畏敬の念を抱かせる雰囲気を強調している。
90単語を超えるこのプロンプトを分解すると、5つの次元が見えてきます。
- ショットのフレーミングとモーション: 広角か、ミドルか、クローズアップか。カメラはゆっくり滑らせるべきか、急接近させるべきか。動詞の選択で出力が大きく変わるため、適切な動きを探るには試行錯誤が必要です。
- スタイル: 写実的、映画的、幻想的、雄大か。この次元には詳細な説明は不要で、感情的なトーンをモデルに伝えるだけで十分です。
- ライティング: 光源はどこか。太陽、街灯、カメラ内か外か。爽やかさ、暖かさ、あるいは幻想的な雰囲気を求めるべきか。
- シーン: ガイドにある一文は注目に値します。「Omniはあなたの全体的な意図を理解するため、すべてを細かく説明する必要はありません。」これはSeedanceやKlingの公式ドキュメントが主張する内容と一致します。
- アクションとインタラクション: シーンに誰が(何が)存在し、どのように動き、どのように相互作用するか。
Gemini Omniの会話型編集 vs Veoのプロンプト書き換え
OmniとVeoの生成品質は同等ですが、決定的な違いは動画生成後の操作性にあります。
以前は、細部を変更するにはプロンプト全体を書き換えて再生成し、フレーム間の整合性が維持されるのを祈るしかありませんでした。Omniでは、この工程が「会話」に置き換わります。
公式ガイドにはいくつかの例があります。
小さな男の子が登場するストップモーション風の動画で、最初の編集指示は「蝶を蜂に変えて」。次は「その蜂を小さなホタルの群れに変えて」。一度のターンで一つの要素が切り替わり、他のフレームは自動的に保持されます。
カメラワークも同様です。バイオリニストの動画に対し、「バイオリニストを画像内の環境へ移動させる」「バイオリンを見えなくする」「カメラアングルをバイオリニストの肩越しに変更する」という3つのコマンドを順次実行できます。環境の入れ替え、オブジェクトの除去、カメラの位置変更が、すべて自然言語で行えます。
ただし、注意点もあります。サードパーティのレビューによれば、編集の指示が曖昧すぎると、Omniは過剰に編集し、残したい要素まで変えてしまう傾向があります。Googleの推奨は、一度のターンで変える変数は一つにし、保持したい要素を明示的に伝えることです。
クロスモーダル同期の例はさらに興味深いものです。アパートの夜景動画に対し、「音楽に合わせてアパートの明かりを点滅させて」と指示すると、モデルはサウンドトラックのビートを解析し、窓の明かりをそれに同期させます。これをAfter Effectsで行うには、タイムライン、メトロノーム、そしてフレームごとの手作業によるキーフレーム設定が必要でした。
Gemini Omniの4つの高度な機能:世界知識、テキスト描画、アクション参照、マルチ入力
ガイドの後半では、4つの機能が取り上げられています。
適用された世界知識
プロンプト例:通常のコンピューティングと量子コンピューティングの違いを説明して。この概念を、最小限のベクター形状と豊かなオーガニックな質感を融合させた、現代的なフラットメディアスタイルで視覚化して。ネオンピンク、シアン、ライムという高コントラストの「エレクトリック」なカラーパレットを深いネイビーの背景に配置する。このスタイルの特徴は、点描風のシェーディングと粒状のグラデーションを使用し、単純な幾何学形状にリソグラフのような手触り感を加えること。鋭いエッジと、これら柔らかな斑点状のトランジションを組み合わせることで、遊び心のあるエディトリアルな雰囲気を実現する。
モデルは量子重ね合わせとは何かを理解しており、対比的なショットを通じてそれを表現する方法を知っています。ユーザーは量子力学について説明する必要はなく、視覚的なトーンを伝えるだけで十分です。
これが可能なのは、Omniが推論モデルをベースに動いており、動画生成のみに特化したモデルにはない能力を持っているからです。Demis HassabisはI/O後のSemaforのインタビューで、Omniを「現実世界をより深く理解するAIを構築するプロジェクトの一環」と位置づけました。Alphabet傘下のWaymoが、自動運転車に予測不能な事態を処理させるための「想像力」を与えるために、同様のワールドモデルをテストしていることを指摘しました。動画生成は、そのアーキテクチャの最も可視化された応用例に過ぎません。
テキスト描画
プロンプト例:単語ごとに、一度に1つの単語を画面に表示。それぞれの単語に異なるアニメーションスタイルを適用し、リズムに合わせて完璧なペース配分で。 sizzle reel風に。
複雑なアクション参照
プロンプト例:全てを維持したまま、スケートボードからアニメーション化されたモーションエフェクトを追加して。
マルチ入力参照
プロンプト例:動画の鳥たちが、画像に基づいた鳥の不完全な形状を大まかに形成する。音声の音楽に合わせて動き、飛び去る際に消散させる。
スタイル転送
プロンプト例:動画参照に基づき、4段階のスタイル変遷を作成して。最初は、豊かなワックス状の質感を持つストロークと、粒子状の紙の背景に描かれた遊び心のある手描きキャラクタースタイル。次に、質感を強調した紙への鉛筆スケッチにシームレスに移行し、クロスハッチング、線の太さの変化、手描き感を強調する12fpsの「ラインボイル」エフェクトを使用。次に、複雑な光の屈折、コースティクス(集光模様)、ミニマルなスタジオ設定内のソフトな内部発光を特徴とする、超リアルな3D半透明ガラススタイルに変身。最後に、限定的な3色パレット、粒状のハーフトーンテクスチャ、意図的なレジストレーションのずれを用いた、レトロで機械的な質感のリソグラフプリントルックで締めくくる。
ストーリーボード参照
プロンプト:このストーリーを映像化して。左上から順に、ストーリーを厳密に従うこと。10秒で物語全体を。映画のように。
クロスショット整合性
Gemini Omni、ByteDance Seedance、Kuaishou Klingのプロンプトアドバイスが収束する理由
冒頭の観察に戻ります。Seedance、Kling、Omniのプロンプトアドバイスが似ているのは、相互に模倣した結果ではありません。より妥当な説明は、この世代のモデルが独自に同様の能力レベルに到達したということです。
モデルがシーンレベルで自然言語を処理し、世界知識で詳細を補い、ユーザーの意図を推論できるようになると、過剰な指示がかえってボトルネックとなります。どの程度の構造を維持すべきかについては各社で見解が分かれていますが、「もっと記述量を増やすべきではない」という点では共通しています。
これは、大規模言語モデルと共同でトレーニングされた拡散モデルの2年間の成果です。Omniは、その成果を比較的完成度の高い状態まで引き上げました。
Atlas Cloud経由でGemini Omniを呼び出す:Seedance、Kling、Veoの統合API
Gemini OmniはAtlas Cloudに導入予定です。Atlas Cloudは、テキスト、画像、動画、音声にわたる300以上のAIモデルを統合しています。主要な動画モデルはすでにプラットフォーム上で利用可能です:Seedance 2.0、Kling 3.0、Wan 2.7、Veoなど。サイドバイサイドの比較については、Atlas CloudのWan 2.7 vs Seedance 2.0 vs Kling 3.0:開発者はどの動画APIを選ぶべきかをご覧ください。
一つのアカウントで全パイプラインを運用でき、複数の地域プラットフォーム間での登録、支払い、APIキー管理は不要です。Playgroundはインタラクティブなデバッグをサポートしており、OpenAI互換の統合APIによって既存のワークフローに簡単に接続できます。
Atlas Cloudのプロンプトライブラリには、アニメ、SF、ミステリー、料理、Vlog形式など、20以上のカテゴリにわたるすぐに使えるプロンプトが揃っています。各プロンプトにはサンプル動画とパラメータの注釈が付属しており、コピーして少し単語を入れ替えるだけで実行可能です。







