2026 年 5 月 19 日,Google 在 Google I/O 大會上發布了 Gemini Omni。同一天,Gemini Omni 提示詞指南 在 DeepMind 的文件網站上線,位置介於 Omni Flash 模型卡片與 API 說明之間。多數人關注的是發表會的展示,這份文件鮮少有人閱讀。
首先來點快速重點。Gemini Omni 是 DeepMind 推出的全新多模態生成模型。其首款產品 Gemini Omni Flash 可從文字、圖片、音訊或影片的任意組合中生成長達 10 秒的影片。所有輸出內容均帶有 SynthID 浮水印。AI Plus、AI Pro 與 AI Ultra 訂閱用戶可立即使用;根據 Gagadget 報導,YouTube Shorts 與 YouTube Create 應用的用戶將於發布當週獲得免費存取權限。至於 API 存取,Google 表示將於「數週內」開放。
回到提示詞指南。Google DeepMind 在「世界理解」(World understanding)章節中直接點出了這一轉變:
使用 Veo 時,你需要提供精確的指令才能獲得最佳效果。但在 Gemini Omni 中,你不必那麼拘泥於提示詞。你只需要告訴 Omni 你想創造什麼,然後看著模型的推理能力與世界知識如何將細節栩栩如生地呈現出來。
翻譯:寫少一點。
將其與字節跳動(ByteDance)和快手(Kuaishou)為各自影片模型發布的提示詞指南對照來看,雖然架構不同,但指向的方向一致。

字節跳動在國際開發者平台上記錄了 Seedance 2.0 的 BytePlus ModelArk 提示詞指南。推薦結構為:主體 + 動作(+ 環境 + 美學風格 + 鏡頭移動/剪輯 + 音訊)。並非每個要素都是必須的,你可以根據畫面需求進行選擇。
快手的 AI 提示詞加權指南(Kuaishou's AI Prompt Weighting guide) 則透過「5W1H」公式來呈現:人物 (Who) + 事件 (What) + 地點 (Where) + 時間 (When) + 原因 (Why) + 方式 (How)。其中 Who(主體)通常優先級最高並放在提示詞最前方,因為在 Kling 3.0 中,詞語的位置決定了權重:放在最前面的內容會獲得最多的運算關注度。風格選擇(如媒介或視角)放在最後面效果最好,作為對已建立場景的濾鏡。指南中警告不要盲目堆疊元素,過多衝突的關鍵字會降低品質。
三家公司獨立得出這些建議,說明它們的模型在同一時間點達到了類似的能力水準。Google 建議寫少一點,字節跳動將多數組件標記為選填,而快手則強調詞序而非數量。具體表述雖有差異,但三家實驗室都引導創作者使用更寬鬆、更自然的提示詞。
接著來看看 Gemini Omni 提示詞指南在實務中是如何運作的。
Gemini Omni 提示詞結構:Google DeepMind 使用的 5 個維度
指南開頭提供了一個完整範例:
一個廣角追蹤鏡頭平滑地掠過寧靜的湖面,顯現出一個巨大的、具反射性的、鍍鉻般豆狀物體,它輕盈地懸浮在空中,緩緩旋轉,折射出雄偉懸崖的扭曲倒影;下方清澈的蔚藍水中部分淹沒著另一個類似的較小物體。一道璀璨陽光在懸浮異物後方升起,將整個場景沐浴在清脆、空靈的日光下,呈現出鮮豔的藍色與綠色色調。場景營造出一種電影般令人敬畏的氛圍,並伴隨著宏大且超凡脫俗的管弦樂配樂,突顯外星景觀的浩瀚與神秘,懸浮物體則發出低沉細微的嗡嗡聲。
超過 90 個字。拆解後可歸納為 5 個維度:
- 鏡頭取景與運動:廣角、中景還是特寫?鏡頭應該平滑滑動還是突然推進?這兩個動詞會產生明顯不同的輸出,因此在尋找合適的動感時,多嘗試幾次是有回報的。
- 風格:寫實、電影感、空靈、宏偉?這個維度不需要詳盡細節。告訴模型情感基調就足夠了。
- 光影:光源來自哪裡?太陽、路燈、鏡頭內還是場外?感覺應該是清脆的、溫暖的還是空靈的?
- 場景:指南中有一句話值得強調:「你不需要描述每一個細節,因為 Omni 會根據你的整體意圖來運作。」這與 Seedance 和 Kling 在其官方文件中所說的一致。
- 行動與互動:場景中有誰、有什麼、他們如何移動、如何互動。
Gemini Omni 對話式編輯與 Veo 提示詞重寫
Omni 與 Veo 的生成品質旗鼓相當。真正的差距在於影片生成後你可以做什麼。
過去,更改一個細節意味著要重寫整個提示詞、重新生成,並祈禱影格間的一致性不會跑掉。Omni 將此步驟替換為「對話」。
官方指南給出了一些範例。
一段關於小男孩的停格動畫風格影片。第一次編輯:「把蝴蝶換成蜜蜂。」下一次:「把蜜蜂換成一小群螢火蟲。」每次對話只變更一個元素;其他影格會自動保留。
鏡頭控制也是如此。一段小提琴家的影片可進行三次連續指令:「將小提琴家移到圖片環境中」、「讓小提琴隱形」、「將鏡頭角度改為小提琴家肩膀上方」。環境替換、物體移除、鏡頭重置,全透過自然語言完成。
但有一個值得注意的陷阱。第三方評測指出,如果你的編輯指令太模糊,Omni 傾向於過度編輯,更改了你本想保留的元素。Google 的建議是:每次輪次只更改一個變數,並明確說明哪些內容應保持不變。
跨模態同步的範例更為有趣。拍一段公寓大樓的夜間影片,加入指令:「公寓的燈光開始配合音樂節奏亮起。」模型會分析配樂節拍並將窗戶燈光與之對齊。在 After Effects 中執行此操作需要時間軸、節拍器以及逐影格手動設置關鍵影格。
Gemini Omni 的 4 大進階能力:世界知識、文字渲染、動作參考、多輸入參考
指南的後半部分詳細介紹了 4 項能力。
應用世界知識
範例提示詞:解釋常規計算與量子計算的區別。使用當代平面媒體風格視覺化這句話,融合極簡向量圖形與豐富的有機紋理。美學定義為高對比度、霓虹粉、青色與萊姆綠的「電子」色調,背景為深海軍藍。此風格的標誌性特徵是使用點畫陰影與顆粒狀漸層,為簡約的幾何形式增加了類似 Risograph 印刷的觸感。透過結合銳利邊緣與柔和的斑點過渡,插畫呈現出俏皮的編輯感。
模型本身就了解什麼是量子疊加,並知道如何透過一系列對比畫面來表達。使用者不需要解釋量子力學,只需定義視覺基調。
這之所以有效,是因為 Omni 運行在一個前沿推理模型之上,這是僅能生成影片的模型所無法比擬的。Demis Hassabis 在 I/O 大會後接受 Semafor 採訪時,將 Omni 定位為構建更了解現實世界的 AI 項目的一環。他指出 Alphabet 的自動駕駛部門 Waymo 已經在測試類似的世界模型,賦予自動駕駛汽車一種處理不可預測情況的「想像力」。影片生成僅是該架構最明顯的應用。
文字渲染
範例提示詞:逐字顯示,螢幕每次只顯示一個單字,每個單字使用不同的動畫風格,節奏與節拍完美配合,精華剪輯片段。
複雜動作參考
範例提示詞:保持一切不變進行編輯,添加從滑板發出的動畫運動特效。
多輸入參考
範例提示詞:影片中的鳥類根據圖片鬆散地形成鳥的輪廓。牠們跟隨音訊的音樂移動,並在飛行時消散。
風格轉換
範例提示詞:建立該影片參考的四段式風格演變,開頭為充滿活力的彩色蠟筆美學,具有豐富、蠟質、紋理化的筆觸與俏皮的手繪角色設計,背景為重顆粒紙張。無縫過渡到紋理紙上的石墨鉛筆素描,使用交叉陰影線、不同的線條粗細,以及 12fps 的「線條抖動」(line boiling)效果來強調手繪感。接著轉變為超寫實的 3D 半透明玻璃風格,特徵為複雜的光折射、焦散圖案與簡約工作室環境中的柔和內部光澤。最後以觸感十足的 Risograph 印刷外觀結束序列,應用有限的三色調色盤、顆粒狀半色調紋理,以及刻意的套印重疊,以實現復古的機械質感。
分鏡參考
範例提示詞:在這段故事中展示我。完全按照順序,從左上角開始。整個故事在 10 秒內完成。電影感。
跨鏡頭一致性
為什麼 Gemini Omni、字節跳動 Seedance 與快手 Kling 的提示詞建議趨於一致
回到早先的觀察。Seedance、Kling 和 Omni 在提示詞建議上的相似並非相互抄襲的結果。更合理的解釋是,這一代模型各自達到了相似的能力水準。
一旦模型能夠在場景層面上理解自然語言、補充世界知識並推斷出使用者的真正意圖,過度限定指令反而成為瓶頸。這三家實驗室對於如何添加結構有不同見解,但都同意答案不是繼續寫得更多。
這是擴散模型與大型語言模型聯合訓練兩年後的結果。Omni 將該成果推向了一個相對完整的狀態。
透過 Atlas Cloud 呼叫 Gemini Omni:Seedance、Kling、Veo 的統一 API
Gemini Omni 即將登陸 Atlas Cloud。Atlas Cloud 整合了文字、圖片、影片、音訊等 300 多個 AI 模型。主流影片模型已在平台上線:Seedance 2.0、Kling 3.0、Wan 2.7、Veo 等。如需並排比較,請參閱 Atlas Cloud 的 Wan 2.7 對戰 Seedance 2.0 對戰 Kling 3.0 的深度評測。
一個帳號即可運行整個管道。無需在多個區域性平台註冊、付款或維護 API 金鑰。Playground 支援互動式偵錯。統一的 OpenAI 相容 API 可直接接入現有工作流。
Atlas Cloud 的提示詞庫 擁有超過 20 個類別的現成提示詞,涵蓋動漫、科幻、懸疑、美食、Vlog 等格式。每個提示詞都附帶範例影片與參數說明。複製、替換幾個字,即可運行。







