經過數週的洩漏與臆測,Gemini Omni 終於在今天凌晨的 Google I/O 2026 大會上正式亮相。
它既不是傳聞中那款專門的影片生成模型,也不是繼 Veo 3 之後命名序列下的「Veo 4」。Google DeepMind 執行長 Demis Hassabis 親自登台宣布:
「我們正在邁出下一個重要步伐——Gemini Omni,這是一個全新的模型,能夠利用任何輸入內容進行創作。」
換句話說,Gemini Omni 是一個真正具備「全能 (Omni-capable)」的大型模型——它能接收任何形式的輸入並生成任何類型的內容,而影片生成僅僅是其中的一部分。
Gemini Omni 現已在所有 Google 產品中上線。AI Plus、Pro 和 Ultra 訂閱計劃的用戶可以透過 Gemini 應用程式或 Google 的 AI 影片創作平台 Flow 來使用它。
我們第一時間訂閱了 Google 最高階的 Ultra 會員,親自對 Gemini Omni 進行了實測。
結論先行:表現不如預期。
Gemini Omni 測試一致性:大致維持穩定
Omni 最受吹捧的功能之一,是它在多次自然語言編輯循環中保持視覺一致性的能力。
在 Google 的官方演示中,原始素材顯示一名小提琴手在室內演奏。在改變背景環境、切換攝影機角度,甚至完全移除小提琴後,演奏者的表情、動作、光影,甚至是手部細微的姿勢,都與新的場景完美適配,且音樂也隨之調整。
無論是編輯的精準度還是主體的一致性,看起來都確實令人驚艷。
於是我們親自進行測試,首先是環境與氛圍的轉換。
我們的第一個提示詞:從鳥瞰視角拍攝兩輛車在十字路口相撞的畫面,其中一輛是藍色跑車,氣氛緊張刺激。
隨後,我們進行了更詳細的編輯與優化。提示詞:切換至金色日落場景,將藍色車改為紅色,並讓兩車相撞時爆出彩帶與氣球——色調要輕快、夢幻且異想天開。
車輛顏色和燈光確實按要求改變了,場景的整體結構與動態也大致保持連貫,沒有出現撕裂或視覺畸變。
然而,出現了一個微妙但關鍵的問題:Omni 對碰撞瞬間的處理並不理想。在兩段影片中,兩輛車看起來都像是刻意對著彼此開過去——甚至在碰撞前略微減速並調整了角度。
一句話總結:太過刻意。就像你能看見 Omni 的「隱形之手」在強行將車輛推入指定位置以滿足提示詞要求一樣。
接著,我們測試了 Omni 在動態運動中保持一致性的能力。基準:單一角色在多個攝影機角度間切換,面部特徵、服裝、道具,甚至髮型都必須保持穩定——不能出現「同套衣服在不同角度顏色不同」之類的錯誤。
我們的提示詞:一段中景追蹤鏡頭,拍攝一名穿著紅裙的女性舞者在舊火車站表演當代舞,跳躍後切換至遠景固定鏡頭,紅裙與車站背景全程保持絕對一致。
這一次表現還算不錯。舞者的動作流暢連續,紅色絲質裙裝的物理感看起來相當真實,從中景追蹤到遠景固定鏡頭的切換也相對平滑。
Omni 還自動添加了背景音樂——雖然沒有特別具備感染力或氛圍感,但與舞蹈的基調足夠吻合。
隨後我們進行了微調,提示:移除背景音樂,僅保留環境音——腳步聲需與舞蹈動作同步,並包含裙擺摩擦的輕柔聲響。
問題就在這裡變得混亂了。影片前半段確實捕捉到了裙擺搖曳和腳落地時的細微聲響。但在後半段,背景音樂卻莫名其妙地又冒了出來。
接著,我們測試了它理解複雜人物關係與空間位置的能力。
基準:當多個不同外貌與服裝的角色互動時,攝影機角度轉換過程中,個別角色的特徵不應混淆或互換。
我們的提示詞:一段過肩鏡頭,拍攝四到五名外貌各異的科學家在實驗室中討論全息投影,攝影機緩慢旋轉——所有角色的外貌、服裝必須全程保持不變。
或許是為了忠實配合「外貌各異」的要求,Omni 很貼心地安排了涵蓋不同年齡、性別與種族的四名角色。在旋轉鏡頭中,角色的外貌、服裝、聲音以及相對位置確實保持了高度的一致性。
唯一的遺憾是:在影片後半段,出現了一個非常明顯且突兀的剪輯點,徹底打斷了流暢感。
精細控制?還需努力
編輯與優化是 Google 官方宣傳中的另一大重點。
因此,我們直接開始測試——找了一段最近在韓國社群媒體上爆紅的 AI 生成影片(觀眾看棒球),並輸入一張動漫風格的角色圖(來自 Google 自家的演示素材),要求它將原影片中的人物替換為圖中的角色。
結果如何?委婉地說,令人失望。
替換後的角色雖然大致維持了與原人物相同的位置,但微表情——咬唇、躲閃的眼神、注意到鏡頭時的淺笑——幾乎都在轉換過程中丟失了。
這種對精細細節處理的無力並非個案。
我們要求 Omni 生成一段影片:一名中年男子站在昏暗的房間裡,對著鏡中的自己輕聲說道:「我知道是你做的。別再裝了。」
最初的結果其實還算不錯——除了中文口音稍微有點怪,唇形與單詞的對應相當準確。至於它是否傳達出了真正的人類情感,這屬於見仁見智。
但當我們嘗試更改男子的對話時,Omni 的邏輯似乎徹底崩潰了。
提示詞:一名中年男子在昏暗的房間裡,對著鏡子輕聲說:「5月20日又到了——週年快樂。」
首先,它完全無法理解「更改對話」的概念,只是簡單地將新台詞作為字幕貼在螢幕底部。接著,它折衷處理——呈現了一半舊台詞加一半新台詞。到了最後一次嘗試,它已經徹底失控了。
燈光確實變亮了一點,表情也變成了微笑——但現在我們看到一個男人笑得很溫暖地說著「我知道是你做的。別再裝了」,背景還伴隨著同樣詭異的音樂。不知為何,這比最初的版本更令人毛骨悚然。
簡而言之,在精細控制方面,Omni 還有很長的路要走。
用於生產級影片生成的統一 API
雖然 Google 正在將 Gemini Omni Flash 導入 Gemini 應用程式和 Google Flow 以服務終端用戶,但對於希望將同樣的多模態影片引擎嵌入自身工作流程的開發者和產品團隊來說,他們需要一個穩定且可預測的 API 層。
Atlas Cloud 透過相容 OpenAI 的統一 API 提供 Gemini Omni Flash,同時支援超過 300 種其他的圖像、影片和 LLM 模型——因此您可以整合 Google 的原生多模態模型,而無需管理多個供應商帳戶、帳單門戶或 SDK。
兩種 Gemini Omni Flash 版本現已在 Atlas Cloud 上線:
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
| 版本 | 適用場景 | 輸入 | 解析度 | 時長 | 起價 |
| Gemini Omni Flash Text-to-Video (開發者版) | 純提示詞驅動的電影級生成 | 文字 (上限 20,000 字元) | 720p / 1080p / 4K | 4, 6, 8, 10 秒 | USD0.2 + USD0.1/秒 |
| Gemini Omni Flash Image-to-Video (開發者版) | 具備主體一致性的真實參考影片 | 文字 + 上限 7 張參考圖 | 720p / 1080p / 4K | 4, 6, 8, 10 秒 | USD0.2 + USD0.1/秒 |
快速入門 — 用 5 行程式碼生成一段 Gemini Omni Flash 影片:
plaintext1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \ 2 -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \ 3 -H "Content-Type: application/json" \ 4 -d '{ 5 "model": "google/gemini-omni-flash/text-to-video-developer", 6 "input": { 7 "prompt": "A misty forest at golden hour, cinematic dolly shot", 8 "resolution": "1080p", 9 "duration": 8, 10 "aspect_ratio": "16:9" 11 } 12 }'
API 會立即回傳一個預測 ID——請輪詢
1/api/v1/model/prediction/{id}世界知識:物理與歷史領域強勁,但仍有 Bug
最後是世界知識與推理能力。
Google 官方宣稱,基於 Gemini 旗艦模型構建的 Omni,顯著提升了對物理定律(如重力、動能和流體動力學)的理解,以及對世界歷史、科學和數學的認知。
我們直接用這個提示詞進行測試:生成一顆在大理石軌道上快速滾動並引發連鎖反應的球。
結果確實令人驚艷。Omni 自行設計了一個相當複雜的連鎖反應軌道,結合了重力、彈性、離心力等要素——所有這些看起來都相當逼真。
話雖如此,後半段出現了一個 Bug:莫名其妙地,其中一顆彈珠變成了兩顆。
我們又試了一個:一顆球在 U 型軌道內壁來回滾動,最終停在最低點。
這個表現有點怪。
球確實按要求在 U 型軌道來回滾動並停在底部——但整個過程感覺就像發生在地球以外的地方。球的移動帶有一種奇怪的失重感和漂浮感,有時看起來還會輕微穿過軌道的幾何結構。
最後,我們加入了一個提示詞——簡短、有力且具備明確的中文文化參照:生成一段唐太宗與其兄長在玄武門對峙的影片。
嗯——背景中「玄武門」三個中文字有點模糊,兩位唐朝人物說著帶有外國口音的普通話。但 Omni 確實抓住了這個歷史參照,呈現出了李世民與李元吉之間劍拔弩張、充滿緊張感的對峙畫面。
至少在世界歷史方面,Omni 似乎下了不少功夫。
總結:期待 Seedance 2.1
關於 Omni 的熱議早在今天的發布之前就已經開始了。
這一切始於 5 月初,當時一位用戶在 Gemini 影片生成頁面上發現了一行小字:「由 Omni 驅動」。這個微小的細節在全球科技圈引發了一波臆測浪潮。
每個人都在問同一個問題:Omni 究竟是什麼?它是 Veo 4,繼 Google I/O 2025 的 Veo 3 之後的下一代產品嗎?還是一個全新的多模態模型?這就是為什麼早期的報導一直在「Gemini Omni」和「Veo 4」之間搖擺不定。
隨後在 5 月 11 日,一段洩漏的內部測試影片——「教授在黑板上推導方程式」——在 X 上走紅,短短幾天內瀏覽量突破 240 萬次。
在短短 10 秒內,短片切換了多個角度——教授的背影、側面輪廓、粉筆在黑板上寫方程式的特寫——全程伴隨著粉筆在黑板上摩擦的細微聲響,且板上的每個公式在數學上都是正確的。市場預期直接飆升。
當時的說法是,Omni 已經完全內化了電影語言和編輯直覺——多角度剪輯、內建原生背景音樂——並且能夠「開箱即用,產出完成度極高的影片」。
但如今,在萬眾期待之後 Gemini Omni 終於到來,反應卻顯得相當兩極。
看來我們只能繼續關注 Seedance 2.1 了——無論它何時現身。







