Gemini Omni 實測：令人驚艷，但仍有進步空間

經過數週的洩漏與臆測，Gemini Omni 終於在今天凌晨的 Google I/O 2026 大會上正式亮相。

它既不是傳聞中那款專門的影片生成模型，也不是繼 Veo 3 之後命名序列下的「Veo 4」。Google DeepMind 執行長 Demis Hassabis 親自登台宣布：

「我們正在邁出下一個重要步伐——Gemini Omni，這是一個全新的模型，能夠利用任何輸入內容進行創作。」

Gemini Omni I/O 2026 影片編輯演示

換句話說，Gemini Omni 是一個真正具備「全能 (Omni-capable)」的大型模型——它能接收任何形式的輸入並生成任何類型的內容，而影片生成僅僅是其中的一部分。

Gemini Omni 現已在所有 Google 產品中上線。AI Plus、Pro 和 Ultra 訂閱計劃的用戶可以透過 Gemini 應用程式或 Google 的 AI 影片創作平台 Flow 來使用它。

我們第一時間訂閱了 Google 最高階的 Ultra 會員，親自對 Gemini Omni 進行了實測。

結論先行：表現不如預期。

Gemini Omni 測試一致性：大致維持穩定

Omni 最受吹捧的功能之一，是它在多次自然語言編輯循環中保持視覺一致性的能力。

在 Google 的官方演示中，原始素材顯示一名小提琴手在室內演奏。在改變背景環境、切換攝影機角度，甚至完全移除小提琴後，演奏者的表情、動作、光影，甚至是手部細微的姿勢，都與新的場景完美適配，且音樂也隨之調整。

無論是編輯的精準度還是主體的一致性，看起來都確實令人驚艷。

於是我們親自進行測試，首先是環境與氛圍的轉換。

我們的第一個提示詞：從鳥瞰視角拍攝兩輛車在十字路口相撞的畫面，其中一輛是藍色跑車，氣氛緊張刺激。

隨後，我們進行了更詳細的編輯與優化。提示詞：切換至金色日落場景，將藍色車改為紅色，並讓兩車相撞時爆出彩帶與氣球——色調要輕快、夢幻且異想天開。

車輛顏色和燈光確實按要求改變了，場景的整體結構與動態也大致保持連貫，沒有出現撕裂或視覺畸變。

然而，出現了一個微妙但關鍵的問題：Omni 對碰撞瞬間的處理並不理想。在兩段影片中，兩輛車看起來都像是刻意對著彼此開過去——甚至在碰撞前略微減速並調整了角度。

一句話總結：太過刻意。就像你能看見 Omni 的「隱形之手」在強行將車輛推入指定位置以滿足提示詞要求一樣。

接著，我們測試了 Omni 在動態運動中保持一致性的能力。基準：單一角色在多個攝影機角度間切換，面部特徵、服裝、道具，甚至髮型都必須保持穩定——不能出現「同套衣服在不同角度顏色不同」之類的錯誤。

我們的提示詞：一段中景追蹤鏡頭，拍攝一名穿著紅裙的女性舞者在舊火車站表演當代舞，跳躍後切換至遠景固定鏡頭，紅裙與車站背景全程保持絕對一致。

這一次表現還算不錯。舞者的動作流暢連續，紅色絲質裙裝的物理感看起來相當真實，從中景追蹤到遠景固定鏡頭的切換也相對平滑。

Omni 還自動添加了背景音樂——雖然沒有特別具備感染力或氛圍感，但與舞蹈的基調足夠吻合。

隨後我們進行了微調，提示：移除背景音樂，僅保留環境音——腳步聲需與舞蹈動作同步，並包含裙擺摩擦的輕柔聲響。

問題就在這裡變得混亂了。影片前半段確實捕捉到了裙擺搖曳和腳落地時的細微聲響。但在後半段，背景音樂卻莫名其妙地又冒了出來。

接著，我們測試了它理解複雜人物關係與空間位置的能力。

基準：當多個不同外貌與服裝的角色互動時，攝影機角度轉換過程中，個別角色的特徵不應混淆或互換。

我們的提示詞：一段過肩鏡頭，拍攝四到五名外貌各異的科學家在實驗室中討論全息投影，攝影機緩慢旋轉——所有角色的外貌、服裝必須全程保持不變。

或許是為了忠實配合「外貌各異」的要求，Omni 很貼心地安排了涵蓋不同年齡、性別與種族的四名角色。在旋轉鏡頭中，角色的外貌、服裝、聲音以及相對位置確實保持了高度的一致性。

唯一的遺憾是：在影片後半段，出現了一個非常明顯且突兀的剪輯點，徹底打斷了流暢感。

精細控制？還需努力

編輯與優化是 Google 官方宣傳中的另一大重點。

因此，我們直接開始測試——找了一段最近在韓國社群媒體上爆紅的 AI 生成影片（觀眾看棒球），並輸入一張動漫風格的角色圖（來自 Google 自家的演示素材），要求它將原影片中的人物替換為圖中的角色。

結果如何？委婉地說，令人失望。

替換後的角色雖然大致維持了與原人物相同的位置，但微表情——咬唇、躲閃的眼神、注意到鏡頭時的淺笑——幾乎都在轉換過程中丟失了。

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

這種對精細細節處理的無力並非個案。

我們要求 Omni 生成一段影片：一名中年男子站在昏暗的房間裡，對著鏡中的自己輕聲說道：「我知道是你做的。別再裝了。」

最初的結果其實還算不錯——除了中文口音稍微有點怪，唇形與單詞的對應相當準確。至於它是否傳達出了真正的人類情感，這屬於見仁見智。

但當我們嘗試更改男子的對話時，Omni 的邏輯似乎徹底崩潰了。

提示詞：一名中年男子在昏暗的房間裡，對著鏡子輕聲說：「5月20日又到了——週年快樂。」

首先，它完全無法理解「更改對話」的概念，只是簡單地將新台詞作為字幕貼在螢幕底部。接著，它折衷處理——呈現了一半舊台詞加一半新台詞。到了最後一次嘗試，它已經徹底失控了。

燈光確實變亮了一點，表情也變成了微笑——但現在我們看到一個男人笑得很溫暖地說著「我知道是你做的。別再裝了」，背景還伴隨著同樣詭異的音樂。不知為何，這比最初的版本更令人毛骨悚然。

簡而言之，在精細控制方面，Omni 還有很長的路要走。

用於生產級影片生成的統一 API

雖然 Google 正在將 Gemini Omni Flash 導入 Gemini 應用程式和 Google Flow 以服務終端用戶，但對於希望將同樣的多模態影片引擎嵌入自身工作流程的開發者和產品團隊來說，他們需要一個穩定且可預測的 API 層。

Atlas Cloud 透過相容 OpenAI 的統一 API 提供 Gemini Omni Flash，同時支援超過 300 種其他的圖像、影片和 LLM 模型——因此您可以整合 Google 的原生多模態模型，而無需管理多個供應商帳戶、帳單門戶或 SDK。

兩種 Gemini Omni Flash 版本現已在 Atlas Cloud 上線：

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


版本	適用場景	輸入	解析度	時長	起價
Gemini Omni Flash Text-to-Video (開發者版)	純提示詞驅動的電影級生成	文字 (上限 20,000 字元)	720p / 1080p / 4K	4, 6, 8, 10 秒	USD0.2 + USD0.1/秒
Gemini Omni Flash Image-to-Video (開發者版)	具備主體一致性的真實參考影片	文字 + 上限 7 張參考圖	720p / 1080p / 4K	4, 6, 8, 10 秒	USD0.2 + USD0.1/秒

快速入門 — 用 5 行程式碼生成一段 Gemini Omni Flash 影片：

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'