Gemini Omni 功能評測:透過自然對話編輯影片

Gemini Omni 透過自然對話編輯影片的實測評測。深入解析 I/O 2026 演示、實際工作流程,以及創作者必備的重點知識。

Gemini Omni 功能評測:透過自然對話編輯影片

Google 在 2026 年 I/O 大會上推出了 Gemini Omni —— 這是一款多模態模型,它能透過簡單的英語對話,而非時間軸或關鍵影格來編輯影片。網路上瘋傳的演示(氣泡雕塑、液體鏡面、小提琴手)證實了一個真正的轉變:這不僅僅是「文字生成影片」,而是「文字編輯你現有的影片」。這是影片創作領域的「iPhone 相機時刻」。值得注意的是,語音、音訊編輯以及 Pro 等級功能均暫未開放,這顯然是刻意為之。

現在是凌晨 1 點。你已經為一段 30 秒的剪輯奮戰了四個小時。你的專案檔裡有 47 個圖層。你拖曳關鍵影格拖到手腕發疼。客戶這時傳來訊息:「可以把光影調得更溫暖一點嗎?」而身為專業人士的你,正準備從頭來過。

以前這就是工作內容。那段日子已經過去了。

2026 年 5 月 19 日,Google 低調地結束了那個時代。

在 2026 年 I/O 大會上,Google 宣布推出 Gemini Omni —— 這是一款多模態模型,將影片編輯變成了我們大多數人以為還需要十年才能實現的樣子:一場正常的對話

核心承諾:停止操作影片,開始與它對話

用一句話總結其賣點:你不再需要「操作」影片 —— 你只需要告訴它你想要什麼。

Google 的公告直截了當地指出:「每一條指令都建立在上一條的基礎上。你的角色保持一致,物理規律精確,場景會記得之前發生過的事。」

這並非 Veo 的一次更新。Google DeepMind 的產品頁面給出了更簡潔的定位:「將 Gemini Omni 想像成影片版的 Nano Banana。」去年,Nano Banana 讓照片編輯變得像輸入需求一樣簡單,現在 Omni 將同樣的能力應用到了動態影像上。

該系列的首款模型 —— Gemini Omni Flash —— 已經在 Gemini 應用程式、Google Flow 和 YouTube Shorts 中上線。

這句話將重塑你對整個領域的認知:在 TechCrunch 對 DeepMind 團隊的採訪中,研究工程師 Gabe Barth-Maron 將人們使用 Omni 創作的內容形容為「個人化迷因 (personalized memes)」。

這就是核心論點。影片創作已從工藝轉向表達 —— 正如當年 iPhone 取代單眼相機時,攝影領域所經歷的轉變。

震撼推特的演示

行銷文案看再多也比不上演示帶來的衝擊。以下三個案例目前在網路上廣為流傳:

  • 氣泡雕塑: 輸入一段石雕的片段,輸入指令「把這個雕塑變成氣泡做的」,下一次渲染時,它會保留相同的構圖、光影和陰影 —— 但雕塑變成了半透明的肥皂材質,並捕捉到了環境光。
  • 液體鏡面: 一隻手觸碰鏡子;指令要求 Omni「讓鏡面像液體一樣美妙地泛起漣漪,並將人的手臂變成反光鏡面材質」。正如 Windows Report 所記錄的,漣漪會向外物理性擴散,且手臂上的鉻材質會反射真實的房間環境。
  • 連續編輯: Google 的小提琴手演示展示了同一個主題在三輪編輯後的變化:舞台 → 運輸場景 → 肩後攝影機視角。三次編輯,同一個人。臉部、姿勢、握琴手法 —— 全部保持一致。

Three viral Gemini Omni demos: bubble sculpture, liquid mirror, and violinist shoulder-cam angle edits.jpg

這不是「文字生成影片」,這是「文字編輯你現有的影片」。區別看似細微,卻改變了一切。

為什麼創作者們為之瘋狂

這項技術之所以比其他模型發布更具震撼力,原因很簡單:Omni 消除了生成式影片中最糟糕的循環。

舊循環: 生成 → 不滿意 → 重寫整個提示詞 → 等待 90 秒 → 效果依然不佳 → 重複。

新循環: 生成 → 「把光影改成黃金時刻」 → 完成 → 「現在放慢攝影機的推進速度」 → 完成。

Gemini Omni conversational refinement loop.jpg

Android Central 的評價毫不留情:「Gemini Omni 可能會讓傳統影片編輯軟體顯得過時。」TechRadar 也持相同觀點但更細緻,指出動作現在能在編輯中保持連貫,而不會在每次輸入提示詞後重置。

開發者們已經行動起來。在開發者論壇 V2EX 上,一位中國開發者在發布當天進行了測試並寫道:「基於對話來修改影片內的物體 —— 這種交互方式顯然是未來方向。速度和一致性超出了我的預期。」在 X 上,免疫學家兼 AI 評論員 Dr. Derya Unutmaz 在主題演講後幾分鐘內發推表示:「哇!Google DeepMind 剛剛發布了一款名為 Gemini Omni 的驚人 AI 多模態模型。影片看起來太棒了!必須趕快試試!」

當 AI 領域的 Twitter 菁英與中國開發者社群在數小時內得出同樣的結論時,你正見證一個真正的轉折點。

Google 低調保留的部分

若不提及風險,這封情書就不完整。

Half-human half-AI portrait illustrating Gemini Omni uncanny valley and deepfake detection challenge.jpg

Engadget 指出了其中的隱憂:「Veo 3.1 和其他影片生成應用程式的主要問題在於影片常有『恐怖谷』效應,且常被終端使用者詬病。輸出品質是否能符合 Google 誇大的宣傳還有待觀察。」

DataCamp 的實測已經發現了一個真正的物理錯誤 —— 一個投石器將砲彈向後發射。評論者還指出,該模型尚未發布基準測試分數,因此第三方獨立驗證還需要數週時間。

此外,還有一個刻意的缺失:現有影片中的語音和音訊編輯。正如 Google 自己承認的那樣,公司「仍在測試此功能,以更了解如何負責任地將其提供給使用者。」翻譯過來就是:深偽 (deepfake) 風險是真實存在的,他們將最危險的功能暫時隱藏了起來。

每個 Omni 輸出的片段都附帶 Google 的隱形 SynthID 水印以及 C2PA 內容憑證 —— 來源可在 Gemini 應用程式、Chrome 和搜尋中驗證。這不是可選項,這是現在的基本規則。

這對你的工作流程意味著什麼

剝去炒作的外衣,你將得到一些真正創新的東西:

  • 工具即對話: 沒有時間軸,沒有圖層,沒有關鍵影格。只有文字。
  • 回饋循環被壓縮: 過去需要 90 秒的重新生成,現在變成 10 秒的微調。
  • 專業護城河縮小: 當任何有品味的人都能像傳送 Slack 訊息一樣快速迭代影片時,瓶頸將從執行能力轉移到創意發想。

對於行銷團隊、獨立創作者、教育工作者,以及任何需要「快速剪輯 10 秒片段」的人來說 —— 這就是轉折點。並非因為模型已經完美,而是因為交互模式終於對了。

未來的影片編輯不再需要軟體。它只需要詞彙。

最後一點 —— 給那些正在開發相關應用的人

每次像這樣的模型發布背後,都有一個尷尬的現實:到下個季度,還會有三個自稱「全球最強影片模型」的公告出現。每一個都會有不同的 SDK、不同的驗證流程、不同的速率限制機制,以及不同的定價模型。你的團隊將會花上一週時間來適應每一個新模型,然後再花一週時間來淘汰上一個。

這正是 Atlas Cloud 要解決的問題。

我們為開發者提供一個存取 300 多個模型的統一端點 —— 包括所有主流基礎模型、領先的開源版本,以及在影像、影片和推理領域的快速發展專家模型。只需一行程式碼即可切換模型。無需重新整合 SDK 即可進行並行基準測試。今天熱門的模型,明天想換成其他模型,通通無須重寫任何程式碼。

因為目前 AI 領域唯一確定的事,就是排行榜每週都在變。請為此做好準備。

最新模型

300+ 模型,即刻開啟,

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.