Gemini Omni 功能：建立符合真實物理定律的輸出內容

電影級 AI 影片剪輯——絢麗的燈光、一個人走在夜晚的東京街頭——但到了中途，他的腳卻穿過了路緣石。或者雨在畫面中間突然停止。又或是咖啡杯短暫地與自己重疊。

這種錯覺在維持了整整六秒後，被物理定律的失誤打破了。

三年來，這一直是生成式影片核心中無法修復的 Bug。模型可以模仿外觀，但它們無法模擬世界。

5 月 19 日在 I/O 2026 大會上，Google 的 Gemini Omni 證明了這個 Bug 終於可以修復，並悄悄向觀眾展示了一個演示，其論證效果遠勝於任何基準測試。

打破 AI 影片社群的「彈珠演示」

這段演示內容如下：一顆玻璃彈珠沿著複雜的連鎖反應軌道滾動。它撞擊盤子、觸發鈴鐺、滑下斜坡、推倒骨牌，進而引發其他連鎖反應。每一次接觸都有可信的反應力，每一次著陸都有對應的聲音。

9to5Google 的報導毫不掩飾其驚訝之情：「這段滾動彈珠的影片是一個絕佳的範例，彈珠展現了可信的物理特性，每次碰撞和鈴聲也都伴隨著令人信服的音效。」

這句話聽起來平淡，但實際上卻是一個行業里程碑。

該演示在幾小時內就瘋傳開來。即使是 AI 領域的重量級人物也無法保持沈默——免疫學家兼 AI 評論員 Derya Unutmaz 博士在發表會後幾分鐘內便推文寫道：「哇！Google DeepMind 剛剛發布了一款名為 Gemini Omni 的驚人 AI 多模態模型。影片效果超級棒！必須趕快試試！」

為什麼「滾動彈珠」在過去三年是不可能的任務

要理解為什麼彈珠演示配得上「行業里程碑」的稱號，你必須看看自 2023 年以來 AI 影片一直在哪些地方失敗。

在 Sora 時代，視覺品質已經達標。模型可以渲染出一個人走在東京夜晚街頭的 4K 電影級影片。但是：

噴泉裡的水會「向上」流
勺子會穿過一碗麥片
角色的腿在邁步時會短暫變成透明
重力定律……大多時候有效

視覺效果達到了 90%，但世界模型只有 50%。一旦觀眾發現了一個物理破綻，就再也無法忽視它，整個錯覺隨之瓦解。

對於專業創作者而言，這不是潤飾問題，而是可用性的鴻溝。如果不手動逐幀檢查物理破綻，你就無法將 AI 影片交付給客戶。這意味著大多數企業團隊完全忽略了這種媒介。

Google 憑藉 Omni 發起的攻勢正是針對這一痛點。官方發布頁面用一句話概括：「Omni 對重力、動能和流體動力學等力學有了更直觀的理解，讓您能創造出更逼真的場景。」

Hassabis 說出了核心重點

I/O 2026 大會上最發人深省的一句話並非來自行銷簡報，而是來自 DeepMind 執行長 Demis Hassabis 在台上的發言：他將 Omni 描述為**「邁向通用人工智慧（AGI）的一步」。**

正如 Decrypt 報導，Hassabis 明確地將物理模擬與更宏大的 AGI 抱負連結起來——稱 Gemini 為「一個能夠理解並模擬世界的世界模型 AI」。

正是這種框架讓大眾必須提高警覺。Hassabis 並不是在聲稱 Omni 是一個更好的影片玩具。他是在說：一個真正理解物理法則的模型，終將成為能夠在實體世界中採取行動的模型。 而這正是機器人所需要的。

中國以外沒人注意到的「機器人視角」

Gemini Omni world model diagram linking AI video generation, physics simulation, and robotics training.jpg

這裡有一個大多數英語報導完全忽略的視角，而中國科技媒體率先捕捉到了它。

根據新浪財經引用 DeepMind 技術長 Koray Kavukcuoglu 的報導，Omni 的物理理解能力「已被直接應用於前沿機器人的訓練中」。

Technobezz 也採納了相同的觀點：Omni 具備「比 Veo 多得多的世界知識」，因為它繼承了 Gemini 的底層訓練數據——而這些數據現在包含了大量的物理模擬基礎。

翻譯過來就是：彈珠演示不是給內容創作者看的花招。 它是 Google 用來教導機器人如何抓取、投擲、平衡和反應的模擬器之公開預覽。影片模型只是巨大的「世界模型冰山」露出水面的一角，這一領域從生成影片延伸到了物理理解，再到具身智慧（Embodied AI）。

突然間，滾動的彈珠看起來就不一樣了。它不再僅僅是「Google 製作了一個很酷的物理演示」，更像是「Google 悄悄向世界展示了他們的機器人預訓練流程已經運作中」。

被所有人遺漏的隱藏證據：黑板演示

這是另一個在中國科技論壇中悄悄流傳的物理證據。

在 I/O 2026 大會前幾天，一段外洩的 Omni 演示開始流傳：一位教授在黑板上寫出完整的三角恆等式證明。正如 36Kr 的報導所述，公式在數學上是正確的，步驟邏輯連貫，筆跡自然——這些全都是透過一個簡單的英語提示詞生成的。

這聽起來像是文字渲染的成就。但實際上，這是一種變相的物理成就。

正確的筆跡要求 AI 模擬：

手部形成每個字元時的力學機制
證明過程通常的書寫順序
粉筆在黑板上的物理壓力
推導步驟的時間邏輯

相比之下，Sora 生成的黑板文字，正如 36Kr 文章所言，「看起來像書寫，但仔細一看完全是胡言亂語」。

這是相同的核心能力——物理與時間一致性——應用在不同的領域。彈珠碰撞正確，粉筆擊中黑板正確。兩者都是同一個世界模型在不同表面測試中的展現。

但讓我們還不要加冕任何人

如果不加上附註，寫這封「情書」是不負責任的。

DataCamp 的實測評論已經抓到 Omni 在物理法則上出現失誤。評論者要求製作一個投石機發射的畫面——結果拋射物竟然「向後」飛。Bug 是真實存在的。只是因為評論者選擇了掛毯風格，這種不完美反而像中世紀藝術一樣融合在一起，顯得好笑而非慘烈。

Engadget 也對那些狂熱的報導潑了冷水：「Veo 3.1 和其他影片生成應用程式的主要問題在於它們有『恐怖谷』效應，且常被終端使用者詬病。觀察輸出品質是否能符合 Google 的誇大宣傳將會非常有趣。」

還有三個現實檢查：

未發布基準測試。 Google 在發布時並未公開數字化的評估數據。獨立的第三方基準測試還需要幾週才會出現。
10 秒影片限制。 根據 TechCrunch 對 DeepMind 的採訪，Omni Flash 目前限制輸出為 10 秒。未來會增加長度，但目前它仍屬於短影音領域。
音訊/語音編輯功能受限。Google 自己也承認，公司「仍在測試並致力於更好地了解如何負責任地將此功能提供給使用者」——也就是說，語音編輯中的深偽（Deepfake）風險是真實存在的，Google 刻意尚未開放此功能。

每個 Omni 的影片片段都附帶了 Google 不可見的 SynthID 水印 以及 C2PA 內容憑證，可在 Gemini 應用程式、Chrome 和搜尋引擎中驗證。值得一提的是：隨著物理模擬變得越來越逼真，加密溯源的必要性只會增強，而非減弱。假像看起來越逼真，我們就越需要知道它是一個贗品。

Omni 在物理性能上與 Sora、Veo 和 Seedance 的比較

截至 2026 年 5 月，領先的 AI 影片模型在物理與世界理解方面的表現對比如下：

模型	物理真實性	世界知識	對話式編輯	狀態
Gemini Omni Flash	新領袖（自稱）	最佳 — 繼承 Gemini 的訓練	是，支援多輪	2026 年 5 月 19 日上線
Sora 2 (OpenAI)	有所改進但仍有瑕疵	有限	否	Sora App 已終止；API 將於 2026 年 9 月停止服務
Veo 3.1 (Google)	尚可，無世界知識	有限	僅限文字+圖像輸入	上線中，正被 Omni 取代
Seedance 2.0 (ByteDance)	動作表現強勁	優良	有限	上線中；在 Artificial Analysis 影片競技場排名第一

誠實的解讀是：Omni 提出了最強勢的物理性能聲明，Seedance 擁有當前最強的公開基準測試，Sora 正在退出消費市場，而 Veo 則在悄悄被整合。

這對各行業的實際改變

如果物理定律問題現在已解決（或接近解決），以下是將會釋放的潛力：

對電影製作人和廣告創意人員： 無需再進行逐幀物理檢查。過去耗費整天時間進行的微調整工作——修復一個故障物體、重新製作一個糟糕的彈跳——將會消失。預製腳本製作的速度將大幅加快，概念到分鏡的距離從幾週縮短到幾分鐘。

對教育工作者： 無需動畫師即可製作精確的科學解說影片。Hassabis 在 I/O 上展示的蛋白質折疊黏土動畫不是噱頭——這是每位高中物理老師很快就能以不到 20 美元的計算成本所能製作的預覽。連鎖反應軌道、流體動力學、行星運動：所有內容都將變成隨選的解釋工具。

對機器人團隊： 這證實了 DeepMind 擁有大規模運作的物理模擬器。即使您沒有使用 Google 的技術堆疊，單一主流實驗室具備 Omni 級別的物理模擬能力，也改變了整個行業「具身智慧」的發展時間表。

對遊戲工作室： 不會破壞沈浸感的 AI 生成過場動畫。遊戲過場動畫一直是物理保真度最重要、也是 AI 影片工具最難以勝任的地方。Omni 提高了這個標竿。

對廣告主： 看起來不再虛假的產品影片。品牌避開 AI 影片的原因並非品質，而是那些突兀的破綻。當蘇打水準確倒入玻璃杯、當運動鞋底在撞擊時產生真實的彎曲時，AI 影片將成為可商用的產品。

新的分界線——為什麼被單一模型綁定現在風險很大

對於任何在 2026 年構建 AI 產品的人來說，這裡有重點結論。

過去 AI 影片的基準是「視覺品質」。新的基準是「世界理解」。隨著這種轉變發生，模型格局正在分裂成超專業的領導者：

Gemini Omni 現在聲稱擁有物理+推理的王座
字節跳動的 Seedance 在電影級動作和角色動畫上依然保持領先
其他模型在長影音生成、實時編輯、音訊同步或低成本批量輸出方面領先

對於開發者來說，這種碎片化是一個嚴重的營運負擔。本季物理性能最好的模型，不一定是下一季角色一致性最好的模型。今天 4K 電影級輸出最好的模型，不一定是六個月後最具成本效益的批量生成模型。且每一家都附帶自己的 SDK、認證流程、定價模型和頻率限制怪癖。你的團隊很容易在每個模型的整合上損失整個工程衝刺（Sprint）時間，甚至在每次棄用時再損失一個衝刺。

這正是 Atlas Cloud 旨在解決的缺口。我們為開發者提供了一個單一的端點，可以存取 300 多個模型——涵蓋所有主要的基礎模型、領先的開源發布，以及在圖像、影片、音訊和推理方面快速更迭的專業模型。只需一行代碼即可切換模型。在不重建整合的情況下進行並行評估。交付此時此刻最適合您特定需求功能的模型，並在排行榜變動的瞬間立即切換到下一個領先者，而無需重寫單一端點。

數學題很簡單：在一個物理、角色一致性、電影級動作和文字渲染各有領先模型的世界中，最糟糕的架構決策就是將自己綁定在其中任何一個模型上。

Atlas Cloud 是一個抽象層，使碎片化的模型格局變得可導航，而不是您團隊的隱形成本。

影片生成的單一 API

當 Google 在 Gemini 應用程式和 Google Flow 中向終端使用者推出 Gemini Omni Flash 時，想要將相同的多模態影片引擎嵌入自己工作流的開發者和產品團隊，需要一個穩定、可預測的 API 層。

Atlas Cloud 透過與 OpenAI 相容的統一 API 提供 Gemini Omni Flash，以及其他 300 多個圖像、影片和 LLM 模型——因此您可以整合 Google 的原生多模態模型，而不必應對繁瑣的供應商帳戶、計費入口或 SDK。

兩種 Gemini Omni Flash 變體現已在 Atlas Cloud 上線：

變體	適用場景	輸入	解析度	時長	起價
Gemini Omni Flash Text-to-Video (Developer)	純提示詞驅動的電影級生成	文字 (最高 20,000 字元)	720p / 1080p / 4K	4, 6, 8, 10 秒	$0.2 + $0.1/秒
Gemini Omni Flash Image-to-Video (Developer)	基於真實參考的主題一致性影片	文字 + 最高 7 張參考圖	720p / 1080p / 4K	4, 6, 8, 10 秒	$0.2 + $0.1/秒

快速入門——用 5 行代碼生成一個 Gemini Omni Flash 影片：

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

API 會立即返回一個預測 ID——透過輪詢 /api/v1/model/prediction/{id} 即可獲得生成的 MP4 網址。完整的 API 架構、7 種語言的代碼範例以及無代碼遊樂場（Playground）可在上述連結的模型頁面上找到。

真正的結論

「哪種 AI 影片看起來最漂亮」的時代結束的速度比大多數人意識到的還要快。

取而代之的是「哪種 AI 影片真正理解這個世界」的時代。而在這場競賽中，一顆滾動的彈珠——以可預測的方式彈跳、以正確的音高敲響鈴鐺、停在物理規律規定的位置——證明了它比 Google 所能渲染的任何照片級逼真風景都要重要得多。

漂亮的像素已經過時了。世界模型才是王道。

AI 影片的未來三年，將在這裡決出勝負。

返回列表

再見了「漂浮湯匙」：Google Gemini Omni 如何讓 AI 影片符合真實物理定律

打破 AI 影片社群的「彈珠演示」

為什麼「滾動彈珠」在過去三年是不可能的任務

Hassabis 說出了核心重點

中國以外沒人注意到的「機器人視角」

被所有人遺漏的隱藏證據：黑板演示

但讓我們還不要加冕任何人

Omni 在物理性能上與 Sora、Veo 和 Seedance 的比較

這對各行業的實際改變

新的分界線——為什麼被單一模型綁定現在風險很大

影片生成的單一 API

兩種 Gemini Omni Flash 變體現已在 Atlas Cloud 上線：

快速入門——用 5 行代碼生成一個 Gemini Omni Flash 影片：

真正的結論

最新模型

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

一個 API，暢享全模態 AI。

Join our Discord community