一個電影級的 AI 影片短片——華麗的燈光,一個人走在夜晚的東京街頭——然後,在影片進行到一半時,他們的腳竟然穿過了路緣。或者雨在畫面中間突然停了。又或者咖啡杯短暫地與自身重疊。
這個錯覺在精確的六秒鐘內是完美的,直到物理法則介入打破了它。
三年來,這一直是生成式影片核心中那個無法修復的 Bug。模型可以模仿外觀,但它們無法模擬這個世界。
在 2026 年 5 月 19 日的 I/O 大會上,Google 的 Gemini Omni 證明了這個 Bug 終於可以修復,並悄悄地向觀眾展示了一個單一演示,其論證效果比任何基準測試都更強而有力。
震驚 AI 影片社群的彈珠演示
這個演示的內容是:一顆玻璃彈珠滾過一條複雜的連鎖反應軌道。它撞擊盤子、觸發鈴鐺、沿著斜坡滑下、撞倒骨牌進而引發其他反應。每一次接觸都有令人信服的反作用力,每一次落地都有相匹配的音效。
9to5Google 的報導毫不掩飾其驚訝之情:「這段彈珠滾動的影片是一個很好的例子,球體具備可信的物理特性,且每一次彈跳和鈴聲都有令人信服的音效。」
這句話聽起來平淡無奇,但事實上,這是一個行業里程碑。
該演示在幾小時內就爆紅。連 AI 領域的大咖們都無法保持沈默——免疫學家兼 AI 評論員 Dr. Derya Unutmaz 在主題演講後幾分鐘內發推文表示:「哇!Google DeepMind 剛剛發布了一款名為 Gemini Omni 的驚人多模態 AI。影片看起來太棒了!必須趕快試試!」
為什麼「滾動彈珠」在過去三年是不可能的任務
要理解為什麼彈珠演示值得被稱為行業里程碑,你必須看看 AI 影片自 2023 年以來一直未能解決的問題。
在 Sora 時代,視覺品質已經達標。模型可以渲染出 4K 電影級的片段,呈現某人走在夜晚的東京街頭。但是:
- 噴泉的水往「上」流
- 湯匙會穿過麥片碗
- 角色的腿在邁步時會短暫變得透明
- 重力運作得……還算正常
視覺效果達到了 90%,但世界模型只有 50%。一旦觀眾發現了一個物理破綻,就再也無法忽視。整個錯覺便會隨之崩塌。
對於專業創作者而言,這不僅僅是修飾問題,而是一個可用性的懸崖。你無法在沒有手動逐幀檢查物理錯誤的情況下將 AI 影片交付給客戶。這意味著大多數企業團隊完全忽略了這種媒介。
Google 藉由 Omni 提出的解決方案正好切中這一痛點。官方發布頁面用一句話總結:「Omni 對重力、動能和流體動力學等力學有更好的直觀理解,讓你能創造出更逼真的場景。」
Hassabis 說出了心照不宣的真相
2026 年 I/O 大會上最具啟發性的台詞並非來自行銷簡報,而是來自 DeepMind 執行長 Demis Hassabis 在台上的發言:他將 Omni 描述為**「邁向通用人工智慧(AGI)的一步」。**
正如 Decrypt 報導所述,Hassabis 明確地將物理模擬與更宏大的 AGI 願景聯繫起來,稱 Gemini 為「一個能夠理解並模擬世界的世界模型 AI」。
這種框架應該讓大眾開始關注。Hassabis 並不是在聲稱 Omni 是一個更好的影片玩具。他是在說:一個真正理解物理法則的模型,最終將能夠在物理世界中行動。 這正是機器人所需要的。
中國以外沒人捕捉到的機器人學視角

這裡有一個大多數英文媒體完全錯過的視角,而中國科技媒體率先注意到了。
根據 新浪財經引用 DeepMind 技術長 Koray Kavukcuoglu 的報導,Omni 的物理理解力「已被直接應用於前沿機器人的訓練中」。
Technobezz 也捕捉到了相同的觀點:Omni 擁有「比 Veo 多得多的世界知識」,因為它繼承了 Gemini 底層訓練數據——現在這些數據包含了大量的物理模擬基礎。
翻譯:彈珠演示不是為了內容創作者準備的噱頭。 它是 Google 用來教導機器人如何抓取、投擲、平衡和反應的模擬器的公開預覽。影片模型只是這個龐大世界模型冰山一角,一個從生成式影片 → 物理理解 → 具身智能(Embodied AI)的過程。
突然間,那顆滾動的彈珠看起來不一樣了。這不再是「Google 製作了一個很酷的物理演示」,而更像是「Google 悄悄向世界展示了他們的機器人預訓練流程已經運作起來了」。
每個人都忽略的隱藏證據:黑板演示
這是另一個在中國科技論壇上悄悄流傳的物理證據。
在 2026 年 I/O 大會的前幾天,一個流出的 Omni 演示開始流傳:一位教授在黑板上寫下完整的三角恆等式證明。正如 36Kr 報導詳述,公式在數學上是正確的,步驟邏輯連貫,且字跡自然——所有這些都是由單一英文提示詞生成的。
這聽起來像是文字渲染的成就。但實際上,它偽裝成了物理學成就。
正確的書寫要求 AI 建模:
- 手部形成每個字元時的運動力學
- 證明過程通常遵循的邏輯順序
- 粉筆在黑板上的物理壓力
- 推導步驟的時間邏輯
相比之下,Sora 生成的黑板文字,用 36Kr 的話說,「看起來像字跡,但仔細觀察完全是亂碼」。
同樣的核心能力——物理和時間一致性——被應用於不同的領域。彈珠彈跳正確,粉筆擊中黑板正確。兩者都是同一個世界模型在不同表面測試中的展現。
但我們還不能輕易下定論
如果不加上星號提醒,那這篇愛慕文就不負責任了。
DataCamp 的實測評論已經抓到 Omni 出現物理錯誤的瞬間。評測者要求進行投石機發射——結果拋射物竟然「向後」飛。這個 Bug 是真實存在的。只是因為評測者選擇了掛毯視覺風格,不完美處融合得像中世紀藝術,所以比起悲劇,它反而顯得更有趣。
Engadget 對這種過度吹捧的報導進行了反駁:「Veo 3.1 和其他影片生成 App 的主要問題在於影片有一種『恐怖谷』的外觀,且經常被終端用戶討厭。看看輸出品質是否能符合 Google 的大話將會很有趣。」
還有三個現實層面的檢查:
- 未發布基準測試。 Google 在發布時並沒有公布數值評估。獨立第三方基準測試要幾週後才會出爐。
- 10 秒影片限制。 根據 TechCrunch 對 DeepMind 的採訪,Omni Flash 目前限制在 10 秒輸出。更長的時間長度即將推出,但目前僅限於短影音領域。
- 音訊/語音編輯暫緩。Google 自己承認公司「仍在進行測試,以更好地了解如何負責任地將此功能提供給用戶」——換句話說,語音編輯中的深偽(Deepfake)風險是真實存在的,Google 刻意尚未推出該功能。
每個 Omni 片段都附帶 Google 不可見的 SynthID 水印 以及 C2PA 內容憑證,可在 Gemini App、Chrome 和搜尋中驗證。值得標記的是:隨著物理效果越趨逼真,密碼學來源證明的必要性就越強,而非越弱。偽造品看起來越像真的,我們就越需要知道它是偽造的。
Omni 在物理特性上與 Sora、Veo 和 Seedance 的比較
截至 2026 年 5 月,領先的 AI 影片模型在物理和世界理解方面的表現如下:
| 模型 | 物理真實感 | 世界知識 | 對話式編輯 | 狀態 |
|---|---|---|---|---|
| Gemini Omni Flash | 新領袖(宣稱) | 最佳 — 繼承 Gemini 訓練 | 是,多輪對話 | 2026 年 5 月 19 日上線 |
| Sora 2 (OpenAI) | 有所改善但仍有錯誤 | 有限 | 否 | Sora App 已停用;API 於 2026 年 9 月終止 |
| Veo 3.1 (Google) | 尚可,無世界知識 | 有限 | 僅限文字 + 圖片輸入 | 已上線,正被 Omni 取代 |
| Seedance 2.0 (ByteDance) | 動作表現強 | 不錯 | 有限 | 已上線;在 Artificial Analysis Video Arena 排名第一 |
客觀解讀:Omni 提出了最具侵略性的物理性能主張,Seedance 目前擁有最強的公開基準測試成績,Sora 正在退出消費市場,而 Veo 正在被悄悄整合。
這對各行業的實際改變
如果物理法則的問題現在被解決(或接近解決),以下將會解鎖:
對於電影製作人和廣告創意人員: 無需再進行逐幀物理 QA。過去耗費編輯整天時間的微調——修復一個故障物體、重新製作一次糟糕的彈跳——將不復存在。預演(Pre-production storyboarding)速度將大幅加快,概念與分鏡間的差距從幾週縮短到幾分鐘。
對於教育工作者: 不需要動畫師即可製作準確的科學解釋影片。Hassabis 在 I/O 上展示的蛋白質折疊黏土動畫演示並非噱頭——這是未來每位高中物理老師都能以不到 20 美元的運算成本製作出來的成果。連鎖反應軌道、流體動力學、行星運動:一切皆可隨需解釋。
對於機器人團隊: 這證實了 DeepMind 擁有大規模運作的物理模擬器。即使你沒在使用 Google 的架構,來自一間主要實驗室的 Omni 級物理表現,改變了整個行業對具身智能的發展時間表。
對於遊戲工作室: 不會破壞沉浸感的 AI 生成過場動畫。遊戲電影級演出一直是物理保真度最重要的地方——也是 AI 影片工具表現最差的地方。Omni 提高了標準。
對於廣告商: 不再看起來虛假的產品影片。品牌之所以避開 AI 影片並非因為品質,而是因為那種「恐怖谷」般的破綻。當汽水能正確地倒入杯中、當運動鞋鞋底在撞擊時能真實彎曲,AI 影片就具備了商業化投放的價值。
新的分界線——以及為什麼鎖定單一模型現在很危險
這對於任何在 2026 年建構 AI 產品的人來說,是關鍵所在。
AI 影片的舊標準是「視覺品質」。新標準是「世界理解」。隨著這種轉變發生,模型格局正在分裂成超專業的領導者:
- Gemini Omni 現在宣稱擁有物理 + 推理的桂冠
- ByteDance 的 Seedance 在電影級動作和角色動畫上依然領先
- 其他模型在長影片生成、即時編輯、音訊同步或低成本批次輸出方面領先
對於開發者來說,這種碎片化是一個真實的營運難題。這個季度在物理領域表現最好的模型,並不一定是下個季度在角色一致性表現最好的模型。今天在 4K 電影輸出表現最好的模型,並不一定是六個月後在具成本效益批次生成表現最好的模型。而且每一個模型都附帶自己的 SDK、認證流程、定價模式和速率限制。你的團隊很容易因為整合一個模型就耗盡整個工程衝刺(Sprint),若該模型被棄用,又得再耗費一個衝刺。
這正是 Atlas Cloud 致力於解決的問題。我們為開發者提供單一 API 端點,存取 300 多個模型——涵蓋所有主要的基礎模型、領先的開源版本,以及在圖像、影片、音訊和推理領域快速發展的專業模型。只需一行代碼即可在模型間切換。在不重新構建整合的情況下執行對比評估。根據你當下所需的特定能力選擇最強的模型進行發布,一旦排行榜變動,即可立即更換至下一個領先者,無需重寫任何端點。
數學題很簡單:在物理、角色一致性、電影級動作和文字渲染各有領先模型的時代,最糟的架構決策就是將自己鎖定在其中任何一個上。
Atlas Cloud 是讓碎片化的模型格局變得易於導航的抽象層,而不是你團隊的負擔。
真正的結論
「哪一個 AI 影片看起來最漂亮」的時代,消失的速度比大多數人意識到的還要快。
正在開始的是「哪一個 AI 影片真正理解這個世界」的時代。而在這場競賽中,一顆單純滾動的彈珠——可以預測地彈跳、以正確的音調敲響鈴鐺、落在物理法則允許的位置——被證明比 Google 能夠渲染出的任何照片級風景演示都更重要。
漂亮的像素已經過時。世界模型才是未來。
AI 影片的下一個三年,將在此刻定勝負。







