一个电影级的 AI 视频片段——绚丽的灯光,一个人在深夜走过东京——然而,在视频播到一半时,他们的脚却穿过了路缘石。或者雨在画面中间突然停了。又或者咖啡杯在短时间内发生了自我重叠。
在物理规律介入之前的六秒钟里,这个幻觉近乎完美。
三年来,这就是生成式视频领域核心处那个无法修复的“漏洞”。这些模型可以模仿外表,却无法模拟世界。
5 月 19 日在 I/O 2026 大会上,谷歌的 Gemini Omni 证明了这个漏洞终于可以被修复——并且悄悄地向观众展示了一个演示,其说服力胜过任何基准测试。
那段刷爆 AI 视频圈的弹珠演示
演示内容:一颗玻璃弹珠滚下一条复杂的连锁反应轨道。弹过托盘,触发铃铛,滑下斜坡,撞倒多米诺骨牌并引发连锁反应。每一次接触都有可信的反应力,每一次着陆都有匹配的音效。
9to5Google 的报道 毫不掩饰他们的惊讶:“这段弹珠滚动视频是一个绝佳的例证,球体的物理表现非常真实,每一次弹跳和铃声的音效也都令人信服。”
这句话听起来平淡无奇,但实际上,它是行业的一个里程碑。
该演示在几个小时内就火遍全网。即便是 AI 领域的重量级人物也无法保持沉默——免疫学家兼 AI 评论员 Dr. Derya Unutmaz 在主题演讲结束几分钟后就发推文 表示:“哇!Google DeepMind 刚刚发布了一款名为 Gemini Omni 的惊人多模态 AI。视频效果好得惊人!必须尽快尝试!”
为什么“滚弹珠”这件事困扰了业界三年
要理解为什么一段弹珠演示配得上“行业里程碑”的标签,你必须看看 AI 视频自 2023 年以来一直未能解决的问题。
在 Sora 时代,视觉质量已经达标。模型可以渲染一段某人深夜走在东京街头的 4K 电影级片段。但是:
- 喷泉里的水往上流
- 勺子会穿过一碗麦片
- 角色的腿在迈步时会短暂变得透明
- 重力……大部分时间是有效的
视觉效果完成了 90%,但世界模型只完成了 50%。一旦观众发现一个物理错误,就再也无法忽视它。整个幻觉瞬间崩塌。
对于专业创作者来说,这不仅仅是润色问题,更是可用性方面的天堑。如果你无法在不逐帧检查物理错误的情况下将 AI 视频交付给客户,那么大多数企业团队根本不会考虑使用这种媒介。
谷歌通过 Omni 推出的方案直击这一痛点。官方发布页面用一句话概括:“Omni 对重力、动能和流体力学等作用力有了更直观的理解,使您能够创作出更逼真的场景。”
Hassabis 把真相直接说了出来
在 I/O 2026 上,最能揭示真相的一句话并非来自营销幻灯片,而是来自 DeepMind CEO Demis Hassabis 在舞台上的发言:他将 Omni 描述为 “迈向通用人工智能(AGI)的一步”。
正如 Decrypt 所报道的,Hassabis 明确将物理模拟与更广泛的 AGI 雄心联系起来,称 Gemini 为 “一个能够理解并模拟世界的 AI 世界模型。”
正是这种框架才真正值得人们关注。Hassabis 并不是在声称 Omni 是一个更好的视频玩具,他是在说:一个真正理解物理规律的模型,最终能够在这个物理世界中行动。 而这正是机器人所需要的。
机器人领域的关键视角:中国媒体捕捉到了

这是大多数英语媒体完全忽略的一个视角。中国科技媒体率先捕捉到了这一点。
据 援引 DeepMind CTO Koray Kavukcuoglu 的新浪财经报道,Omni 的物理理解能力 “已被直接应用于前沿机器人的训练中。”
Technobezz 也捕捉到了同样的框架:Omni 承载了 “比 Veo 多得多的世界知识”,因为它继承了 Gemini 底层的训练数据——现在这些数据包含了大量的物理模拟基础。
换句话说:弹珠演示并不是给内容创作者玩的魔术。 它是谷歌用来教导机器人如何抓取、投掷、平衡和做出反应的模拟器的公开预览。这个视频模型只是巨大的“世界建模”冰山一角——它涵盖了从生成的视频到物理理解,再到具身智能的整个过程。
突然间,滚动的弹珠看起来就不一样了。它不再是“谷歌做了一个很酷的物理演示”,而是“谷歌悄悄向世界展示了他们的机器人预训练流水线已经投入使用”。
被所有人忽略的隐藏证据:那个黑板演示
在中国的科技论坛上,还有第二个物理性能的证据在悄悄流传。
在 I/O 2026 前几天,一段泄露的 Omni 演示开始流传:一位教授在黑板上写下了一个完整的三角恒等式证明。正如 36Kr 的报道所述,公式在数学上是正确的,步骤逻辑连贯,手写字体也很自然——所有这些都通过单一的英文提示词生成。
这看起来是一项文本渲染成就,但实际上是伪装下的物理成就。
正确的手写需要 AI 对以下内容进行建模:
- 手部动作形成每个字符的机制
- 证明过程通常的书写顺序
- 粉笔在黑板上的物理压力
- 推导步骤的时间逻辑
相比之下,Sora 生成的黑板文字,用 36Kr 文章的话来说,就是 “看起来像在写字,但仔细看全是乱码”。
这是相同的核心能力——物理和时间的一致性——应用于不同的领域。弹珠弹跳正确,粉笔击打黑板正确。两者都是同一个世界模型在不同表面测试中的体现。
但我们不必过早加冕
如果不指出其中的局限,那么写这篇“赞美诗”是不负责任的。
DataCamp 的实测评价 已经捕捉到 Omni 在打破物理规律的行为。测评者要求它生成一个投石机发射的场景,结果投射物竟然向后飞了。这个漏洞是真实存在的。只不过因为它选择的是挂毯视觉风格,这种不完美像中世纪艺术一样融合在一起,显得滑稽而不是悲剧。
Engadget 对这种狂热的报道进行了反击:“Veo 3.1 和其他视频生成应用的主要问题在于,视频有一种‘恐怖谷’的感觉,且经常被终端用户嫌弃。看看最终的输出质量是否能匹配谷歌那令人窒息的宣传,将是一件很有意思的事。”
还有三个现实情况需要考量:
- 未发布任何基准测试。 谷歌在发布时并未发布数值评估。独立的第三方基准测试将在几周后才会出现。
- 10 秒片段限制。 根据 TechCrunch 对 DeepMind 的采访,Omni Flash 目前限制输出 10 秒。更长的时长即将推出,但目前它仍处于短视频领域。
- 音频/语音编辑受限。谷歌自己承认 公司 “仍在努力测试,以便更好地了解如何负责任地将此功能提供给用户” ——也就是说,语音编辑中的深度伪造风险是真实存在的,谷歌正刻意暂不发布该功能。
每个 Omni 片段都带有谷歌不可见的 SynthID 水印 以及 C2PA 内容凭证,可在 Gemini 应用、Chrome 和搜索中验证。值得指出的是:随着物理表现越来越真实,加密溯源的必要性就越强,而不是越弱。伪造品看起来越逼真,我们就越需要知道它是伪造的。
Omni 在物理性能上与 Sora、Veo 和 Seedance 的对比
截至 2026 年 5 月,领先的 AI 视频模型在物理和世界理解方面的对比情况如下:
| 模型 | 物理真实性 | 世界知识 | 对话式编辑 | 状态 |
|---|---|---|---|---|
| Gemini Omni Flash | 新领军者(声称) | 最强——继承 Gemini 的训练 | 是,多轮对话 | 2026 年 5 月 19 日上线 |
| Sora 2 (OpenAI) | 有所改善但仍有故障 | 有限 | 否 | Sora App 已停产;API 于 2026 年 9 月停止支持 |
| Veo 3.1 (Google) | 一般,无世界知识 | 有限 | 仅限文本+图像输入 | 上线中,正被 Omni 取代 |
| Seedance 2.0 (ByteDance) | 动作能力强 | 良好 | 有限 | 上线中;在 Artificial Analysis 视频榜单排名第一 |
客观来看:Omni 提出了最激进的物理性能主张,Seedance 在当前的公开基准测试中表现最强,Sora 正在退出消费者竞赛,而 Veo 正在被悄悄整合。
这究竟改变了什么——行业维度
如果物理问题现在得到了解决(或接近解决),以下领域将被解锁:
对于电影制作人和广告创意人员: 无需再进行逐帧的物理 QA。过去消耗掉一天编辑时间的微调工作——修复一个错误的物体,重绘一个糟糕的弹跳——将不复存在。预演分镜速度将大幅加快,概念与动态分镜之间的差距将从几周缩短到几分钟。
对于教育工作者: 无需动画师即可制作准确的科学解释视频。Hassabis 在 I/O 上展示的蛋白质折叠粘土动画演示并不是噱头——它是每个高中物理老师很快就能以不到 20 美元计算成本制作的内容。连锁反应轨道、流体力学、行星运动:一切都将按需变得可解释。
对于机器人团队: 确认了 DeepMind 拥有大规模的可运行物理模拟器。即使你没有使用谷歌的技术栈,一个主要实验室实现 Omni 级别的物理模拟,也会改变整个行业在具身智能方面的时间表。
对于游戏工作室: 不会破坏沉浸感的 AI 生成过场动画。游戏过场动画一直以来都是物理保真度最关键的领域,也是 AI 视频工具最失败的地方。Omni 提高了这个门槛。
对于广告商: 不再虚假的视频产品展示。品牌拒绝 AI 视频的原因不是质量,而是那种令人尴尬的破碎感。当汽水正确地倒入玻璃杯,当运动鞋鞋底在撞击时真实地弯曲时,AI 视频就变得具有商业应用价值。
新的分界线——以及为什么锁定单一模型现在很危险
对于 2026 年任何构建 AI 产品的人来说,结论如下。
AI 视频的旧基准是_视觉质量_。新的基准是_世界理解_。随着这种转变发生,模型格局正在分化为超专业化的领军者:
- Gemini Omni 现在声称占据了物理 + 推理的巅峰
- 字节跳动的 Seedance 在电影级动作和角色动画方面依然领先
- 其他模型在长视频生成、实时编辑、音频同步或低成本批量输出方面领先
对于开发者来说,这种碎片化是一个真正的运营头痛问题。这个季度在物理性能方面表现最好的模型,不一定是下一个季度在角色一致性方面最好的。今天 4K 电影级输出表现最好的模型,不一定是六个月后性价比最高的批量生成模型。而且每一个模型都带有自己的 SDK、认证流程、定价模型和速率限制。你的团队很容易因为整合一个模型而浪费掉一个完整的工程冲刺周期——并在弃用时再浪费一个周期。
这正是 Atlas Cloud 旨在解决的缺口。我们为开发者提供一个单一端点,可访问 300 多种模型——包括每一个主要的基座模型、领先的开源版本,以及在图像、视频、音频和推理领域快速迭代的专家模型。只需一行代码即可在模型之间切换。无需重构即可进行并排评估。在这一刻,无论哪种模型对于你需要的能力最强,直接使用它,并在排行榜变动时立即切换到下一个领军者——无需重写任何端点。
数学逻辑很简单:在一个物理规律、角色一致性、电影级动作和文本渲染各有各的领军模型的时代,最糟糕的架构决策就是将自己锁定在其中任何一个上。
Atlas Cloud 是一个抽象层,它使碎片化的模型格局变得可驾驭——而不是成为你团队的负担。
真正的启示
“哪种 AI 视频看起来最漂亮”的时代结束的速度比大多数人预想的要快。
开始的是“哪种 AI 视频真正理解世界”的时代。在那场竞赛中,一颗滚动的弹珠——可预测地弹跳,以正确的音调敲响铃铛,落在物理规律所要求的位置——被证明比谷歌可能渲染的任何照片级景观都更重要。
漂亮但空洞的像素已成过去,世界模型才是未来。
AI 视频接下来的三年,将在此决出胜负。







