Gemini Omni 功能：创建符合真实物理规律的输出

一部电影级的 AI 视频片段——绚丽的灯光，一个人在深夜穿行于东京——然而，视频进行到一半时，他们的脚却穿过了路缘石。或者雨在画面中间戛然而止。又或者咖啡杯短暂地“自相矛盾”了一下。

这种幻觉在最初的六秒钟内近乎完美，直到物理规律强行介入。

三年来，这一直是生成式视频核心中无法修复的 Bug。模型可以模拟表象，却无法模拟世界。

5 月 19 日，在 I/O 2026 大会上，谷歌的 Gemini Omni 证明了这个 Bug 终于可以修复了——并悄然向观众展示了一个单一的演示，其说服力胜过任何基准测试。

让 AI 视频圈沸腾的“玻璃珠”演示

演示内容是：一颗玻璃珠沿着复杂的连锁反应轨道滚动。它撞击盘子，触发铃铛，滑下斜坡，推倒多米诺骨牌并引发连锁碰撞。每一次接触都有可信的反作用力，每一次落地都有相匹配的音效。

9to5Google 的报道毫不掩饰其惊讶：“滚珠视频是一个极佳的案例，小球的物理轨迹令人信服，且每一次弹跳和铃声的音效都非常真实。”

这句话听起来平淡无奇，但实际上，它是行业的一个里程碑。

该演示在几小时内便火爆全网。即使是 AI 领域的重量级人物也无法保持沉默——免疫学家兼 AI 评论员 Dr. Derya Unutmaz 在发布会后几分钟内便发推称：“哇！Google DeepMind 刚刚发布了一个令人惊叹的新型 AI 多模态模型 Gemini Omni。视频看起来棒极了！一定要尽快试试！”

为什么“滚一颗珠子”在过去三年是不可能的

要理解为什么一颗珠子的演示配得上“行业里程碑”的称号，必须看看 AI 视频自 2023 年以来一直在哪里栽跟头。

在 Sora 时代，视觉质量已经达标。模型可以渲染出一个人在深夜漫步东京的 4K 电影级剪辑。但是：

喷泉里的水会向上流
勺子会穿过麦片碗
角色的腿在行走中途会短暂变得透明
重力……大部分时间是有效的

视觉效果完成了 90%，但世界模型只完成了 50%。一旦观众发现一个物理破绽，这种幻觉就彻底崩塌了。

对于专业创作者来说，这不仅仅是润色的问题，而是不可逾越的可用性鸿沟。如果不逐帧检查物理破绽，你根本无法将 AI 视频交付给客户。这意味着大多数企业团队完全忽略了这种媒介。

谷歌通过 Omni 提出的方案正是为了填补这一空白。其官方发布页面用一句话概括：“Omni 对重力、动能和流体动力学等作用力有着更直观的理解，使你能够创作出更逼真的场景。”

Hassabis 揭示了关键所在

I/O 2026 上最能说明问题的一句话并非来自营销幻灯片，而是来自 DeepMind CEO Demis Hassabis 在台上的发言：他将 Omni 描述为 “通往通用人工智能（AGI）的一步”。

正如 Decrypt 所报道的，Hassabis 明确地将物理模拟与更宏大的 AGI 愿景联系起来——称 Gemini 为 “一个能够理解并模拟世界的 AI 世界模型。”

正是这种框架才值得人们关注。Hassabis 并不是在吹嘘 Omni 是一个更好的视频玩具。他是在说：一个真正理解物理学的模型，终将能够在物理世界中采取行动。 而这正是机器人技术所需要的。

机器人领域的视角：中国以外无人察觉

Gemini Omni world model diagram linking AI video generation, physics simulation, and robotics training.jpg

这是一个绝大多数英语媒体完全忽略的角度，但中国科技媒体率先捕捉到了这一点。

据新浪财经援引 DeepMind CTO Koray Kavukcuoglu 的报道，Omni 的物理理解力 “已直接应用于前沿机器人的训练。”

Technobezz 也捕捉到了同样的表述：Omni 承载了 “比 Veo 多得多的世界知识”，因为它继承了 Gemini 底层训练数据——现在这些数据包含了大量的物理模拟基础。

翻译一下：滚珠演示不是为了糊弄内容创作者的魔术。 这是谷歌用来教机器人如何抓取、投掷、保持平衡和反应的模拟器的公开预览。视频模型只是世界建模这座巨大冰山露出的尖端——它涵盖了从生成式视频到物理理解，再到具身智能的全过程。

突然之间，滚动的小球看起来不一样了。它不再是“谷歌做了一个很酷的物理演示”，而更像是“谷歌悄悄向世界展示了他们的机器人预训练流程已经投入运行”。

每个人都错过的隐形证据：那块黑板演示

这是在中文科技论坛上悄然流传的第二个物理证据。

在 I/O 2026 之前，一段泄露的 Omni 演示开始传播：一位教授在黑板上写下完整的三角恒等式证明。正如 36Kr 的报道所详述，公式在数学上是正确的，步骤逻辑连贯，书写自然——这一切都是根据一句简单的英文提示词生成的。

这听起来是一项文本渲染成就。实际上，它伪装成了一项物理成就。

正确的书写要求 AI 建模：

手部形成每个字符的运动力学
证明过程通常的书写顺序
粉笔在黑板上的物理压力
推导步骤的时间逻辑

相比之下，Sora 生成的黑板文字，正如 36Kr 文章所言，“看起来像是在写字，但仔细观察全是乱码。”

相同的核心能力——物理和时间的一致性——应用于不同的领域。球弹跳正确，粉笔击中黑板正确。两者都是同一个世界模型在不同表面测试中的体现。

但现在还别急着下定论

如果不加上星号，写这一封“情书”是不负责任的。

DataCamp 的实测报告已经抓到了 Omni 破坏物理规律的瞬间。测试者要求生成一个投石机发射的场景——结果弹射物反而向后飞了。Bug 是真实存在的。只是因为它选择的是挂毯视觉风格，不完美之处看起来像中世纪艺术，所以显得滑稽多过悲剧。

Engadget 对这些溢美之词提出了反驳：“Veo 3.1 和其他视频生成器应用的主要问题在于，视频有一种‘恐怖谷’观感，常被终端用户诟病。看看输出质量是否真的能匹配谷歌吹嘘的水平，将是一件很有意思的事。”

另外三个现实层面的考量：

未发布基准测试。 谷歌在发布时并未公布数值评估。独立的第三方基准测试还需要几周时间才能得出。
10秒片段限制。 根据 TechCrunch 对 DeepMind 的采访，Omni Flash 目前的输出上限为 10 秒。更长的时长即将到来，但目前仅限于短视频领域。
音频/语音编辑受限。谷歌自己承认，公司 “仍在测试，并试图更好地了解如何以负责任的方式向用户提供此功能”——即语音编辑中的深伪风险是真实存在的，谷歌有意暂时不发布此功能。

每个 Omni 片段都带有谷歌隐形的 SynthID 水印 以及 C2PA 内容凭证，可在 Gemini 应用、Chrome 和搜索中验证。值得注意的是：随着物理模拟变得愈发逼真，对加密溯源的需求就越强。伪造品看起来越逼真，我们就越需要知道它是伪造的。

Omni 在物理性能上与 Sora、Veo 和 Seedance 的对比

截至 2026 年 5 月，领先的 AI 视频模型在物理和世界理解方面的具体对比情况如下：

模型	物理真实度	世界知识	对话式编辑	状态
Gemini Omni Flash	新领跑者 (自称)	最强 — 继承 Gemini 训练	有，支持多轮	2026 年 5 月 19 日上线
Sora 2 (OpenAI)	已改进但仍有 Bug	有限	无	Sora App 已停用；API 将于 2026 年 9 月停止支持
Veo 3.1 (Google)	尚可，无世界知识	有限	仅限文本+图像输入	已上线，正被 Omni 取代
Seedance 2.0 (ByteDance)	动作捕捉强	良好	有限	已上线；在 Artificial Analysis 视频竞技场排名第一

客观来看：Omni 在物理性能上提出了最激进的声明，Seedance 目前在公开基准测试中表现最稳，Sora 正在退出消费者竞赛，而 Veo 正被悄然吸收。

这对各行业意味着什么

如果物理问题已经解决（或接近解决），以下领域将迎来突破：

对于电影制作人和广告创意人员： 无需再进行逐帧物理 QA。过去消耗掉一天编辑时间的那种微调工作——修复一个闪烁的对象，重做一次糟糕的弹跳——将不复存在。预演分镜的速度将大幅提升，从概念到样片的距离将从几周缩短到几分钟。

对于教育工作者： 无需动画师也能制作精确的科学讲解视频。Hassabis 在 I/O 上展示的蛋白质折叠粘土动画演示并非噱头——它预示着每位高中物理老师很快都能以低于 20 美元的计算成本制作出同类视频。连锁反应轨道、流体动力学、行星运动：所有内容都可以按需讲解。

对于机器人团队： 确认了 DeepMind 拥有大规模的可运行物理模拟器。即使你没有使用谷歌的架构，只要有一家大型实验室能提供 Omni 级别的物理能力，整个行业对具身智能的预期时间表就会发生改变。

对于游戏工作室： AI 生成的过场动画将不再破坏沉浸感。游戏电影化一直是最看重物理保真度的地方——也是 AI 视频工具表现最差的地方。Omni 提高了这一领域的标准。

对于广告商： 产品视频将不再虚假。品牌避免使用 AI 视频的原因不是质量，而是那种诡异的断裂感。当汽水能正确倒入杯中，当运动鞋鞋底在撞击时能真实弯曲，AI 视频将成为可商业化的资产。

新的分界线——以及为什么锁定单一模型是危险的

对于任何在 2026 年构建 AI 产品的人来说，结论如下。

AI 视频的旧基准是 视觉质量。新的基准是 世界理解。随着这种转变，模型格局正在分化为多个超专业化的领跑者：

Gemini Omni 现在宣称拥有物理+推理的桂冠
ByteDance 的 Seedance 仍在电影级动作和角色动画方面领先
其他模型则在长视频生成、实时编辑、音频同步或低成本批量输出方面领先

对于开发者来说，这种碎片化是一个真正的运营痛点。本季度在物理方面表现最好的模型，未必是下季度在角色一致性方面最好的模型。今天在 4K 电影输出方面最强的模型，未必是六个月后在成本效益批量生成方面最好的模型。且每一个模型都自带其 SDK、鉴权流程、定价模式和速率限制的怪癖。你的团队可能会因为集成一个模型就损失掉整个工程迭代周期——而在该模型被弃用时又要损失一个周期。

这正是 Atlas Cloud 为解决这一痛点而构建的目的。我们为开发者提供了一个单一的端点，可以访问 300 多种模型——包括每一个主要的基座模型、领先的开源发布，以及在图像、视频、音频和推理方面快速发展的专家模型。只需一行代码即可在模型之间切换。无需重构集成即可进行并排评估。在任何时候，只需发布当前在该领域最强的模型，并在排行榜发生变化时切换至下一个领先者——而无需重写任何端点。

数学题很简单：在一个物理规律、角色一致性、电影级动作和文本渲染能力分别由不同模型主导的世界里，最糟糕的架构决策就是锁定其中任何一个。

Atlas Cloud 是让碎片化的模型格局变得可导航的抽象层，而不是你团队的负担。

生产级视频生成的统一 API

当谷歌向终端用户推送 Gemini Omni Flash 时，那些希望将同一多模态视频引擎嵌入自身工作流的开发者和产品团队，需要一个稳定、可预测的 API 层。

Atlas Cloud 通过 OpenAI 兼容的统一 API 提供 Gemini Omni Flash 服务，并集成超过 300 种图像、视频和 LLM 模型——让你无需维护分散的供应商账户、计费门户或 SDK，即可集成谷歌的原生多模态模型。

两种 Gemini Omni Flash 变体现已在 Atlas Cloud 上线：

变体	最适合	输入	分辨率	时长	起价
Gemini Omni Flash Text-to-Video	纯提示词驱动的电影生成	文本 (最多 20,000 字)	720p / 1080p / 4K	4, 6, 8, 10 秒	USD0.2 + USD0.1/秒
Gemini Omni Flash Image-to-Video	基于真实参考的角色一致性视频	文本 + 最多 7 张参考图	720p / 1080p / 4K	4, 6, 8, 10 秒	USD0.2 + USD0.1/秒

快速入门——5 行代码生成 Gemini Omni Flash 视频：

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

API 会立即返回预测 ID——轮询 /api/v1/model/prediction/{id} 即可获取渲染后的 MP4 URL。完整的架构、7 种语言的代码示例以及无代码演练场，均可在上述链接的模型页面中找到。

真正的启示

“哪种 AI 视频看起来最漂亮”的时代，结束得比大多数人意识到的更快。

开启的时代是“哪种 AI 视频真正理解世界”。在这场竞赛中，一颗滚动的小球——遵循预测轨迹弹跳，以正确的音高敲响铃铛，落入物理定律所指示的位置——比谷歌渲染出的任何超逼真风景都更具里程碑意义。

漂亮的像素时代已过，世界模型时代已来。

AI 视频接下来的三年，将在此决出胜负。

返回列表

再见“悬浮汤勺”：Google Gemini Omni 如何让 AI 视频遵循现实物理规律

让 AI 视频圈沸腾的“玻璃珠”演示

为什么“滚一颗珠子”在过去三年是不可能的

Hassabis 揭示了关键所在

机器人领域的视角：中国以外无人察觉

每个人都错过的隐形证据：那块黑板演示

但现在还别急着下定论

Omni 在物理性能上与 Sora、Veo 和 Seedance 的对比

这对各行业意味着什么

新的分界线——以及为什么锁定单一模型是危险的

生产级视频生成的统一 API

两种 Gemini Omni Flash 变体现已在 Atlas Cloud 上线：

快速入门——5 行代码生成 Gemini Omni Flash 视频：

真正的启示

最新模型

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

一个 API，畅享全模态 AI。

Join our Discord community