Gemini Omni 功能评测:通过自然对话编辑视频

Gemini Omni 通过自然对话编辑视频的能力深度评测。深入解析 I/O 2026 演示、实际工作流,以及创作者需要了解的内容。

Gemini Omni 功能评测:通过自然对话编辑视频

Google 在 I/O 2026 大会上发布了 Gemini Omni — 这是一款多模态模型,它通过简单的自然语言对话,而非传统的时间轴或关键帧来编辑视频。那些火爆的演示(泡泡雕塑、液态镜面、小提琴手)证明了一个真正的转变:这不仅是“文生视频”,更是“针对现有视频的文本编辑”。这是视频创作领域的“iPhone 时刻”。值得注意的是,语音、音频编辑和 Pro 版本尚未发布,这显然是刻意为之。

凌晨 1 点。你剪辑一个 30 秒的视频已经花了四个小时。工程文件里有 47 个图层。拖动关键帧拖得手腕酸痛。客户发来消息说:“能把灯光调得暖一点吗?”而你,作为专业人士,不得不从头再来。

以前就是这样干的。那曾经是常态。

2026 年 5 月 19 日,Google 低调地终结了这一切。

在 I/O 2026 上,Google 发布了 Gemini Omni — 一款将视频编辑变得前所未有的多模态模型,我们大多数人原本以为这至少需要十年才能实现:通过日常对话进行编辑

核心承诺:不再操作视频,而是与它交谈

一句话概括所有亮点:你不再需要“操作”视频,只需告诉它你想要什么。

Google 的发布直截了当地指出:“每一次指令都建立在前一次的基础上。你的角色保持一致,物理规律稳定,场景也能记住之前发生的内容。”

这不仅仅是一次 Veo 的更新。Google DeepMind 的产品页面给出了更精炼的诠释:“把 Gemini Omni 想象成视频版的 Nano Banana。” 去年,Nano Banana 让照片编辑变得像打字一样简单。现在,Omni 将其应用到了动态影像中。

该系列的首款模型 — Gemini Omni Flash — 现已在 Gemini 应用、Google Flow 和 YouTube Shorts 中上线。

这一行字重新定义了你对整个领域的理解:在 TechCrunch 对 DeepMind 团队的采访中,研究工程师 Gabe Barth-Maron 将人们用 Omni 创作的内容描述为*“个性化表情包”*。

这就是核心逻辑。视频创作已从“手工技艺”转向“自我表达” — 就像当年 iPhone 终结单反相机地位时摄影领域发生的变革一样。

引爆社交媒体的演示

营销文案可以写得天花乱坠,但真正让这场发布会火起来的是那些演示。目前以下三个案例广为流传:

  • 泡泡雕塑: 将一段石雕视频输入 Omni,输入指令*“把雕塑变成泡泡材质”*,生成的视频保留了相同的构图、光照和阴影,但雕塑变成了通透的肥皂泡,折射着环境光。
  • 液态镜面: 一只手触碰镜面;通过指令让 Omni “把镜面变得像液体一样起涟漪,并让人物手臂变成反射材质。”据 Windows Report 记录,涟漪会物理性地向外扩散,手臂的铬金属质感映照出真实的房间。
  • 链式编辑: Google 的小提琴手演示展示了同一主体在三轮编辑中的表现:舞台 → 异域环境 → 肩部摄像机视角。三次编辑。同一个人。面部、姿势、持琴手法——一切保持一致。

三个火爆的 Gemini Omni 演示:泡泡雕塑、液态镜面和小提琴手肩部视角编辑.jpg

这不是“文生视频”,而是*“针对现有视频的文本编辑”*。区别看似微小,实则改写了一切。

为什么创作者们为之疯狂

它之所以比其他模型发布更具冲击力,原因很简单:Omni 终结了生成式视频中最糟糕的循环。

旧循环: 生成 → 不满意 → 重写整个提示词 → 等待 90 秒 → 依然很烂 → 重复。

新循环: 生成 → “把光照改为黄金时刻” → 完成 → “把镜头推进速度放慢” → 完成。

Gemini Omni 对话式优化循环.jpg

Android Central 的评价非常直接“Gemini Omni 让传统的视频编辑软件显得如同史前遗物。”TechRadar 给出了更细腻的评价,指出动作在编辑过程中保持了连贯性,而不会像以往那样每输入一次提示词就重置。

开发者们已经行动起来。在技术社区 V2EX 上,一位开发者在发布当天进行了测试并写道:“基于对话修改视频内部对象 — 这种交互方式显然是未来的方向。速度和一致性超出了我的预期。” 在 X 上,免疫学家兼 AI 评论员 Dr. Derya Unutmaz 在主题演讲后不久发推称“哇!Google DeepMind 刚刚发布了一个惊人的多模态 AI 模型 Gemini Omni。视频看起来太棒了!必须尽快尝试!”

当 AI 推特大 V 和中文开发者社区在几小时内达成共识,意味着一个真正的转折点已经到来。

Google 谨慎克制的地方

如果不谈谈潜在的隐忧,这封信就不够客观。

展示 Gemini Omni 恐怖谷效应与深伪检测挑战的半人半 AI 肖像.jpg

Engadget 指出了这一房间里的象群“Veo 3.1 等视频生成应用的主要问题在于,视频存在‘恐怖谷’观感,经常遭到最终用户的排斥。看看输出质量是否真能达到 Google 宣传的效果,将会很有趣。”

DataCamp 的实测已经发现了一个物理规则 bug — 一台投石机将弹药发射向了后方。评论者指出,该模型尚未发布基准测试评分,独立验证尚需数周时间。

此外还有一个刻意的缺席:现有视频内的语音和音频编辑。正如 Google 所言,公司*“仍在进行测试,以更好地了解如何以负责任的方式向用户提供该功能。”* 翻译过来就是:深伪风险真实存在,他们将最危险的功能暂时雪藏了。

每个 Omni 生成的剪辑都带有 Google 的不可见 SynthID 水印以及 C2PA 内容凭证 — 其来源可在 Gemini 应用、Chrome 和搜索中查验。这不是可选的,而是现在的行业门槛。

这对你的工作流意味着什么

剥去炒作成分,你会发现一些真正创新的东西:

  • 工具即对话。 没有时间轴,没有图层,没有关键帧。只有文字。
  • 反馈循环缩短。 过去需要 90 秒的重新生成,现在只需 10 秒的微调。
  • 专业壁垒降低。 当任何有审美的人都能像发送 Slack 消息一样快速迭代视频时,瓶颈从“执行力”转向了“创意”。

对于营销团队、独立创作者、教育工作者以及任何需要“快速制作一个 10 秒剪辑”的人来说 — 这就是 inflection point(拐点)。并非因为模型完美,而是因为其交互模式终于对了。

未来的视频编辑不再需要软件,只需要语言。

用于生产级视频生成的统一 API

当 Google 在 Gemini 应用和 Google Flow 中向终端用户推出 Gemini Omni Flash 的同时,希望将该多模态视频引擎嵌入自身工作流的开发者和产品团队,需要一个稳定、可预测的 API 层。

Atlas Cloud 通过 OpenAI 兼容的统一 API 提供 Gemini Omni Flash 服务,并涵盖了 300 多种图像、视频及大语言模型 — 你无需管理多个供应商账号、账单门户或 SDK,即可集成 Google 的原生多模态模型。

Gemini Omni Flash 两个变体现已在 Atlas Cloud 上线:

      
变体适用场景输入分辨率时长起步价格
Gemini Omni Flash 文生视频 (开发者版)纯提示词驱动的电影级生成文本(最多 20,000 字符)720p / 1080p / 4K4, 6, 8, 10 秒USD0.2 + USD0.1/秒
Gemini Omni Flash 图生视频 (开发者版)基于真实参考的主体一致性视频文本 + 最多 7 张参考图720p / 1080p / 4K4, 6, 8, 10 秒USD0.2 + USD0.1/秒

快速入门 — 5 行代码生成 Gemini Omni Flash 视频:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

API 会立即返回一个预测 ID — 通过轮询 /api/v1/model/prediction/{id} 即可获取渲染后的 MP4 链接。完整的 schema、7 种编程语言的代码示例以及无需编码的 Playground 均可在上述模型链接中查看。

给所有正在进行此类构建者的最后一句话

每个此类模型发布背后的尴尬现实是:下个季度,还会再有三个声称“世界最强视频模型”的发布。每一个都会有不同的 SDK、不同的鉴权流程、不同的速率限制规则、不同的定价模式。你的团队会因为接入每一个新模型而浪费一周时间,随后又因为过时而浪费一周进行迁移。

这正是 Atlas Cloud 旨在解决的问题。

我们为开发者提供一个可访问 300 多种模型的统一端点 — 包括每一个主流的基础模型、领先的开源发布,以及在图像、视频和推理领域快速更迭的专家模型。只需一行代码即可切换模型。无需重新集成 SDK 即可运行侧向基准测试。发布当下的热门模型,下个月切换到任何热门的新模型 — 无需重写任何代码。

因为在这个 AI 时代,唯一确定的就是排行榜每周都在变。请据此构建。

最新模型

一个 API,畅享全模态 AI。

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.