上手体验 Gemini Omni：令人印象深刻，但仍有进步空间

在经过数周的泄密和猜测后，Gemini Omni 终于在今天清晨的 Google I/O 2026 大会上正式亮相。

它既不是传闻中的专用视频生成模型，也不是 Veo 3 的后续版本“Veo 4”。Google DeepMind 首席执行官 Demis Hassabis 亲自登台宣布：

“我们正在迈出重要的一步——Gemini Omni，这是一个全新的模型，能够通过任何输入创造任何内容。”

Gemini Omni I/O 2026 视频编辑演示

换句话说，Gemini Omni 是一个真正“全能”的大模型——它接受任何形式的输入并生成任何类型的内容，视频生成仅仅是其中的一小部分。

Gemini Omni 现已在 Google 所有产品中上线。AI Plus、Pro 和 Ultra 订阅计划的用户可以通过 Gemini 应用或 Google 的 AI 视频创作平台 Flow 进行访问。

我们第一时间订阅了 Google 最高等级的 Ultra 会员，通过实测来深入体验 Gemini Omni 的表现。

结论先行：它表现平平。

Gemini Omni 测试一致性：基本达标

Omni 最受宣传的特性之一是它在多轮自然语言编辑中保持视觉一致性的能力。

在 Google 的官方演示中，原始素材显示一名小提琴手在室内表演。在更换背景环境、切换摄像机角度，甚至完全移除小提琴后，表演者的表情、动作、光影，甚至是手部细微的摆放位置，都与新的场景完美契合——背景音乐也随之调整。

无论是编辑的精准度还是主体的一致性，看起来确实令人印象深刻。

因此，我们亲自进行了测试，首先是环境和氛围的切换。

我们的第一个提示词：十字路口两辆车相撞的俯视视角，其中一辆是蓝色跑车，氛围紧张刺激。

随后，我们进行了更详细的编辑和精修。提示词：切换到金色的日落时分，将蓝色跑车换成红色，并让两辆车在碰撞时爆发出五彩纸屑和气球——基调要轻松、梦幻且充满童趣。

正如所指示的那样，车辆的颜色和光影确实发生了变化，场景的整体结构和运动也基本保持连贯，没有出现撕裂或视觉失真。

然而，有一个细微但明显的瑕疵：Omni 对实际碰撞瞬间的处理并不理想。在两段视频中，这两辆车看起来像是刻意朝对方驶去——甚至在撞击前略微减速并调整了角度。

用一个词来形容，就是“摆拍感”。就像你能看到 Omni 那双无形的手在推动车辆就位以响应提示词一样。

接下来，我们测试了 Omni 在动态运动中保持一致性的能力。基准：单个角色在多个摄像机角度之间切换，面部特征、服装、道具甚至发型都保持稳定——不会出现“同一套服装在不同角度颜色不一致”之类的 bug。

我们的提示词：一个中景跟拍镜头，一名穿着红裙的女性舞者在旧火车站表演现代舞，跳跃后切换到远景固定镜头，要求红裙和火车站背景在整个过程中完全保持一致。

这段视频的效果相当不错。舞者的动作流畅且连续，丝绸红裙的物理质感看起来非常真实，从中景跟拍到远景固定镜头的切换也相对平滑。

Omni 还自动添加了一段背景音乐——虽然谈不上特别有表现力或氛围感，但确实很好地契合了舞蹈的整体情绪。

随后，我们进行了一次小小的精修，提示词：移除背景音乐，仅保留环境音——与舞蹈动作同步的脚步声和衣服轻微的摩擦声。

这里情况开始变得有些混乱。视频的前半部分确实捕捉到了裙摆晃动和脚落地时的微弱声音。但在后半部分，背景音乐却莫名其妙地又冒了出来。

接着，我们测试了它对复杂角色关系和空间位置的理解能力。

基准：当多个外观和服装各异的角色互动时，他们的个人特征在摄像机角度变换时不应混淆或互换。

我们的提示词：一个过肩镜头，四到五个外观各异的科学家正在实验室讨论全息投影，摄像机缓慢旋转——所有角色的外貌和服装在整个过程中保持不变。

或许是为了忠实匹配提示词中“科学家外观各异”的要求，Omni 很贴心地安排了四个涵盖不同年龄、性别和种族的角色。在旋转镜头中，角色的外貌、服装、声音和相对位置确实基本保持了一致。

唯一的遗憾是：视频后半段出现了一个明显的、突兀的剪辑点，完全破坏了连贯性。

精细化控制？仍需努力

编辑和精修是 Google 在官方展示中重点突出的另一个功能。

因此，我们直奔主题——选取了一段最近在韩国社交媒体上走红的 AI 生成的“看棒球比赛”视频，向 Omni 提供了一张动漫风格的角色图像（源自 Google 自己的演示素材），要求它将原视频中的人物替换为图像中的角色。

结果如何？委婉点说，令人失望。

被替换的角色确实保持了与原人物大致相同的位置，但细微的表情——咬嘴唇、飘忽的眼神、发现镜头时的小微笑——在转换中几乎完全丢失了。

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

这种对细节控制的力不从心并非个例。

我们提示 Omni 生成一段视频：一名中年男子站在光线昏暗的房间里，对着镜子里的倒影轻声说：“我知道是你。别再装了。”

最初的结果其实还可以——除了中文口音稍微有点怪之外，口型与每个单词的匹配度相当准确。至于它是否传达出了真正的人类情感，那就是仁者见仁的事了。

但当我们试图修改男子的对话内容时，Omni 的逻辑似乎完全短路了。

提示词：一名中年男子在昏暗的房间里，对着镜子轻声说：“5月20日又到了——周年纪念日快乐。”

首先，它完全无法理解“修改对话”的概念，只是简单地把新台词作为字幕贴在屏幕底部。接着，它折中了一下——送出了原台词的一半和新台词的一半。到了最后一次尝试，它彻底崩坏了。

灯光确实亮了一些，表情也变成了微笑——但现在变成了一个男人露着和蔼的笑容说：“我知道是你。别再装了”，同时配上了之前那种诡异的背景音乐。不知为何，这比原版更让人毛骨悚然。

简而言之，在精细化控制方面，Omni 还有很长的路要走。

用于生产级视频生成的一站式 API

虽然 Google 在 Gemini 应用和 Google Flow 中为终端用户推出了 Gemini Omni Flash，但想要将这一多模态视频引擎集成到自身工作流中的开发者和产品团队，需要的是一个稳定、可预测的 API 层。

Atlas Cloud 通过一个与 OpenAI 兼容的统一 API 提供 Gemini Omni Flash 服务，同时还支持 300 多

返回列表

上手测试 Google Gemini Omni：表现尚欠火候

Gemini Omni 测试一致性：基本达标

精细化控制？仍需努力

用于生产级视频生成的一站式 API

最新模型

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

一个 API，畅享全模态 AI。

Join our Discord community