Gemini Omni 提示词指南:Google DeepMind 的 5 个维度、4 大高级能力与对话式编辑工作流

Google DeepMind 在 2026 年 5 月 19 日的 I/O 大会上发布了 Gemini Omni 提示词指南。内容涵盖了 5 个提示词维度、对话式编辑、4 大高级能力,以及为何视频 AI 实验室正趋向于提供相同的建议。

Gemini Omni 提示词指南:Google DeepMind 的 5 个维度、4 大高级能力与对话式编辑工作流

2026年5月19日,Google I/O 大会期间,DeepMind 发布了 Gemini Omni。同一天,Gemini Omni 提示词指南 在 DeepMind 的文档站点上线,位置介于 Omni Flash 模型卡片和 API 说明之间。大多数人只关注了发布会演示,而这份文档却鲜有人问津。

先说重点。Gemini Omni 是 DeepMind 新一代多模态生成模型。首款产品 Gemini Omni Flash 支持从文本、图像、音频或视频的任意组合生成长达 10 秒的视频。所有输出内容均带有 SynthID 水印。AI Plus、AI Pro 和 AI Ultra 订阅用户可立即使用;据 Gagadget 报道,YouTube Shorts 和 YouTube Create 应用用户在本周内即可免费体验。根据 Google 的说法,API 访问权限将在“未来几周内”开放。

回到提示词指南。Google DeepMind 在“世界理解”(World understanding)章节中直接阐述了这种转变:

使用 Veo 时,你需要提供精确的指令才能获得最佳结果。但在 Gemini Omni 中,你不必写得那么具体。只需告诉 Omni 你想创作什么,然后观察模型如何利用其推理能力和世界知识将细节生动地呈现出来。

翻译过来就是:少写点。

对比一下字节跳动(ByteDance)和快手(Kuaishou)为各自视频模型发布的提示词指南,虽然框架不同,但指向是一致的。

Seedance 2.0 和 Kling 3.0 AI 视频模型提示词结构对比图。

字节跳动在其国际开发者平台通过 BytePlus ModelArk 提示词指南 记录了 Seedance 2.0 的用法。建议的结构为:主体 + 动作(+ 环境 + 美学 + 摄像机移动/剪辑 + 音频)。并非每个组件都是必须的,你可以根据画面需求进行选择。

快手的 AI 提示词权重指南 则通过“5W1H”公式进行框架构建:Who(谁)+ What(什么)+ Where(哪里)+ When(何时)+ Why(为什么)+ How(如何)。Who(主体)通常权重最高并放在提示词开头,因为在 Kling 3.0 中,词序决定了权重:排在前面的内容会获得更多的计算关注。诸如媒介或视角之类的风格选择放在末尾效果最好,作为对已设定场景的过滤。指南警告不要盲目堆砌元素,过多的冲突关键词会降低质量。

三家公司独立得出了类似的建议,这表明它们的模型在同一时期达到了相近的能力水平。Google 建议少写,字节跳动将大多数组件标记为可选,而快手强调词序优于数量。虽然具体措辞各异,但这三家实验室都引导创作者转向更宽松、更自然的提示词。

现在来看看 Gemini Omni 提示词指南在实际应用中的表现。

Gemini Omni 提示词结构:Google DeepMind 使用的 5 个维度

指南以一个完整的示例开头:

一个广角跟踪镜头平缓地掠过平静的湖面,显露出一颗巨大的、反光的、像铬合金一样的豆状物体在上方轻盈地漂浮,缓慢旋转以展示其扭曲的倒影,倒影中映衬着壮丽的悬崖和下方清澈蔚蓝水中部分没入的较小相似物体,一轮明亮的太阳在漂浮物后升起,将整个场景沐浴在明亮、空灵的日光中,呈现出充满活力的蓝绿色调,创造出一种宏伟而令人敬畏的氛围,并配以雄伟且超凡脱俗的管弦乐,强调外星景观的广阔与神秘,悬浮物体发出微弱而深沉的嗡嗡声。

超过 90 个词。拆解开来,可以归纳为 5 个维度:

  • 镜头构图与运动:广角、中景还是特写?镜头应该平缓滑行还是突然推进?这两个动词会产生截然不同的输出,因此在寻找合适的运动感时,多尝试几次非常值得。
  • 风格:写实、电影感、空灵、雄伟?这个维度不需要太多细节,告诉模型情绪基调就足够了。
  • 光线:光从哪里来?太阳、路灯、镜头内还是场外?光感应该是明快的、温暖的还是空灵的?
  • 场景:指南中有一行话值得强调:“你不需要描述每一个微小的细节,Omni 会根据你的整体意图进行创作。”这与 Seedance 和 Kling 在官方文档中的说法不谋而合。
  • 动作与交互:场景中的人物和物体是谁,它们如何移动,如何互动。

Gemini Omni 对话式编辑 vs Veo 提示词重写

Omni 和 Veo 的生成质量旗鼓相当。真正的差异在于视频生成后的操作空间。

此前,改变一个细节意味着要重写整个提示词、重新生成,并祈祷帧间的一致性不被破坏。Omni 则用对话取代了这一繁琐步骤。

官方指南提供了一些示例。

一段小男孩的定格动画风格视频。第一次编辑:“把蝴蝶换成蜜蜂。”接着:“把蜜蜂换成一小群萤火虫。”每次交互只改变一个元素;其他帧会自动保留。

摄像机操作也是同理。一段小提琴家的视频可以连续执行三个指令:“将小提琴家带入图片环境”、“让小提琴隐形”、“将摄像机角度改为小提琴家的肩后视角”。环境切换、物体移除、摄像机位调整,全部通过自然语言完成。

有一个值得注意的“坑”。第三方评测者指出,如果你的编辑指令过于模糊,Omni 倾向于过度编辑,改变你本想保留的元素。Google 的建议是:每次只更改一个变量,并明确指出哪些内容需要保持不变。

跨模态同步的例子更有趣。拍摄一段公寓大楼的夜景视频,加上指令“公寓的灯光开始与音乐同步闪烁”。模型会自动分析音轨的节拍,并将窗户灯光与节拍对齐。在 After Effects 中完成这项工作需要时间轴、节拍器和逐帧手动设置关键帧。

Gemini Omni 的 4 项高级能力:世界知识、文本渲染、动作参考、多输入

指南后半部分拆解了 4 项能力。

应用世界知识

示例提示词:解释常规计算与量子计算的区别。使用一种现代扁平媒体风格可视化这句话,融合极简主义矢量形状与丰富的有机纹理。美学定义为一种高对比度的“电光”色盘,在深海军蓝背景上使用霓虹粉、青色和亮绿色。该风格的一个标志是使用点画遮光和颗粒渐变,为原本简单的几何形状增添了类似 Risograph 打印的触感。通过将锐利边缘与这些柔和的斑点过渡相结合,插图呈现出一种俏皮、编辑式的感觉。

模型本身就了解什么是量子叠加,以及如何通过一组对比镜头来传达它。用户不需要解释量子力学,只需要描述视觉色调。

这之所以有效,是因为 Omni 运行在尖端推理模型之上,这是仅具备生成能力的视频模型无法比拟的。Demis Hassabis 在 I/O 大会后接受 Semafor 采访时将 Omni 描述为构建更懂现实世界的 AI 计划中的一步。他指出,Alphabet 旗下的自动驾驶部门 Waymo 已经在测试类似的“世界模型”,赋予自动驾驶汽车处理不可预测情况的“想象力”。视频生成只是该架构最直观的应用。

文本渲染

示例提示词:逐词显示,屏幕一次显示一个词,每个词有不同的动画风格,节奏与韵律完美匹配,炫酷效果。

复杂动作参考

提示词示例:在保持所有内容不变的情况下,添加从滑板中发出的动态运动效果。

多输入参考

提示词示例:视频中的鸟儿松散地形成基于图片的不规则鸟形。它们随音频的音乐移动,并在飞翔时消散。

风格迁移

提示词示例:创建视频参考的四部分风格演变,从充满活力的彩色蜡笔美学开始,特色是丰富、蜡质、有质感的笔触和俏皮的手绘角色设计,背景是颗粒感极强的纸张。无缝过渡到纹理纸上的石墨铅笔素描,利用交叉排线、不同的线条粗细和 12fps 的“线条颤动”效果来强调手绘感。接着,演变成超写实 3D 透明玻璃风格,以复杂的折射、焦散图案和简约工作室设置内的柔和内部发光为特征。最后以触感十足的 Risograph 打印外观结束序列,应用有限的三色色盘、颗粒半色调纹理和有意为之的套印效果,呈现出复古的机械感。

分镜参考

提示词:在视频中展示这个故事。完全按照顺序从左上角开始执行故事。整个故事在 10 秒内完成。电影感。

跨镜头一致性

为什么 Gemini Omni、字节跳动 Seedance、快手 Kling 的提示词建议趋于一致?

回到最初的观察。Seedance、Kling 和 Omni 在提示词建议上的相似性并非互相抄袭的结果。更合理的解释是,这一代模型凭借自身力量达到了相似的能力水平。

一旦模型能够在场景层面处理自然语言、补充世界知识并推断用户的真实意图,过度详尽的指令反而成了瓶颈。三家实验室对于需要增加多少结构意见不一,但一致认为答案不是写得越多越好。

这是扩散模型与大型语言模型联合训练两年的结果。Omni 将这一成果推向了一个相对完善的阶段。

通过 Atlas Cloud 调用 Gemini Omni:Seedance、Kling、Veo 的统一 API

Gemini Omni 即将登陆 Atlas Cloud。Atlas Cloud 聚合了涵盖文本、图像、视频、音频的 300 多种 AI 模型。主流视频模型已在该平台运行:Seedance 2.0Kling 3.0Wan 2.7Veo 等。若需进行横向比较,请查阅 Atlas Cloud 的 Wan 2.7 vs Seedance 2.0 vs Kling 3.0 深度分析

一个账户即可运行整个工作流。无需在多个区域平台注册、付费和维护 API 密钥。Playground 支持交互式调试。兼容 OpenAI 的统一 API 可直接接入现有工作流。

Atlas Cloud 的提示词库 拥有超过二十个类别的即用型提示词,涵盖动漫、科幻、悬疑、美食、Vlog 等格式。每个提示词都配有示例视频和参数说明。复制、替换几个词,即可直接运行。

最新模型

300+ 模型,即刻开启,

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.