我们运行了 6 个场景、12 条视频和一组共享提示词,旨在探寻答案。
4 月 10 日,阿里巴巴 ATH 团队发布了 Happy Horse 1.0。几天之内,它便登顶 Artificial Analysis 的视频模型排行榜——T2V Elo 1389,I2V Elo 1416,在文生视频方面领先字节跳动 Seedance 2.0 约 115 分。
如果您从事 AI 视频内容创作、产品选型或行业研究,最直接的问题显而易见:这一排名在实际工作负载中经得起考验吗?
我们花了一周时间来寻找答案。相同的提示词、相同的参考素材、相同的评估框架——我们让 Happy Horse 1.0 和 Seedance 2.0 在 6 种场景类型中进行同台竞技,总计生成 12 条视频。本文将涵盖三方面内容:Happy Horse 何以登顶的真实原因、我们所使用的评估方法(完整白皮书即将发布),以及这 6 个场景揭示出的排行榜未呈现的细节。
阅读本文后,您将清楚何时选择 HH,何时选择 SD,以及为何通过 Atlas Cloud 的 One API(一个密钥、一个 SDK、一键切换模型字符串)进行此类对比,是当前进行模型选型最务实的方式。
为什么 Happy Horse 1.0 能领跑 Elo 排行榜
在公布测试结果前,有几个事实值得了解。
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| 团队 | 阿里巴巴 ATH | 字节跳动 |
| 发布时间 | 2026/04/10 发布,4/27 上线 Atlas Cloud | 已正式发布 |
| 架构 | 15B 统一 Transformer(联合音视频生成,无交叉注意力) | 混合专家架构(MoE) |
| 原生音频 | ✅ | ✅ |
| 多语言支持 | 7 种语言唇形同步(普通话/粤语/英语/日语/韩语/德语/法语) | 6 种语言提示词输入(中/英+日/印尼/西/葡) |
| 生成速度 | 单块 H100 下 1080p 每片段约 38 秒 | — |
| Artificial Analysis Elo | T2V 1389(第 1 名)/ I2V 1416(第 1 名) | T2V 约 1274 |
有三个因素使其真正赢得了榜首位置。
统一 Transformer 架构。 音频和视频在同一个序列中生成,而非后期拼接。唇形同步、音频时序和剪辑点被同时建模。这至关重要,因为“先生成视频,后添加音频”的流程往往会导致视觉与音频不同步——HH 从架构层面规避了这一问题。
原生 7 语言唇形同步。 普通话、粤语、日语、韩语、德语、法语和英语。这是目前公开发布的视频模型中涵盖范围最广的多语言唇形同步功能,对全球内容生产具有实际价值。
视觉上限。 观察我们测试的单帧画面,HH 的皮肤质感、单帧美学和电影级调色确实领先于 SD。Artificial Analysis 采用盲测评估,人类评估员对“哪一个更像电影”高度敏感,这是 Elo 差距的主要解释。
但 Elo 只是一个总分。它告诉你谁在更多场次的对决中胜出,但并未指出它们在何处胜出,或在何处失利。总分掩盖了底层的真实架构,这正是我们建立科学评估框架的初衷。
AI 视频模型评估框架
我们整理了一份完整的《AI 视频模型评估白皮书》——以下是其核心方法论。
现有基准测试的效用与局限
| 系统 | 优势 | 局限性 |
|---|---|---|
| VBench / VBench-2.0 | 颗粒度细(16+18 个子维度),涵盖物理与常识 | 配置复杂,需 GPU 运行,不够直观 |
| Artificial Analysis Elo | 反映人类主观偏好,跨模型可比 | 黑盒,无法定位弱点,仅有总分 |
| FVD / CLIP Score | 客观,可脚本化 | 与人类感知的相关性有限 |
| 演示选片 (行业规范) | 视觉冲击力强 | 不可复现,存在严重的挑选偏差 |
2026 年 3 月发布的 VBench v2.0 论文直言不讳地指出:即使是当前最强大的模型,在物理合理性得分上也仅在 50% 左右。黄金标准仍在演变中,单次排行榜评分并非模型选型的可靠依据。
五大评估维度
| 维度 | 评估核心问题 | 关键子项 |
|---|---|---|
| 提示词-视频对齐 | 输出是否准确遵循指令? | 主体/动作/场景/风格/数量与空间关系 |
| 视觉质量 | 每个单帧是否出色? | 分辨率/美感/渲染/细节 |
| 运动与物理 | 运动是否符合物理定律? | 自然度/物理逻辑/动态范围/摄像机运动准确性 |
| 时间一致性 | 帧与镜头间是否连贯? | 主体身份/场景/闪烁/多镜头一致性 |
| 多模态能力 | 模型视觉之外的能力表现? | 音频/音画同步/唇形同步/多语言/风格控制 |
维度 5(多模态能力)是 2026 年模型竞争的分水岭,也是 HH 的核心王牌。
三层评估方法
| 层级 | 使用场景 | 工具 |
|---|---|---|
| L1 客观指标 | 大规模筛选,CI/CD | FVD / CLIP-Score / LAION Aesthetic 等 |
| L2 标准化任务集 | 教程评估,产品对比,发布白皮书 | VBench 提示词集 / Atlas Cloud Prompt Hub |
| L3 主观盲测 | 最终决策,对外发布 | 双盲 Elo + 五维评分卡 |
2025-2026 年的多篇论文证实,使用 MLLM-as-Judge(以 Claude 或 GPT-4V 作为评估员)与人类评分的相关性远高于单纯的量化指标。这是我们 L1 层的基础。
提示词选择标准
基准测试争议最大的来源不是指标,而是提示词。我们的最低标准与分级结构如下:
| 分级 | 定义 | 使用场景 |
|---|---|---|
| A (默认) | 模型中立,维度定向——同一提示词在两模型运行 | 主要评估标准 |
| B (避免) | 主题相同,但各模型使用各自的 Hub 提示词 | 不用于评分——仅作演示 |
为什么单项评分会误导
2026 年的视频模型不只是“文生视频”。一个模型可能同时支持 T2V、I2V、图生视频、视频编辑、原生音频和多语言唇形同步,且在这些模式下的表现差异巨大。Elo 将其压缩为一个数字。我们的框架为每次评估打上模态标签,并输出一个能力矩阵,而非简单的排名。
完整白皮书将包含评分卡模板、执行 SOP、工具链推荐及学术参考资料。以下测试结果均在这一框架下产生。
6 个场景:排行榜第 1 名的失利瞬间
我们从 Atlas Cloud 的 Prompt Hub 中选择了 6 个场景,涵盖五大维度。统一参数:1080p / 16:9 / 种子 42 / 时长根据复杂度定(5-15 秒)。
场景 1:洞穴探险 —— 视觉质量 + 环境音
提示词:手电筒照亮石灰岩洞穴,照亮潮湿的岩壁和结晶反射,光束穿过浅水产生焦散光,钟乳石投射出随光源移动的长影。环境音:滴水声、湿岩石上的脚步声、密闭空间呼吸声。
HH 在视觉上获胜,SD 在音频上获胜。该场景直接映射了 HH 的排行榜优势——其视觉细节确实处于顶尖水平。
场景 2:好莱坞追车戏 —— 指令密度
提示词在 15 秒内包含了 7 种不同的镜头类型:航拍广角 → 地面低角度追踪 → 车头 POV → 荷兰式斜角中景 → ECU 后窗 → 广角侧向追踪 → 航拍拉远。
SD 明显获胜。HH 的“无人机错误”是语义对齐失败的典型案例——它认识“无人机”这个词,但无法分辨它是指摄影机移动还是场景中的实物。
场景 3:跨场景角色一致性
参考图:红长发女子,齐刘海,白衬衫,黑领带。任务:从办公室走到家,全程保持外观一致和自然的表情过渡。
值得注意的是:我们使用了 R2V(图生视频)而非 I2V。I2V 默认锁定参考图为第一帧,无法测试跨场景一致性。
| 维度 | SD | HH |
|---|---|---|
| 五官/发型一致性 | ✅ | ✅ |
| 服装连续性 | 从办公室到家单镜头(艺术但突兀) | 清晰换装,脱掉外套保留领带 ✅ |
| 表情过渡帧 | 跳剪 | 闭眼+轻微微笑表现“下班”状态 ✅ |
| 视觉质感 | 干净、精炼 | 有雀斑细节,但有明显的“AI 塑料感”光泽 |
| 叙事完整性 | 3 场景 + 父亲角色 ✅ | 仅聚焦于母女 |
平局。SD 提供了连贯的单镜头;HH 采用了传统剪辑,细节更丰富但有 AI 平滑伪影。
场景 4:脱口秀双角色对话 —— 多模态表现 ⚡
这是六个场景中指令密度最高的。提示词中三个显性的节奏标记(前倾/假装思考的停顿/共享笑点的包袱)均作为检查点。
| 维度 | SD | HH |
|---|---|---|
| 节奏 cue: “狗前倾” | ✅ 执行 | ❌ 全程僵硬 |
| 节奏 cue: “猫假装思考” | ✅ ECU 思考表情 | ❌ 未捕捉 |
| 共享笑点收尾 | ✅ 切到猫笑(包袱点) | ⚠️ 切到狗(角色错误) |
| 文本忠实度 | ✅ | ✅ |
| 语音匹配 | ✅ 准确 | ⚠️ 准确但机械 |
| 创意加分 | ✅ 主动添加观众笑声 | — |
| 语音一致性 | ✅ | ❌ 猫最后的笑声变成了男声 |
SD 全面获胜。有趣的是,SD 主动添加了提示词中未提到的观众笑声——这说明模型理解该场景的特定格式。而 HH 在音频上出现了重大失误:猫的笑声中途变成了男声。长序列音频一致性是其软肋。
场景 5:浪漫场景 → 叙事反转 —— 视频编辑 ⚡⚡
任务:男性表情从温暖变为冷酷,将女性推下楼顶。坠落中,她用普通话尖叫:“你从一开始就在骗我!”——不是恐惧,而是不可置信。男子冷笑,平静地说:“这是你们家欠我的。”
| 4 层测试 | SD | HH |
|---|---|---|
| 表情反转 | ✅ 眼球移动 + 冷笑 | ❌ 表情看起来像悲伤 |
| 女性反应:怀疑而非恐惧 | ✅ 坠落时的愤怒与尖叫 | ❌ 教科书式的恐惧(与提示词相反) |
| 推下楼动作 | ✅ 真实发生(航拍坠落) | ❌ 没推,女子仍在站立 |
| 视觉色调变化 | ✅ | ⚠️ 保持基准 |
SD 执行了完整场景,HH 完全失败。HH 将整个提示词解析为“加点对话和情绪冲突”,并未理解叙事层面(故事如何发展)。它能处理表面指令,不能处理深层语义。
场景 6:多模态参考融合 —— 电梯惊悚 ⚡⚡⚡
任务:融合 3 张参考图(男性外观/电梯内部/走廊)+ 1 段参考视频(摄像机运动+表情)。执行:恐惧感 → 希区柯克变焦 → 走出电梯 → 机械臂追踪摇摄。
SD 胜出。HH 复制了参考图的姿势,却生成了完全不同的人脸。它只拷贝了动作,没拷贝身份。
HH 与 SD:指令理解差距
这不是谁更“好”的问题,而是指令理解层次的差异。HH 擅长表面细节,SD 擅长语义、身份一致性和叙事逻辑。Elo 分数正是被 HH 的视觉上限(皮肤、调色)推高的,但这不能掩盖语义理解的断层。
结论:如何选型?
- 追求单镜头极致视觉:选 HH(皮肤质感、电影感)。
- 多镜头叙事、逻辑反转、身份一致性:选 SD(语义理解强)。
- 多语言唇形需求:选 HH。
- 高指令密度、需模型主动补全:选 SD。
One API:一键切换模型
我们在测试中遇到的工程痛点:HH 和 SD 使用不同的 SDK 和鉴权方式。Atlas Cloud 将两者都接入了 One API——一个密钥、一个 SDK、一个模型字符串。
即便端点名称不同(HH 为
1video-edit1reference-to-video通过 控制台 获取您的 API 密钥,参考 API 文档 即可开始。
关于基准测试的诚实性
我们曾犹豫:发布“HH 将坠楼戏演成了聊天”是否不公平?但评估白皮书的价值在于客观。HH 的强项毋庸置疑,其失败场景则明确了选型的边界。这正是对比基准的意义所在。
即将发布:
- 完整版白皮书 v1.0:五维度 × 三层级方法论、评分卡模板与执行 SOP。
- 完整评分矩阵:5 维度 × 6 场景 × 2 模型,逐格打分。
- 评估工具链:含 MLLM-as-Judge 的自动化脚本。
- 更多模型加入:Veo, Wan, Kling 等后续将加入对比矩阵。
如果您正在进行模型选型,欢迎在评论区留下您的使用场景,我们将把读者的需求纳入评估维度。所有评估样本、原始提示词、提取帧以及评分细节都将随白皮书一同发布。完整的评估过程均通过 Atlas Cloud One API 在单一界面下完成。






