AI 视频生成模型更新迭代迅速。继 HappyHorse 1.0 之后,阿里巴巴近期推出了 HappyHorse 1.1,而 Atlas Cloud 平台也正在对模型进行升级。
核心摘要:
- HappyHorse 1.1 带来了更流畅的动态表现和更强的时序一致性,使其更适合运动视频、舞蹈片段、追逐场景及电影感动作镜头。
- HappyHorse 1.1 强化了参考图到视频(reference-to-video)的生成能力,改进了多图融合技术并支持最多 9 张参考图,有助于保持产品、角色及品牌视觉的一致性。
- 长提示词(long-prompt)的控制能力得到提升,尤其是在 6–8 个连续场景、多镜头广告、短剧、多角色场景及分镜式视频提示词的处理上表现更佳。
- 特写镜头的视觉真实感更强,面部细节和皮肤纹理更自然,减少了“合成感”。
- 原生音频生成更加精细,在对话节奏、停顿、环境音以及音画同步方面表现更优,适用于社交视频和对话场景。
- HappyHorse 1.1 的国内定价预计为 720P ¥0.9/秒,1080P ¥1.2/秒;国际定价为 $0.14/秒和 $0.18/秒,前两周享 40% 的首发折扣。
HappyHorse 1.0 本身已是一款强劲的 AI 视频模型。它支持文生视频、图生视频及参考图生视频工作流,在电影感镜头、角色片段和短视频创作方面非常实用。对许多用户而言,其最大的优势在于能够生成视觉效果出众、带有原生音频且具有较强电影感控制力的视频。
然而,除了画面美观之外,结果是否可控、一致且可用也同样重要。一款优秀的 AI 视频模型需要保持主体稳定、保留参考细节、生成自然的动态并减少手动后期处理的工作量。
这正是 HappyHorse 1.1 的意义所在。它不应被简单地理解为 HappyHorse 1.0 的“新版本”,更准确地说,它是针对 1.0 版本尚存局限的场景进行的定向升级。
因此,与其纠结“1.1 是否更好”,不如深入探讨:它在哪些方面更好,以及何时应该选择它而非 1.0?
实测:HappyHorse 1.0 与 1.1 使用相同提示词的效果对比
提示词:
一个包含 5 个连续镜头的电影感间谍场景。镜头 1:一名身穿黑色大衣的年轻女子在午夜走进安静的火车站。镜头 2:她在蓝色荧光灯下查看一只银色怀表。镜头 3:一名穿灰西装的男子出现在柱子后。镜头 4:镜头切到她倒映在自动售货机玻璃上的身影。镜头 5:她回头,意识到自己被跟踪,随后加快脚步。在所有镜头中保持同一名女子、同一件大衣、同一个车站,并营造出一致的悬疑氛围。
HappyHorse 1.1
HappyHorse 1.0
HappyHorse 1.1 对比 HappyHorse 1.0:改进之处在哪里?
1:动态与动作表现
首要改进是动作表现。
在 HappyHorse 1.0 中,虽然可以实现视觉丰富的场景,但某些动态场景可能会显得节奏较慢或物理感不足。HappyHorse 1.1 改进了动作建模和帧与帧之间的时序一致性,使动作看起来更平滑、更连续且更具物理真实感。
对于创作者而言,这不仅仅是视觉上的升级,还能减少重试次数。如果模型能更好地理解动作随时间的演变,你就不必为了一个自然的姿态或可信的动作节奏而反复重新生成。
2:参考一致性与 R2V
第二项改进是参考一致性,特别是在 R2V(参考图生视频)工作流中。
参考图生视频至关重要,因为没有人希望生成一个随机的漂亮视频。HappyHorse 1.0 虽然已经支持基于参考的生成,但复杂的参考组合仍可能导致问题:产品细节可能会偏移,角色的脸可能会“漂移”,或者一个参考图会干扰另一个。HappyHorse 1.1 强化了对多参考图的理解。公开的 API 页面显示,1.1 版本的 R2V 支持多达 9 张参考图,角色参考按顺序命名(如 character1 到 character9)。对于品牌视频、电商广告、角色系列和短剧而言,这是最实用的升级之一。
3:长提示词与复杂场景遵循
第三项改进是长提示词和复杂场景的遵循能力。
简单的提示词无法满足许多实际应用场景。你可能希望通过一段提示词描述多个连贯的场景,从出场顺序到转场方式。HappyHorse 1.1 提升了长上下文的语义留存能力和分段场景规划能力。在实践中,这意味着它更适合包含多个动作、多名角色和多种运镜指令的提示词。单个提示词可以描述 6 到 8 个连续场景,对时间、动作和镜头变化的分配更为可靠。
此外,HappyHorse 1.1 在多角色空间控制方面也取得了进展。它改进了角色位置建模和场景关系理解,这对对话场景、群像镜头、短剧等尤为重要。
4:视觉纹理与人物特写
第四项升级是视觉质量,尤其是在人脸和皮肤纹理方面。
HappyHorse 1.0 以其出色的美学表现著称。但针对 1.0 的反馈也集中在一些问题上,如面部光泽过重、过度锐化或特写镜头中轻微的“塑料感”。HappyHorse 1.1 专门优化了面部细节和真实的皮肤还原,能保留毛孔、笑纹和自然的皮肤质感,而非将其全部抹平为塑料质感。这使得 1.1 更适合专业的叙事和商业用途。
5:原生音频与音画协调
第五项升级是音频表现和音画协调。
对于视频生成而言,音频不应是“事后补充”。对话的节奏、情感基调和背景音都会影响场景的可信度。HappyHorse 1.1 提升了自然对话的表达能力,包括语音节奏、停顿和情感变化。它还允许用户在提示词中描述背景和环境音。
这对于对话场景、产品广告、短片和社交媒体视频特别有用,用户可以直接获得更完整的产出,而无需为了一个静音的视觉片段去单独做后期处理。
简而言之,HappyHorse 1.1 是相对于 HappyHorse 1.0 的生产力导向升级。它在动作表现、参考一致性、长提示词理解、面部真实感及原生音频协调方面均有提升。
何时应该选择 HappyHorse 1.1 而非 1.0?
如果任务只是简单的氛围镜头,HappyHorse 1.0 可能已经足够。但如果任务涉及复杂的动作、多名角色、较长的提示词、品牌参考、产品细节、人脸特写或原生对话,HappyHorse 1.1 则是更合适的选择。
在 Atlas Cloud 上,你可以同时测试两个版本,保持工作流的一致性,并根据你自己的提示词、参考资料以及质量标准做出判断。
这才是评估 AI 视频模型最可靠的方法:不看炒作,看可重复的对比测试。







