我們執行了 6 個場景、12 支影片,並使用同一組提示詞 (prompt),只為找出答案。
4 月 10 日,阿里巴巴 ATH 團隊發布了 Happy Horse 1.0。僅僅幾天後,它便在 Artificial Analysis 的影片模型排行榜上奪得頭籌——T2V Elo 1389 分、I2V Elo 1416 分,在文生影片 (text-to-video) 領域領先字節跳動的 Seedance 2.0 約 115 分。
如果您從事 AI 影片製作、產品選型或產業研究,最直接的問題顯而易見:這個排名在真實工作負載下是否依然成立?
我們花了一週時間進行驗證。相同的提示詞、相同的參考素材、相同的評估框架——我們讓 Happy Horse 1.0 和 Seedance 2.0 在 6 種場景、共 12 支影片中進行對比。本文將涵蓋三項重點:Happy Horse 究竟憑什麼登頂、我們使用的評估方法論(完整白皮書即將發布),以及這 6 個場景揭示了哪些排行榜未體現的差異。
看完本文,您將清楚何時該選擇 HH,何時該選擇 SD,以及為什麼透過 Atlas Cloud 的 One API(一個金鑰、一個 SDK、一行模型字串替換)進行這類對比,是目前最務實的模型選型方式。
為什麼 Happy Horse 1.0 能在 Elo 排行榜領先
在了解測試結果前,有幾個事實值得注意。
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| 團隊 | 阿里巴巴 ATH | 字節跳動 |
| 發布時間 | 2026/04/10 發表,4/27 於 Atlas Cloud 上線 | 已廣泛提供 |
| 架構 | 15B 統一 Transformer(聯合音訊與影片生成,無交叉注意力機制) | 混合專家模型 (MoE) 架構 |
| 原生音訊 | ✅ | ✅ |
| 多語言 | 支援 7 種語言口型同步(普通話 / 粵語 / 英語 / 日語 / 韓語 / 德語 / 法語) | 支援 6 種語言提示詞輸入(中文 / 英文 + 日語 / 印尼語 / 西班牙語 / 葡萄牙語) |
| 生成速度 | 在單張 H100 上,1080p 解析度下約 38 秒/片段 | — |
| Artificial Analysis Elo | T2V 1389 (排名第一) / I2V 1416 (排名第一) | T2V ~1274 |
它之所以能真正獲得最高排名,有三大原因:
統一 Transformer 架構。 音訊與影片在同一個序列中生成,而非後期拼接而成。口型同步、音訊時序和剪輯點被同時建模。這一點至關重要,因為「先生成影片、後添加音訊」的管線方式往往會導致視覺與音訊錯位,而 HH 從架構層面避免了此問題。
原生 7 語言口型同步。 支援普通話、粵語、日語、韓語、德語、法語和英語。這是目前公開影片模型中最廣泛的多語言口型同步覆蓋,對於全球化內容生產具有實際價值。
視覺天花板。 觀察我們測試中的單幀圖像,HH 的皮膚紋理、單幀美學以及電影級調色確實領先於 SD。Artificial Analysis 採用人類盲測,評估人員對「哪一個看起來更像電影」極為敏感,這就是 Elo 分數差距的主要原因。
但 Elo 只是單一的總分,它只告訴你誰贏的對抗場次較多,卻無法說明在何處獲勝或失敗。總分掩蓋了底層的真實結構,這正是我們建立一套嚴謹評估框架的原因。
AI 影片模型評估框架
我們編纂了一份完整的《AI 影片模型評估白皮書》,以下是核心方法論。
現有基準測試的優勢與侷限
| 系統 | 優勢 | 侷限 |
|---|---|---|
| VBench / VBench-2.0 (學術基準) | 顆粒度細(16 + 18 個子維度),涵蓋物理與常識 | 設定複雜,需 GPU 執行,不直觀 |
| Artificial Analysis Elo (盲測排名) | 反映人類主觀偏好,模型間可比 | 黑箱作業,無法定位弱點,僅為單一總分 |
| FVD / CLIP Score (定量指標) | 客觀、可程式化 | 與人類感知的相關性有限 |
| 展示樣片 (業界慣例) | 視覺衝擊力強 | 無法重現,有嚴重的選擇性偏誤 |
2026 年 3 月發表的 VBench v2.0 論文曾直言:即使目前最強的模型,在物理合理性上的得分也僅在 50% 左右。黃金標準仍在演進,單一的排行榜分數並非模型選型的可靠依據。
五大評估維度
| 維度 | 評估問題 | 關鍵子項目 |
|---|---|---|
| 提示詞-影片對齊 | 輸出內容是否準確遵循指令? | 主體 / 動作 / 場景 / 風格 / 數量與空間關係 |
| 視覺品質 | 每一幀是否優異? | 解析度 / 美學 / 渲染 / 細節 |
| 動作與物理 | 動作是否符合物理規律? | 自然度 / 物理現象 / 動態範圍 / 攝影機運動精度 |
| 時間一致性 | 影片幀與鏡頭是否隨時間連貫? | 主體身份 / 場景 / 閃爍感 / 多鏡頭一致性 |
| 多模態能力 | 模型在視覺之外能做什麼? | 音訊 / 視聽同步 / 口型同步 / 多語言 / 風格控制 |
第五維度(多模態能力:音訊/口型同步/多語言/風格控制)是 2026 年模型競爭的關鍵差異化因素,也是 HH 手中的王牌。
三層評估方法
| 層級 | 用途 | 工具 |
|---|---|---|
| L1 客觀指標 | 大規模篩選、CI/CD | FVD / CLIP-Score / LAION 美學 / DINO / 光流 / SyncNet / MLLM-as-Judge |
| L2 標準化任務集 | 教學評估、產品對比、白皮書發布 | VBench 提示詞集 / Atlas Cloud Prompt Hub / 特定維度提示詞 |
| L3 主觀盲測 | 最終決策、對外發布 | 雙盲 Elo + 五維評分卡 |
2025 至 2026 年的多篇論文證實,MLLM-as-Judge(使用 Claude 或 GPT-4V 作為評審)與人類評分的相關性顯著高於純定量指標。這正是我們 L1 層級的基石。
提示詞選擇分級
對比基準中最具爭議的不是指標,而是提示詞。我們的最低門檻與分級結構:
| 分級 | 定義 | 使用時機 |
|---|---|---|
| A (預設) | 模型中立、特定維度提示詞——同一提示詞在兩個模型上執行 | 主要評估標準 |
| B (避免) | 相同主題,但每個模型使用各自的 Hub 提示詞 | 不用於評分——僅限演示集 |
為什麼單一分數會誤導
2026 年的影片模型不僅僅是「文生影片」。一個模型可能同時支援 T2V、I2V、參考生影片 (R2V)、影片編輯、原生音訊和多語言口型同步,且在這些模式下的表現差異巨大。Elo 將這些全部濃縮為一個數字。我們的框架為每次評估貼上模態標籤,並輸出一個能力矩陣,而非簡單的排名。
完整的白皮書將包含評分卡範本、執行標準作業程序 (SOP)、工具鏈建議以及完整的學術參考(VBench、Artificial Analysis、AIGCBench、LOVE 等)。以下測試結果均依此框架產生。
6 個場景:排行榜第一名在哪裡失利
我們從 Atlas Cloud 的 Prompt Hub 中挑選了 6 種場景,涵蓋所有五大評估維度並平衡了模態覆蓋。所有執行參數統一:1080p / 16:9 / 種子碼 42 / 時長視場景複雜度而定 (5–15 秒)。
場景 1:洞穴探險 —— 視覺品質 + 環境音訊
提示詞:手電筒照亮石灰岩洞穴,照亮潮濕的岩壁與水晶反射,光束穿過淺水區產生焦散光影,鐘乳石投下隨光源移動的長影。環境音訊:滴水聲、濕岩石上的腳步聲、封閉空間的呼吸聲。
HH 在視覺上獲勝,SD 在音訊上獲勝。這個場景直接映射了 HH 的排行榜優勢——其視覺細節確實達到了 SOTA(業界頂尖)水準。
場景 2:好萊塢飛車追逐 —— 指令密度
提示詞在 15 秒內塞入了 7 種不同的鏡頭類型:空拍廣角 → 地面低角度追蹤 → 引擎蓋視角 → 荷蘭式斜角中景 → ECU 後窗特寫 → 廣角側拍追蹤 → 空拍拉遠。
| 維度 | SD | HH |
|---|---|---|
| 7 種鏡頭執行 | 5/7 鏡頭準確 ✅ | 僅 2–3 個鏡頭 |
| 煙霧 / 碎片物理現象 | 稠密且寫實 ✅ | 傾向輕薄 |
| 三層音訊 (引擎/輪胎/路面) | 分明 ✅ | 混合在一起 |
| 語義偏差 | — | 將「空拍鏡頭 (aerial drone shot)」渲染成了真的有一台無人機飛進畫面中 |
SD 明顯獲勝。HH 的「無人機錯誤」是語義對齊失敗的典型範例——它認識「無人機 (drone)」這個詞,但無法分辨它指的是鏡頭運動還是場景中的實體物件。
場景 3:跨場景角色一致性
參考圖:一位紅長髮、平瀏海、穿白襯衫黑領帶的女性。任務:從辦公室走到家,過程中保持外貌一致,並自然呈現情緒轉折。
此處需特別說明:我們使用 R2V(參考圖生成影片),而非 I2V。I2V 預設將參考圖鎖定為第一幀,強制影片從該圖開始,無法測試跨場景的一致性。這一區別比看起來更重要。
| 維度 | SD | HH |
|---|---|---|
| 五官 / 髮型一致性 | ✅ | ✅ |
| 服裝連貫性 | 從辦公室到家的單一連續長鏡頭(藝術感但突兀) | 清晰的換裝,脫下外套但保留領帶 ✅ |
| 情緒轉折幀 | 兩拍式的跳剪 | 閉眼 + 微笑,作為「離開工作模式」的轉折 ✅ |
| 視覺質感 | 偏向乾淨精緻 | 有細微雀斑,但有明顯的「AI 塑料」光澤 |
| 敘事完整性 | 包含 3 個場景 + 父親角色 ✅ | 僅聚焦母女 |
平手,兩者有不同取捨:SD 提供了連貫的單一長鏡頭,執行乾淨;HH 使用傳統剪輯,細節更精細但有明顯的 AI 平滑偽影。
場景 4:脫口秀雙人對話 —— 多模態效能 ⚡
這是六個場景中指令密度最高的。提示詞中有三個明確的節奏標記(前傾 / 假裝思考的停頓 / 共同大笑的爆點),每個都是離散的通過/失敗檢核點。
提示詞指定了「今夜秀 (Tonight Show)」風格的三輪交流,最後以兩人同時大笑結束。
| 維度 | SD | HH |
|---|---|---|
| 節奏標記:「狗前傾」 | ✅ 執行 | ❌ 全程靜止 |
| 節奏標記:「貓假裝思考停頓」 | ✅ 呈現特寫思考表情 | ❌ 未捕捉到 |
| 結尾共同大笑鏡頭 | ✅ 切到貓的大笑(爆點節奏) | ⚠️ 切到了狗(角色錯誤) |
| 文本忠實度 | ✅ | ✅ (HH 唯一達標的維度) |
| 聲音匹配 | ✅ 準確 | ⚠️ 準確但機械感重 |
| 額外創意 | ✅ 主動加入脫口秀觀眾笑聲 — 超出提示詞的流派適配填充 | — |
| 聲音一致性 | ✅ | ❌ 貓的最後大笑變成了男聲 |
SD 徹底獲勝。最有趣的細節:SD 主動加入了提示詞中沒有的觀眾笑聲。脫口秀有其預期格式——在反應點加入笑聲軌跡——模型填補了這部分。這不僅僅是指令遵循,這是理解了這類內容「應該是什麼樣子」。
HH 保持了文本忠實度,但在音訊上遭遇嚴重失敗:貓的大笑在中途變成了男聲。長距離音訊一致性是其硬傷。
場景 5:浪漫場景 → 預謀反轉 —— 影片編輯 ⚡⚡
原始影片:外國男子用英文說:「今晚月色真美,可惜不能與你共享」,中國女子用普通話回應:「只要與你在一起,處處皆是美景」。天台夜晚,氛圍溫馨。
編輯提示詞:完整的敘事反轉。男子表情從溫暖轉為冰冷。他毫不猶豫地將女子推下天台。墜落中,她用普通話尖叫:「你從一開始就在騙我!」——不是恐懼,而是難以置信。他站在邊緣冷笑並低聲說道:「這就是你欠我家族的。」
四層測試:表情反轉 + 關鍵物理動作 + 雙語對話替換 + 視覺基調轉換。
| 4 層測試 | SD | HH |
|---|---|---|
| 男子表情反轉 | ✅ 眼神轉變 + 冷笑 | ❌ 表情讀起來像是悲傷 |
| 女子反應:難以置信而非恐懼 | ✅ 墜落中的憤怒與尖叫 | ❌ 教科書式的恐懼表情(與提示詞相反) |
| 推下天台動作 | ✅ 實際發生 (空中墜落鏡頭 + 城市傾斜) | ❌ 沒有推——女子依然站著 |
| 視覺基調轉換 | ✅ | ⚠️ 保持原樣 |
| 雙語對話生成 | ✅ | ✅ (HH 唯一達標的維度) |
| 聲音寫實感 | ✅ | ❌ 厚重的 AI 感 |
SD 執行了整個場景,HH 完全失敗。
HH 將整個提示詞解析為「添加一些對話和情緒衝突」。敘事結構沒有發生變化。它能處理表層指令(說什麼),但無法處理敘事層面的指令(故事如何發展)。
場景 6:多模態參考融合 —— 電梯驚悚片 ⚡⚡⚡
輸入:3 張參考圖(男主外貌 / 電梯內部 / 走廊)+ 1 段參考影片(鏡頭運動 + 面部表情)。任務:融合這 4 個輸入,並製作一段恐懼 → 希區考克變焦 (Hitchcock zoom) → 走出電梯 → 機械臂追蹤運鏡。
兩個模型使用不同的端點——HH 使用 video-edit,SD 使用 reference-to-video——但兩者皆接受複合式圖文輸入。端點名稱不對稱,但能力等效。這正好證明了 One API 抽象層的作用。
SD 乾淨利落勝出。
HH 複製了參考圖中的姿勢(掐脖動作),但生成了一張完全不同的臉。它複製了手勢,而非身份。這在結構上與場景 5 的失敗相同:表層模仿有效,但語義深度不足。
Happy Horse vs Seedance:指令理解差距
一個一致的規律出現了:
這並非「誰更好」的問題,而是它們在不同的指令理解層次上運作。
給 HH 一段對話、一個姿勢或一個場景元素——它能很好地處理細節,且視覺紋理通常更勝一籌。但要求它進行敘事反轉、保持特定人物在多個鏡頭下的身份一致,或跟隨一連串節奏 cues——它往往停留在「添加表層元素」,而未觸及「執行你真正想要的意圖」。
SD 則相反。在表層質感上精確度略遜,但在敘事整體感、身份忠誠度和時序上更可靠,且會主動填補提示詞未指定的流派慣例元素。
這也解釋了 Elo 結果。Artificial Analysis 的盲測對「哪一個看起來更像電影」極為敏感。HH 的視覺天花板(皮膚紋理、調色、單幀美學)是真實的,這在對抗測試中顯而易見。但 Elo 無法揭露語義理解的斷層。兩者——排行榜第一的實力與它的失敗模式——同時為真。
Happy Horse vs Seedance:哪個模型適合你的用例
| 場景類型 | 選擇 | 原因 |
|---|---|---|
| 單一最佳畫面 (視覺品質天花板) | HH | 皮膚紋理 / 電影級調色 / 單幀美學 |
| 本地對話生成 / 翻譯 / 替換 | HH | 可靠的文本忠實度 |
| 7 語言口型同步內容 | HH | 目前唯一涵蓋多種語言的公開模型 |
| 氛圍片 / 情緒短片 / 單鏡頭片段 | HH | 更細膩的視覺細節 + 平滑的情緒轉折 |
| 多鏡頭腳本影片 (飛車 / 脫口秀 / 動作) | SD | 可靠的鏡頭切換執行 |
| 敘事反轉 / 影片編輯 | SD | 語義級的指令理解能力 |
| 跨場景角色一致性 + 身份忠誠度 | SD | 參考圖輸入會正確換人,而不僅是姿勢 |
| 高指令密度 / 提示詞字面執行 | SD | 預設的指令對齊度高 |
One API:一行字串即可切換模型
我們在執行此評估時遇到的第一個工程難題:HH 和 SD 使用不同的 SDK、不同的端點、不同的驗證方式。僅僅適配客戶端程式碼就需要三種不同的實作方式。
這就是為什麼 Atlas Cloud 將 Seedance 2.0 和 Happy Horse 1.0 統一放在同一個模型池和 One API 下。一個金鑰、一個 SDK、一行模型字串。
場景 6 的細節值得再次強調——HH 的端點名為 video-edit,SD 為 reference-to-video。名稱雖異,能力等效(皆接受複合式圖文輸入)。One API 抹平了這些差異,開發者只需一套實作。
本次評估中的 12 支影片皆透過 Atlas Cloud One API 生成——相同的金鑰、相同的 SDK、相同的提示詞,僅更改了一個參數欄位。進行跨模型對比從未如此低摩擦。
使用 API
步驟 1:從 控制台 取得您的 API 金鑰。


步驟 2:查看 API 文件 了解端點詳細資訊、請求參數與驗證方式。
關於評測誠實性的說明
在撰寫本文前,我們曾猶豫:發布諸如「HH 將推人下樓場景渲染成了對話」或「HH 生成了錯誤的人臉」這類結果——這樣公平嗎?
一份評估白皮書的價值恰恰在於其誠實。Happy Horse 的確強大,Elo 的雙第一並非雜訊。它的失敗場景能精確告訴你何時該選擇另一個選項——這才是對比基準測試的全部意義所在。
接下來:
完整版白皮書 v1.0 —— 涵蓋五大維度 × 三層評估方法論,包含評分卡範本、執行 SOP 及完整學術參考 (VBench 2.0, Artificial Analysis, AIGCBench, LOVE 等)
完整評分矩陣 —— 5 維度 × 6 場景 × 2 模型,共 60 個獨立評分單元
評估工具鏈 —— 包含 MLLM-as-Judge 實作的 L1 自動化腳本
更多模型 —— Veo、Wan、Kling 等將加入對比矩陣
如果您正在進行影片模型選型,請在評論區留下您的用例。白皮書 v1.0 將包含讀者最關心的對比維度。
所有評估樣本、原始提示詞、提取的幀畫面及評分細節將與白皮書一併發布。完整評估均透過 Atlas Cloud One API 在同一介面上完成。






