在 Artificial Analysis 排行榜上排名第一：Happy Horse 1.0 真能擊敗 Seedance 2.0 嗎？

我們執行了 6 個場景、12 支影片，並使用同一組提示詞 (prompt)，只為找出答案。

4 月 10 日，阿里巴巴 ATH 團隊發布了 Happy Horse 1.0。僅僅幾天後，它便在 Artificial Analysis 的影片模型排行榜上奪得頭籌——T2V Elo 1389 分、I2V Elo 1416 分，在文生影片 (text-to-video) 領域領先字節跳動的 Seedance 2.0 約 115 分。

如果您從事 AI 影片製作、產品選型或產業研究，最直接的問題顯而易見：這個排名在真實工作負載下是否依然成立？

我們花了一週時間進行驗證。相同的提示詞、相同的參考素材、相同的評估框架——我們讓 Happy Horse 1.0 和 Seedance 2.0 在 6 種場景、共 12 支影片中進行對比。本文將涵蓋三項重點：Happy Horse 究竟憑什麼登頂、我們使用的評估方法論（完整白皮書即將發布），以及這 6 個場景揭示了哪些排行榜未體現的差異。

看完本文，您將清楚何時該選擇 HH，何時該選擇 SD，以及為什麼透過 Atlas Cloud 的 One API（一個金鑰、一個 SDK、一行模型字串替換）進行這類對比，是目前最務實的模型選型方式。

為什麼 Happy Horse 1.0 能在 Elo 排行榜領先

在了解測試結果前，有幾個事實值得注意。

	Happy Horse 1.0	Seedance 2.0
團隊	阿里巴巴 ATH	字節跳動
發布時間	2026/04/10 發表，4/27 於 Atlas Cloud 上線	已廣泛提供
架構	15B 統一 Transformer（聯合音訊與影片生成，無交叉注意力機制）	混合專家模型 (MoE) 架構
原生音訊	✅	✅
多語言	支援 7 種語言口型同步（普通話 / 粵語 / 英語 / 日語 / 韓語 / 德語 / 法語）	支援 6 種語言提示詞輸入（中文 / 英文 + 日語 / 印尼語 / 西班牙語 / 葡萄牙語）
生成速度	在單張 H100 上，1080p 解析度下約 38 秒/片段	—
Artificial Analysis Elo	T2V 1389 (排名第一) / I2V 1416 (排名第一)	T2V ~1274

它之所以能真正獲得最高排名，有三大原因：

統一 Transformer 架構。 音訊與影片在同一個序列中生成，而非後期拼接而成。口型同步、音訊時序和剪輯點被同時建模。這一點至關重要，因為「先生成影片、後添加音訊」的管線方式往往會導致視覺與音訊錯位，而 HH 從架構層面避免了此問題。

原生 7 語言口型同步。 支援普通話、粵語、日語、韓語、德語、法語和英語。這是目前公開影片模型中最廣泛的多語言口型同步覆蓋，對於全球化內容生產具有實際價值。

視覺天花板。 觀察我們測試中的單幀圖像，HH 的皮膚紋理、單幀美學以及電影級調色確實領先於 SD。Artificial Analysis 採用人類盲測，評估人員對「哪一個看起來更像電影」極為敏感，這就是 Elo 分數差距的主要原因。

但 Elo 只是單一的總分，它只告訴你誰贏的對抗場次較多，卻無法說明在何處獲勝或失敗。總分掩蓋了底層的真實結構，這正是我們建立一套嚴謹評估框架的原因。

AI 影片模型評估框架

我們編纂了一份完整的《AI 影片模型評估白皮書》，以下是核心方法論。

現有基準測試的優勢與侷限

系統	優勢	侷限
VBench / VBench-2.0 (學術基準)	顆粒度細（16 + 18 個子維度），涵蓋物理與常識	設定複雜，需 GPU 執行，不直觀
Artificial Analysis Elo (盲測排名)	反映人類主觀偏好，模型間可比	黑箱作業，無法定位弱點，僅為單一總分
FVD / CLIP Score (定量指標)	客觀、可程式化	與人類感知的相關性有限
展示樣片 (業界慣例)	視覺衝擊力強	無法重現，有嚴重的選擇性偏誤

2026 年 3 月發表的 VBench v2.0 論文曾直言：即使目前最強的模型，在物理合理性上的得分也僅在 50% 左右。黃金標準仍在演進，單一的排行榜分數並非模型選型的可靠依據。

五大評估維度

維度	評估問題	關鍵子項目
提示詞-影片對齊	輸出內容是否準確遵循指令？	主體 / 動作 / 場景 / 風格 / 數量與空間關係
視覺品質	每一幀是否優異？	解析度 / 美學 / 渲染 / 細節
動作與物理	動作是否符合物理規律？	自然度 / 物理現象 / 動態範圍 / 攝影機運動精度
時間一致性	影片幀與鏡頭是否隨時間連貫？	主體身份 / 場景 / 閃爍感 / 多鏡頭一致性
多模態能力	模型在視覺之外能做什麼？	音訊 / 視聽同步 / 口型同步 / 多語言 / 風格控制

第五維度（多模態能力：音訊/口型同步/多語言/風格控制）是 2026 年模型競爭的關鍵差異化因素，也是 HH 手中的王牌。

三層評估方法

層級	用途	工具
L1 客觀指標	大規模篩選、CI/CD	FVD / CLIP-Score / LAION 美學 / DINO / 光流 / SyncNet / MLLM-as-Judge
L2 標準化任務集	教學評估、產品對比、白皮書發布	VBench 提示詞集 / Atlas Cloud Prompt Hub / 特定維度提示詞
L3 主觀盲測	最終決策、對外發布	雙盲 Elo + 五維評分卡

2025 至 2026 年的多篇論文證實，MLLM-as-Judge（使用 Claude 或 GPT-4V 作為評審）與人類評分的相關性顯著高於純定量指標。這正是我們 L1 層級的基石。

提示詞選擇分級

對比基準中最具爭議的不是指標，而是提示詞。我們的最低門檻與分級結構：

分級	定義	使用時機
A (預設)	模型中立、特定維度提示詞——同一提示詞在兩個模型上執行	主要評估標準
B (避免)	相同主題，但每個模型使用各自的 Hub 提示詞	不用於評分——僅限演示集

為什麼單一分數會誤導

2026 年的影片模型不僅僅是「文生影片」。一個模型可能同時支援 T2V、I2V、參考生影片 (R2V)、影片編輯、原生音訊和多語言口型同步，且在這些模式下的表現差異巨大。Elo 將這些全部濃縮為一個數字。我們的框架為每次評估貼上模態標籤，並輸出一個能力矩陣，而非簡單的排名。

完整的白皮書將包含評分卡範本、執行標準作業程序 (SOP)、工具鏈建議以及完整的學術參考（VBench、Artificial Analysis、AIGCBench、LOVE 等）。以下測試結果均依此框架產生。

6 個場景：排行榜第一名在哪裡失利

我們從 Atlas Cloud 的 Prompt Hub 中挑選了 6 種場景，涵蓋所有五大評估維度並平衡了模態覆蓋。所有執行參數統一：1080p / 16:9 / 種子碼 42 / 時長視場景複雜度而定 (5–15 秒)。

場景 1：洞穴探險 —— 視覺品質 + 環境音訊

提示詞：手電筒照亮石灰岩洞穴，照亮潮濕的岩壁與水晶反射，光束穿過淺水區產生焦散光影，鐘乳石投下隨光源移動的長影。環境音訊：滴水聲、濕岩石上的腳步聲、封閉空間的呼吸聲。

維度	SD	HH
焦散光物理現象	✅	✅
濕岩石高光 / 礦物質紋理	傾向過度精緻	更寫實 ✅（鐘乳石解剖細節勝出）
環境音訊	滴水/腳步/呼吸 — 三層分明 ✅	能聽出「AI 感」，各層混在一起

HH 在視覺上獲勝，SD 在音訊上獲勝。這個場景直接映射了 HH 的排行榜優勢——其視覺細節確實達到了 SOTA（業界頂尖）水準。

場景 2：好萊塢飛車追逐 —— 指令密度

提示詞在 15 秒內塞入了 7 種不同的鏡頭類型：空拍廣角 → 地面低角度追蹤 → 引擎蓋視角 → 荷蘭式斜角中景 → ECU 後窗特寫 → 廣角側拍追蹤 → 空拍拉遠。

維度	SD	HH
7 種鏡頭執行	5/7 鏡頭準確 ✅	僅 2–3 個鏡頭
煙霧 / 碎片物理現象	稠密且寫實 ✅	傾向輕薄
三層音訊 (引擎/輪胎/路面)	分明 ✅	混合在一起
語義偏差	—	將「空拍鏡頭 (aerial drone shot)」渲染成了真的有一台無人機飛進畫面中

SD 明顯獲勝。HH 的「無人機錯誤」是語義對齊失敗的典型範例——它認識「無人機 (drone)」這個詞，但無法分辨它指的是鏡頭運動還是場景中的實體物件。

場景 3：跨場景角色一致性

參考圖：一位紅長髮、平瀏海、穿白襯衫黑領帶的女性。任務：從辦公室走到家，過程中保持外貌一致，並自然呈現情緒轉折。

此處需特別說明：我們使用 R2V（參考圖生成影片），而非 I2V。I2V 預設將參考圖鎖定為第一幀，強制影片從該圖開始，無法測試跨場景的一致性。這一區別比看起來更重要。

維度	SD	HH
五官 / 髮型一致性	✅	✅
服裝連貫性	從辦公室到家的單一連續長鏡頭（藝術感但突兀）	清晰的換裝，脫下外套但保留領帶 ✅
情緒轉折幀	兩拍式的跳剪	閉眼 + 微笑，作為「離開工作模式」的轉折 ✅
視覺質感	偏向乾淨精緻	有細微雀斑，但有明顯的「AI 塑料」光澤
敘事完整性	包含 3 個場景 + 父親角色 ✅	僅聚焦母女

平手，兩者有不同取捨：SD 提供了連貫的單一長鏡頭，執行乾淨；HH 使用傳統剪輯，細節更精細但有明顯的 AI 平滑偽影。

場景 4：脫口秀雙人對話 —— 多模態效能 ⚡

這是六個場景中指令密度最高的。提示詞中有三個明確的節奏標記（前傾 / 假裝思考的停頓 / 共同大笑的爆點），每個都是離散的通過/失敗檢核點。

提示詞指定了「今夜秀 (Tonight Show)」風格的三輪交流，最後以兩人同時大笑結束。

維度	SD	HH
節奏標記：「狗前傾」	✅ 執行	❌ 全程靜止
節奏標記：「貓假裝思考停頓」	✅ 呈現特寫思考表情	❌ 未捕捉到
結尾共同大笑鏡頭	✅ 切到貓的大笑（爆點節奏）	⚠️ 切到了狗（角色錯誤）
文本忠實度	✅	✅ (HH 唯一達標的維度)
聲音匹配	✅ 準確	⚠️ 準確但機械感重
額外創意	✅ 主動加入脫口秀觀眾笑聲 — 超出提示詞的流派適配填充	—
聲音一致性	✅	❌ 貓的最後大笑變成了男聲

SD 徹底獲勝。最有趣的細節：SD 主動加入了提示詞中沒有的觀眾笑聲。脫口秀有其預期格式——在反應點加入笑聲軌跡——模型填補了這部分。這不僅僅是指令遵循，這是理解了這類內容「應該是什麼樣子」。

HH 保持了文本忠實度，但在音訊上遭遇嚴重失敗：貓的大笑在中途變成了男聲。長距離音訊一致性是其硬傷。

場景 5：浪漫場景 → 預謀反轉 —— 影片編輯 ⚡⚡

原始影片：外國男子用英文說：「今晚月色真美，可惜不能與你共享」，中國女子用普通話回應：「只要與你在一起，處處皆是美景」。天台夜晚，氛圍溫馨。

編輯提示詞：完整的敘事反轉。男子表情從溫暖轉為冰冷。他毫不猶豫地將女子推下天台。墜落中，她用普通話尖叫：「你從一開始就在騙我！」——不是恐懼，而是難以置信。他站在邊緣冷笑並低聲說道：「這就是你欠我家族的。」

四層測試：表情反轉 + 關鍵物理動作 + 雙語對話替換 + 視覺基調轉換。

4 層測試	SD	HH
男子表情反轉	✅ 眼神轉變 + 冷笑	❌ 表情讀起來像是悲傷
女子反應：難以置信而非恐懼	✅ 墜落中的憤怒與尖叫	❌ 教科書式的恐懼表情（與提示詞相反）
推下天台動作	✅ 實際發生 (空中墜落鏡頭 + 城市傾斜)	❌ 沒有推——女子依然站著
視覺基調轉換	✅	⚠️ 保持原樣
雙語對話生成	✅	✅ (HH 唯一達標的維度)
聲音寫實感	✅	❌ 厚重的 AI 感

SD 執行了整個場景，HH 完全失敗。

HH 將整個提示詞解析為「添加一些對話和情緒衝突」。敘事結構沒有發生變化。它能處理表層指令（說什麼），但無法處理敘事層面的指令（故事如何發展）。

場景 6：多模態參考融合 —— 電梯驚悚片 ⚡⚡⚡

輸入：3 張參考圖（男主外貌 / 電梯內部 / 走廊）+ 1 段參考影片（鏡頭運動 + 面部表情）。任務：融合這 4 個輸入，並製作一段恐懼 → 希區考克變焦 (Hitchcock zoom) → 走出電梯 → 機械臂追蹤運鏡。

兩個模型使用不同的端點——HH 使用 video-edit，SD 使用 reference-to-video——但兩者皆接受複合式圖文輸入。端點名稱不對稱，但能力等效。這正好證明了 One API 抽象層的作用。

評估項目	SD	HH
鏡頭運動執行	✅ 紮實	✅ 紮實
場景切換 (電梯 / 走廊)	✅	✅
男主身份匹配 img1	✅ 執行完美	❌ 不匹配——完全不同的臉
角色全程一致性	✅ 穩定	⚠️ 下半場出現漂移

SD 乾淨利落勝出。

HH 複製了參考圖中的姿勢（掐脖動作），但生成了一張完全不同的臉。它複製了手勢，而非身份。這在結構上與場景 5 的失敗相同：表層模仿有效，但語義深度不足。

Happy Horse vs Seedance：指令理解差距

一個一致的規律出現了：

指令層級	HH	SD
表層指令（對話、姿勢、參數、場景元素）	✅ 執行	✅ 執行
語義指令（敘事反轉、角色身份、時序）	❌ 失敗	✅ 執行
流派慣例填充（主動添加脫口秀笑聲等）	❌	✅ 主動添加

這並非「誰更好」的問題，而是它們在不同的指令理解層次上運作。

給 HH 一段對話、一個姿勢或一個場景元素——它能很好地處理細節，且視覺紋理通常更勝一籌。但要求它進行敘事反轉、保持特定人物在多個鏡頭下的身份一致，或跟隨一連串節奏 cues——它往往停留在「添加表層元素」，而未觸及「執行你真正想要的意圖」。

SD 則相反。在表層質感上精確度略遜，但在敘事整體感、身份忠誠度和時序上更可靠，且會主動填補提示詞未指定的流派慣例元素。

這也解釋了 Elo 結果。Artificial Analysis 的盲測對「哪一個看起來更像電影」極為敏感。HH 的視覺天花板（皮膚紋理、調色、單幀美學）是真實的，這在對抗測試中顯而易見。但 Elo 無法揭露語義理解的斷層。兩者——排行榜第一的實力與它的失敗模式——同時為真。

Happy Horse vs Seedance：哪個模型適合你的用例

場景類型	選擇	原因
單一最佳畫面 (視覺品質天花板)	HH	皮膚紋理 / 電影級調色 / 單幀美學
本地對話生成 / 翻譯 / 替換	HH	可靠的文本忠實度
7 語言口型同步內容	HH	目前唯一涵蓋多種語言的公開模型
氛圍片 / 情緒短片 / 單鏡頭片段	HH	更細膩的視覺細節 + 平滑的情緒轉折
多鏡頭腳本影片 (飛車 / 脫口秀 / 動作)	SD	可靠的鏡頭切換執行
敘事反轉 / 影片編輯	SD	語義級的指令理解能力
跨場景角色一致性 + 身份忠誠度	SD	參考圖輸入會正確換人，而不僅是姿勢
高指令密度 / 提示詞字面執行	SD	預設的指令對齊度高

One API：一行字串即可切換模型

我們在執行此評估時遇到的第一個工程難題：HH 和 SD 使用不同的 SDK、不同的端點、不同的驗證方式。僅僅適配客戶端程式碼就需要三種不同的實作方式。

這就是為什麼 Atlas Cloud 將 Seedance 2.0 和 Happy Horse 1.0 統一放在同一個模型池和 One API 下。一個金鑰、一個 SDK、一行模型字串。

場景 6 的細節值得再次強調——HH 的端點名為 video-edit，SD 為 reference-to-video。名稱雖異，能力等效（皆接受複合式圖文輸入）。One API 抹平了這些差異，開發者只需一套實作。

本次評估中的 12 支影片皆透過 Atlas Cloud One API 生成——相同的金鑰、相同的 SDK、相同的提示詞，僅更改了一個參數欄位。進行跨模型對比從未如此低摩擦。

使用 API

步驟 1：從控制台取得您的 API 金鑰。

步驟 2：查看 API 文件了解端點詳細資訊、請求參數與驗證方式。

關於評測誠實性的說明

在撰寫本文前，我們曾猶豫：發布諸如「HH 將推人下樓場景渲染成了對話」或「HH 生成了錯誤的人臉」這類結果——這樣公平嗎？

一份評估白皮書的價值恰恰在於其誠實。Happy Horse 的確強大，Elo 的雙第一並非雜訊。它的失敗場景能精確告訴你何時該選擇另一個選項——這才是對比基準測試的全部意義所在。

接下來：

完整版白皮書 v1.0 —— 涵蓋五大維度 × 三層評估方法論，包含評分卡範本、執行 SOP 及完整學術參考 (VBench 2.0, Artificial Analysis, AIGCBench, LOVE 等)

完整評分矩陣 —— 5 維度 × 6 場景 × 2 模型，共 60 個獨立評分單元

評估工具鏈 —— 包含 MLLM-as-Judge 實作的 L1 自動化腳本

更多模型 —— Veo、Wan、Kling 等將加入對比矩陣

如果您正在進行影片模型選型，請在評論區留下您的用例。白皮書 v1.0 將包含讀者最關心的對比維度。

所有評估樣本、原始提示詞、提取的幀畫面及評分細節將與白皮書一併發布。完整評估均透過 Atlas Cloud One API 在同一介面上完成。

返回列表