在 Artificial Analysis 排行榜上排名第一:Happy Horse 1.0 真能擊敗 Seedance 2.0 嗎?

我們執行了 6 個場景、12 支影片,並使用同一組提示詞 (prompt),只為找出答案。


4 月 10 日,阿里巴巴 ATH 團隊發布了 Happy Horse 1.0。僅僅幾天後,它便在 Artificial Analysis 的影片模型排行榜上奪得頭籌——T2V Elo 1389 分、I2V Elo 1416 分,在文生影片 (text-to-video) 領域領先字節跳動的 Seedance 2.0 約 115 分。

如果您從事 AI 影片製作、產品選型或產業研究,最直接的問題顯而易見:這個排名在真實工作負載下是否依然成立?

我們花了一週時間進行驗證。相同的提示詞、相同的參考素材、相同的評估框架——我們讓 Happy Horse 1.0Seedance 2.0 在 6 種場景、共 12 支影片中進行對比。本文將涵蓋三項重點:Happy Horse 究竟憑什麼登頂、我們使用的評估方法論(完整白皮書即將發布),以及這 6 個場景揭示了哪些排行榜未體現的差異。

看完本文,您將清楚何時該選擇 HH,何時該選擇 SD,以及為什麼透過 Atlas Cloud 的 One API(一個金鑰、一個 SDK、一行模型字串替換)進行這類對比,是目前最務實的模型選型方式。


為什麼 Happy Horse 1.0 能在 Elo 排行榜領先

在了解測試結果前,有幾個事實值得注意。

 Happy Horse 1.0Seedance 2.0
團隊阿里巴巴 ATH字節跳動
發布時間2026/04/10 發表,4/27 於 Atlas Cloud 上線已廣泛提供
架構15B 統一 Transformer(聯合音訊與影片生成,無交叉注意力機制)混合專家模型 (MoE) 架構
原生音訊
多語言支援 7 種語言口型同步(普通話 / 粵語 / 英語 / 日語 / 韓語 / 德語 / 法語)支援 6 種語言提示詞輸入(中文 / 英文 + 日語 / 印尼語 / 西班牙語 / 葡萄牙語)
生成速度在單張 H100 上,1080p 解析度下約 38 秒/片段
Artificial Analysis EloT2V 1389 (排名第一) / I2V 1416 (排名第一)T2V ~1274

它之所以能真正獲得最高排名,有三大原因:

統一 Transformer 架構。 音訊與影片在同一個序列中生成,而非後期拼接而成。口型同步、音訊時序和剪輯點被同時建模。這一點至關重要,因為「先生成影片、後添加音訊」的管線方式往往會導致視覺與音訊錯位,而 HH 從架構層面避免了此問題。

原生 7 語言口型同步。 支援普通話、粵語、日語、韓語、德語、法語和英語。這是目前公開影片模型中最廣泛的多語言口型同步覆蓋,對於全球化內容生產具有實際價值。

視覺天花板。 觀察我們測試中的單幀圖像,HH 的皮膚紋理、單幀美學以及電影級調色確實領先於 SD。Artificial Analysis 採用人類盲測,評估人員對「哪一個看起來更像電影」極為敏感,這就是 Elo 分數差距的主要原因。

但 Elo 只是單一的總分,它只告訴你誰贏的對抗場次較多,卻無法說明在何處獲勝或失敗。總分掩蓋了底層的真實結構,這正是我們建立一套嚴謹評估框架的原因。


AI 影片模型評估框架

我們編纂了一份完整的《AI 影片模型評估白皮書》,以下是核心方法論。

現有基準測試的優勢與侷限

系統優勢侷限
VBench / VBench-2.0 (學術基準)顆粒度細(16 + 18 個子維度),涵蓋物理與常識設定複雜,需 GPU 執行,不直觀
Artificial Analysis Elo (盲測排名)反映人類主觀偏好,模型間可比黑箱作業,無法定位弱點,僅為單一總分
FVD / CLIP Score (定量指標)客觀、可程式化與人類感知的相關性有限
展示樣片 (業界慣例)視覺衝擊力強無法重現,有嚴重的選擇性偏誤

2026 年 3 月發表的 VBench v2.0 論文曾直言:即使目前最強的模型,在物理合理性上的得分也僅在 50% 左右。黃金標準仍在演進,單一的排行榜分數並非模型選型的可靠依據。

五大評估維度

維度評估問題關鍵子項目
提示詞-影片對齊輸出內容是否準確遵循指令?主體 / 動作 / 場景 / 風格 / 數量與空間關係
視覺品質每一幀是否優異?解析度 / 美學 / 渲染 / 細節
動作與物理動作是否符合物理規律?自然度 / 物理現象 / 動態範圍 / 攝影機運動精度
時間一致性影片幀與鏡頭是否隨時間連貫?主體身份 / 場景 / 閃爍感 / 多鏡頭一致性
多模態能力模型在視覺之外能做什麼?音訊 / 視聽同步 / 口型同步 / 多語言 / 風格控制

第五維度(多模態能力:音訊/口型同步/多語言/風格控制)是 2026 年模型競爭的關鍵差異化因素,也是 HH 手中的王牌。

三層評估方法

層級用途工具
L1 客觀指標大規模篩選、CI/CDFVD / CLIP-Score / LAION 美學 / DINO / 光流 / SyncNet / MLLM-as-Judge
L2 標準化任務集教學評估、產品對比、白皮書發布VBench 提示詞集 / Atlas Cloud Prompt Hub / 特定維度提示詞
L3 主觀盲測最終決策、對外發布雙盲 Elo + 五維評分卡

2025 至 2026 年的多篇論文證實,MLLM-as-Judge(使用 Claude 或 GPT-4V 作為評審)與人類評分的相關性顯著高於純定量指標。這正是我們 L1 層級的基石。

提示詞選擇分級

對比基準中最具爭議的不是指標,而是提示詞。我們的最低門檻與分級結構:

分級定義使用時機
A (預設)模型中立、特定維度提示詞——同一提示詞在兩個模型上執行主要評估標準
B (避免)相同主題,但每個模型使用各自的 Hub 提示詞不用於評分——僅限演示集

為什麼單一分數會誤導

2026 年的影片模型不僅僅是「文生影片」。一個模型可能同時支援 T2V、I2V、參考生影片 (R2V)、影片編輯、原生音訊和多語言口型同步,且在這些模式下的表現差異巨大。Elo 將這些全部濃縮為一個數字。我們的框架為每次評估貼上模態標籤,並輸出一個能力矩陣,而非簡單的排名。

完整的白皮書將包含評分卡範本、執行標準作業程序 (SOP)、工具鏈建議以及完整的學術參考(VBench、Artificial Analysis、AIGCBench、LOVE 等)。以下測試結果均依此框架產生。


6 個場景:排行榜第一名在哪裡失利

我們從 Atlas Cloud 的 Prompt Hub 中挑選了 6 種場景,涵蓋所有五大評估維度並平衡了模態覆蓋。所有執行參數統一:1080p / 16:9 / 種子碼 42 / 時長視場景複雜度而定 (5–15 秒)。

場景 1:洞穴探險 —— 視覺品質 + 環境音訊

提示詞:手電筒照亮石灰岩洞穴,照亮潮濕的岩壁與水晶反射,光束穿過淺水區產生焦散光影,鐘乳石投下隨光源移動的長影。環境音訊:滴水聲、濕岩石上的腳步聲、封閉空間的呼吸聲。

維度SDHH
焦散光物理現象
濕岩石高光 / 礦物質紋理傾向過度精緻更寫實 ✅(鐘乳石解剖細節勝出)
環境音訊滴水/腳步/呼吸 — 三層分明 ✅能聽出「AI 感」,各層混在一起

HH 在視覺上獲勝,SD 在音訊上獲勝。這個場景直接映射了 HH 的排行榜優勢——其視覺細節確實達到了 SOTA(業界頂尖)水準。


場景 2:好萊塢飛車追逐 —— 指令密度

提示詞在 15 秒內塞入了 7 種不同的鏡頭類型:空拍廣角 → 地面低角度追蹤 → 引擎蓋視角 → 荷蘭式斜角中景 → ECU 後窗特寫 → 廣角側拍追蹤 → 空拍拉遠。

維度SDHH
7 種鏡頭執行5/7 鏡頭準確 ✅僅 2–3 個鏡頭
煙霧 / 碎片物理現象稠密且寫實 ✅傾向輕薄
三層音訊 (引擎/輪胎/路面)分明 ✅混合在一起
語義偏差將「空拍鏡頭 (aerial drone shot)」渲染成了真的有一台無人機飛進畫面中

SD 明顯獲勝。HH 的「無人機錯誤」是語義對齊失敗的典型範例——它認識「無人機 (drone)」這個詞,但無法分辨它指的是鏡頭運動還是場景中的實體物件。


場景 3:跨場景角色一致性

參考圖:一位紅長髮、平瀏海、穿白襯衫黑領帶的女性。任務:從辦公室走到家,過程中保持外貌一致,並自然呈現情緒轉折。

此處需特別說明:我們使用 R2V(參考圖生成影片),而非 I2V。I2V 預設將參考圖鎖定為第一幀,強制影片從該圖開始,無法測試跨場景的一致性。這一區別比看起來更重要。

維度SDHH
五官 / 髮型一致性
服裝連貫性從辦公室到家的單一連續長鏡頭(藝術感但突兀)清晰的換裝,脫下外套但保留領帶 ✅
情緒轉折幀兩拍式的跳剪閉眼 + 微笑,作為「離開工作模式」的轉折 ✅
視覺質感偏向乾淨精緻有細微雀斑,但有明顯的「AI 塑料」光澤
敘事完整性包含 3 個場景 + 父親角色 ✅僅聚焦母女

平手,兩者有不同取捨:SD 提供了連貫的單一長鏡頭,執行乾淨;HH 使用傳統剪輯,細節更精細但有明顯的 AI 平滑偽影。


場景 4:脫口秀雙人對話 —— 多模態效能 ⚡

這是六個場景中指令密度最高的。提示詞中有三個明確的節奏標記(前傾 / 假裝思考的停頓 / 共同大笑的爆點),每個都是離散的通過/失敗檢核點。

提示詞指定了「今夜秀 (Tonight Show)」風格的三輪交流,最後以兩人同時大笑結束。

維度SDHH
節奏標記:「狗前傾」✅ 執行❌ 全程靜止
節奏標記:「貓假裝思考停頓」✅ 呈現特寫思考表情❌ 未捕捉到
結尾共同大笑鏡頭✅ 切到貓的大笑(爆點節奏)⚠️ 切到了狗(角色錯誤)
文本忠實度✅ (HH 唯一達標的維度)
聲音匹配✅ 準確⚠️ 準確但機械感重
額外創意✅ 主動加入脫口秀觀眾笑聲 — 超出提示詞的流派適配填充
聲音一致性❌ 貓的最後大笑變成了男聲

SD 徹底獲勝。最有趣的細節:SD 主動加入了提示詞中沒有的觀眾笑聲。脫口秀有其預期格式——在反應點加入笑聲軌跡——模型填補了這部分。這不僅僅是指令遵循,這是理解了這類內容「應該是什麼樣子」。

HH 保持了文本忠實度,但在音訊上遭遇嚴重失敗:貓的大笑在中途變成了男聲。長距離音訊一致性是其硬傷。


場景 5:浪漫場景 → 預謀反轉 —— 影片編輯 ⚡⚡

原始影片:外國男子用英文說:「今晚月色真美,可惜不能與你共享」,中國女子用普通話回應:「只要與你在一起,處處皆是美景」。天台夜晚,氛圍溫馨。

編輯提示詞:完整的敘事反轉。男子表情從溫暖轉為冰冷。他毫不猶豫地將女子推下天台。墜落中,她用普通話尖叫:「你從一開始就在騙我!」——不是恐懼,而是難以置信。他站在邊緣冷笑並低聲說道:「這就是你欠我家族的。」

四層測試:表情反轉 + 關鍵物理動作 + 雙語對話替換 + 視覺基調轉換。

4 層測試SDHH
男子表情反轉✅ 眼神轉變 + 冷笑❌ 表情讀起來像是悲傷
女子反應:難以置信而非恐懼✅ 墜落中的憤怒與尖叫❌ 教科書式的恐懼表情(與提示詞相反)
推下天台動作✅ 實際發生 (空中墜落鏡頭 + 城市傾斜)❌ 沒有推——女子依然站著
視覺基調轉換⚠️ 保持原樣
雙語對話生成✅ (HH 唯一達標的維度)
聲音寫實感❌ 厚重的 AI 感

SD 執行了整個場景,HH 完全失敗。

HH 將整個提示詞解析為「添加一些對話和情緒衝突」。敘事結構沒有發生變化。它能處理表層指令(說什麼),但無法處理敘事層面的指令(故事如何發展)。


場景 6:多模態參考融合 —— 電梯驚悚片 ⚡⚡⚡

輸入:3 張參考圖(男主外貌 / 電梯內部 / 走廊)+ 1 段參考影片(鏡頭運動 + 面部表情)。任務:融合這 4 個輸入,並製作一段恐懼 → 希區考克變焦 (Hitchcock zoom) → 走出電梯 → 機械臂追蹤運鏡。

兩個模型使用不同的端點——HH 使用 video-edit,SD 使用 reference-to-video——但兩者皆接受複合式圖文輸入。端點名稱不對稱,但能力等效。這正好證明了 One API 抽象層的作用。

評估項目SDHH
鏡頭運動執行✅ 紮實✅ 紮實
場景切換 (電梯 / 走廊)
男主身份匹配 img1✅ 執行完美❌ 不匹配——完全不同的臉
角色全程一致性✅ 穩定⚠️ 下半場出現漂移

SD 乾淨利落勝出。

HH 複製了參考圖中的姿勢(掐脖動作),但生成了一張完全不同的臉。它複製了手勢,而非身份。這在結構上與場景 5 的失敗相同:表層模仿有效,但語義深度不足。


Happy Horse vs Seedance:指令理解差距

一個一致的規律出現了:

指令層級HHSD
表層指令(對話、姿勢、參數、場景元素)✅ 執行✅ 執行
語義指令(敘事反轉、角色身份、時序)❌ 失敗✅ 執行
流派慣例填充(主動添加脫口秀笑聲等)✅ 主動添加

這並非「誰更好」的問題,而是它們在不同的指令理解層次上運作。

給 HH 一段對話、一個姿勢或一個場景元素——它能很好地處理細節,且視覺紋理通常更勝一籌。但要求它進行敘事反轉、保持特定人物在多個鏡頭下的身份一致,或跟隨一連串節奏 cues——它往往停留在「添加表層元素」,而未觸及「執行你真正想要的意圖」。

SD 則相反。在表層質感上精確度略遜,但在敘事整體感、身份忠誠度和時序上更可靠,且會主動填補提示詞未指定的流派慣例元素。

這也解釋了 Elo 結果。Artificial Analysis 的盲測對「哪一個看起來更像電影」極為敏感。HH 的視覺天花板(皮膚紋理、調色、單幀美學)是真實的,這在對抗測試中顯而易見。但 Elo 無法揭露語義理解的斷層。兩者——排行榜第一的實力與它的失敗模式——同時為真。


Happy Horse vs Seedance:哪個模型適合你的用例

場景類型選擇原因
單一最佳畫面 (視覺品質天花板)HH皮膚紋理 / 電影級調色 / 單幀美學
本地對話生成 / 翻譯 / 替換HH可靠的文本忠實度
7 語言口型同步內容HH目前唯一涵蓋多種語言的公開模型
氛圍片 / 情緒短片 / 單鏡頭片段HH更細膩的視覺細節 + 平滑的情緒轉折
多鏡頭腳本影片 (飛車 / 脫口秀 / 動作)SD可靠的鏡頭切換執行
敘事反轉 / 影片編輯SD語義級的指令理解能力
跨場景角色一致性 + 身份忠誠度SD參考圖輸入會正確換人,而不僅是姿勢
高指令密度 / 提示詞字面執行SD預設的指令對齊度高

One API:一行字串即可切換模型

我們在執行此評估時遇到的第一個工程難題:HH 和 SD 使用不同的 SDK、不同的端點、不同的驗證方式。僅僅適配客戶端程式碼就需要三種不同的實作方式。

這就是為什麼 Atlas Cloud 將 Seedance 2.0 和 Happy Horse 1.0 統一放在同一個模型池和 One API 下。一個金鑰、一個 SDK、一行模型字串。

場景 6 的細節值得再次強調——HH 的端點名為 video-edit,SD 為 reference-to-video。名稱雖異,能力等效(皆接受複合式圖文輸入)。One API 抹平了這些差異,開發者只需一套實作。

本次評估中的 12 支影片皆透過 Atlas Cloud One API 生成——相同的金鑰、相同的 SDK、相同的提示詞,僅更改了一個參數欄位。進行跨模型對比從未如此低摩擦。

使用 API

步驟 1:從 控制台 取得您的 API 金鑰。

Guidance1.jpgGuidance2.jpg

步驟 2:查看 API 文件 了解端點詳細資訊、請求參數與驗證方式。


關於評測誠實性的說明

在撰寫本文前,我們曾猶豫:發布諸如「HH 將推人下樓場景渲染成了對話」或「HH 生成了錯誤的人臉」這類結果——這樣公平嗎?

一份評估白皮書的價值恰恰在於其誠實。Happy Horse 的確強大,Elo 的雙第一並非雜訊。它的失敗場景能精確告訴你何時該選擇另一個選項——這才是對比基準測試的全部意義所在。

接下來:

完整版白皮書 v1.0 —— 涵蓋五大維度 × 三層評估方法論,包含評分卡範本、執行 SOP 及完整學術參考 (VBench 2.0, Artificial Analysis, AIGCBench, LOVE 等)

完整評分矩陣 —— 5 維度 × 6 場景 × 2 模型,共 60 個獨立評分單元

評估工具鏈 —— 包含 MLLM-as-Judge 實作的 L1 自動化腳本

更多模型 —— Veo、Wan、Kling 等將加入對比矩陣

如果您正在進行影片模型選型,請在評論區留下您的用例。白皮書 v1.0 將包含讀者最關心的對比維度。

所有評估樣本、原始提示詞、提取的幀畫面及評分細節將與白皮書一併發布。完整評估均透過 Atlas Cloud One API 在同一介面上完成。

相關模型

300+ 模型,即刻開啟,

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.