四月初,一款名為「HappyHorse-1.0」的模型突然問世。它在 Artificial Analysis 的影片模型排行榜上橫掃四項指標,以顯著優勢大幅領先字節跳動的 Seedance 2.0 與 Kling。
當時沒有新聞稿、沒有部落格文章,公司名稱也被刻意隱藏,模型頁面上僅顯示「即將推出」。
4 月 10 日,阿里巴巴 ATH 部門正式確認了該項目。HappyHorse 是 ATH 創新部門的一個內部研發項目,目前處於封閉測試階段,API 將於 4 月 30 日發布。
此外,HappyHorse-1.0 將會全面開源。它號稱是首個能夠原生同步生成音訊與影片的開源影片模型。
這種「低調發布」後緊接「重磅官宣」的模式,正逐漸成為中國 AI 企業的趨勢。小米之前使用代號「Hunter Alpha」,智譜 AI 則為其新款 GLM 模型使用了「Pony Alpha」。
本文將為您梳理關於 HappyHorse 的已知事實及其背後的意義。
HappyHorse 在排行榜上的表現
Artificial Analysis 營運四個排行榜:無音訊文字生成影片、無音訊圖片生成影片、有音訊文字生成影片,以及有音訊圖片生成影片。
截至 4 月 13 日中午的數據如下:
- 文字生成影片(無音訊):1384 Elo 分,領先 Seedance 2.0 達 111 分。
- 圖片生成影片(無音訊):1413 Elo 分,創下該平台記錄以來的最高分。


在 Elo 分數中,60 分以上的差距代表了明顯的偏好。111 分的差距意味著在盲測中,用戶壓倒性地選擇了 HappyHorse。
然而,當加入音訊後,情況發生了變化。兩者的差距縮小至僅 1–2 分,基本上旗鼓相當。這表明 HappyHorse 在影音同步與音質方面並沒有壓倒性優勢,與 Seedance 處於同一水平。
HappyHorse 與 Seedance 2.0 的對比
| 項目 | HappyHorse-1.0 | Seedance 2.0 |
|---|---|---|
| 模型性質 | 開源 | 封閉商業系統 |
| 架構 | 統一 Transformer | 雙向擴散 Transformer (DB-DiT) |
| 多模態能力 | 同步音/影生成 (One-pass) | 多模態輸入 (文字、圖片、影片、音訊) |
| 影片生成模式 | 一次性生成 (One-pass) | 流水線式生成 |
| 影片生成長度 | 約 5–10 秒 (1080p) | 最長約 60 秒 (2K) |
兩者代表了不同的發展哲學。
HappyHorse-1.0:採用開源模式、統一 Transformer 架構,支援音影同步一次性生成,並內建 7 種語言的口型同步技術。擁有 150 億參數,在 H100 環境下生成 5 秒 1080p 影片約需 38 秒。
Seedance 2.0:採取封閉商業系統,使用雙向擴散 Transformer (DB-DiT),支援多模態輸入,可生成長達 60 秒的 2K 影片,並支援 8 種以上語言的口型同步。
在純視覺效果方面,盲測顯示用戶明顯更偏好 HappyHorse。在影音同步與音質方面,兩者水平相當。在易用性方面,Seedance 已透過火山引擎提供成熟的 API。HappyHorse 的 API 預計於 4 月 30 日發布,封閉測試階段的效能仍有待驗證。
由 Artificial Analysis 提供的 HappyHorse-1.0 與 Dreamina Seedance 2.0 (有音訊文字生成影片) 的範例比較:
提示詞:皮克斯風格短片,講述一個膽小的小交通錐夢想成為大型比賽終點線的標誌。其他錐筒嘲笑它的抱負。一名建築工人不小心將它放在了馬拉松終點線。當賽跑者經過時,交通錐臉上的表情從恐懼變為喜悅。空中飄落下五彩紙屑。其他錐筒在電視上看到這一幕,深受啟發。音訊:從交通噪音轉向人群歡呼聲,再轉為激昂的音樂。
關於架構
HappyHorse 採用了不尋常的技術路徑。
它擁有 150 億參數,並使用 40 層統一自注意力 Transformer。文字、影片與音訊的 Token 都被輸入到同一個序列中進行聯合建模。這與常見的「先生成影片再添加音訊」的流水線截然不同,聲音與畫面從一開始就存在於同一個語義空間中。
該模型採用 DMD-2 蒸餾技術,並透過 MagiCompiler 進行全圖優化。在單張 H100 GPU 上,生成 5 秒 1080p 影片約需 38 秒。
它支援 7 種語言的原生口型同步:英語、普通話、粵語、日語、韓語、德語和法語。其詞錯誤率 (WER) 是目前開源模型中最低的之一。
Artificial Analysis 盲測參與者表示,HappyHorse 在角色刻畫方面尤為突出,皮膚紋理與動作流暢度表現優異。由於測試樣本中有超過 60% 為人像或談話類片段,這也是該模型能登頂的原因之一。
不過,也有批評指出,流出的影片中出現了不自然的波紋、快速移動物體的條紋偽影,以及大螢幕上的畫質下降問題。
開源與訪問計畫
4 月 9 日,HappyHorse-1.0 宣布將全面開源。GitHub 儲存庫已上線,權重完全開放,且沒有商業限制。
官網提供文字生成影片與圖片生成影片的線上 Demo。據阿里巴巴 ATH 表示,API 計劃於 4 月 30 日向公眾開放。
提醒您:據官方團隊指出,目前網路上流傳的絕大多數「官網」均為假冒,真正的官網尚未完全運作。
市場影響與意義
HappyHorse 的出現時間點是在 OpenAI 暫停 Sora 開發後的兩週。原本外界認為 AI 影片領域可能陷入停滯,但中國模型接過了接力棒。
市場反應迅速。在消息確認後,阿里巴巴股價飆升超過 7%,並持續上漲。截至 4 月 10 日收盤,漲幅超過 3%,報收 126.6 港元。
從戰略層面來看,HappyHorse 表明 ATH 擁有第二支能夠打造頂尖多模態模型的團隊。這支團隊具備商業背景,了解用戶需求與商業場景。這形成了一種「雙引擎」結構:通義實驗室(專注基礎研究)與創新單元(根據真實業務挑戰構建應用)。
回顧時間軸:林俊揚於三月初辭職,ATH 於 3 月 16 日成立。4 月 2 日,Qwen 3.6 Plus 登上 OpenRouter 全球調用量榜首;4 月 8 日,HappyHorse 登上 Artificial Analysis 榜首。僅僅一個月內,阿里巴巴在語言與影片模型領域均交出了強勁的成績單。
團隊背景:張迪與阿里巴巴 ATH
HappyHorse 背後的核心人物是重量級專家張迪。
他原為快手副總裁,曾擔任 Kling AI 的技術負責人,被稱為「Kling 之父」。他於 2025 年 11 月離開快手,接任阿里巴巴「未來生活實驗室」負責人,直接向首席科學家鄭博匯報。
五個月後,他的團隊打造出 HappyHorse-1.0,並擊敗了 Kling 與字節跳動的 Seedance 2.0。
該團隊最初隸屬於淘寶未來生活實驗室,但在阿里巴巴最新重組後,被轉移至 ATH 業務群的 AI 創新單元。
ATH 代表「Alibaba Token Hub」,由 CEO 吳泳銘於 3 月 16 日創立並親自領導。其使命是「Token 的創造、提供與應用」,整合了通義實驗室、MaaS 業務線、千問部門、悟空部門及 AI 創新單元。
常見問題 (FAQ)
在本地運行 HappyHorse 需要什麼樣的 GPU?
該模型擁有 150 億參數,規模並不小。在單張 H100 環境下,生成 5 秒 1080p 影片約需 38 秒。消費級顯示卡如 RTX 4090 (24GB 顯存) 將需要進行量化或分割載入。FP16 推理的顯存需求很可能會超過 24GB。已有用戶回報 4-bit 量化測試成功,但畫質有所下降。若要進行嚴肅應用,建議使用具備 40GB 以上顯存的雲端 GPU。此外,等待 4 月 30 日的 API 發布也是明智之舉。
我可以用自己的數據微調 HappyHorse 嗎?
可以,根據授權條款,沒有商業使用限制。但微調 150 億參數的影片模型並不容易。它需要 H100 或 A100 叢集、龐大的影音對應數據集以及顯著的工程資源。GitHub 儲存庫目前不包含微調指令碼,僅支援推理。團隊暗示未來會釋出訓練代碼,但尚未設定具體日期。
有 Discord 或微信交流群嗎?
有,但均為非官方社群。多個 AI 社群已在 Discord 和微信上發起討論串。官方團隊尚未開設正式的社群管道。若您加入群組,請小心偽造連結與釣魚詐騙。建議直接透過 GitHub 儲存庫與阿里巴巴 ATH 的官方公告獲取最新資訊。
這個模型在 Hugging Face 上架了嗎?
目前尚未上架。團隊表示正著手發布至 Hugging Face,但尚未完成。目前權重僅存於 GitHub。社群成員已開始上傳轉換後的 Checkpoints 到 Hugging Face,但這些並非官方版本。為安全起見,請在官方頁面出現前使用 GitHub 原始碼。






