HappyHorse-1.0 奪冠，API 即將推出

四月初，一款名為「HappyHorse-1.0」的模型突然問世。它在 Artificial Analysis 的影片模型排行榜上橫掃四項指標，以顯著優勢大幅領先字節跳動的 Seedance 2.0 與 Kling。

當時沒有新聞稿、沒有部落格文章，公司名稱也被刻意隱藏，模型頁面上僅顯示「即將推出」。

4 月 10 日，阿里巴巴 ATH 部門正式確認了該項目。HappyHorse 是 ATH 創新部門的一個內部研發項目，目前處於封閉測試階段，API 將於 4 月 30 日發布。

此外，HappyHorse-1.0 將會全面開源。它號稱是首個能夠原生同步生成音訊與影片的開源影片模型。

這種「低調發布」後緊接「重磅官宣」的模式，正逐漸成為中國 AI 企業的趨勢。小米之前使用代號「Hunter Alpha」，智譜 AI 則為其新款 GLM 模型使用了「Pony Alpha」。

本文將為您梳理關於 HappyHorse 的已知事實及其背後的意義。

HappyHorse 在排行榜上的表現

Artificial Analysis 營運四個排行榜：無音訊文字生成影片、無音訊圖片生成影片、有音訊文字生成影片，以及有音訊圖片生成影片。

截至 4 月 13 日中午的數據如下：

文字生成影片（無音訊）：1384 Elo 分，領先 Seedance 2.0 達 111 分。
圖片生成影片（無音訊）：1413 Elo 分，創下該平台記錄以來的最高分。

下載 (1).png

下載.png

在 Elo 分數中，60 分以上的差距代表了明顯的偏好。111 分的差距意味著在盲測中，用戶壓倒性地選擇了 HappyHorse。

然而，當加入音訊後，情況發生了變化。兩者的差距縮小至僅 1–2 分，基本上旗鼓相當。這表明 HappyHorse 在影音同步與音質方面並沒有壓倒性優勢，與 Seedance 處於同一水平。

HappyHorse 與 Seedance 2.0 的對比

項目	HappyHorse-1.0	Seedance 2.0
模型性質	開源	封閉商業系統
架構	統一 Transformer	雙向擴散 Transformer (DB-DiT)
多模態能力	同步音/影生成 (One-pass)	多模態輸入 (文字、圖片、影片、音訊)
影片生成模式	一次性生成 (One-pass)	流水線式生成
影片生成長度	約 5–10 秒 (1080p)	最長約 60 秒 (2K)

兩者代表了不同的發展哲學。

HappyHorse-1.0：採用開源模式、統一 Transformer 架構，支援音影同步一次性生成，並內建 7 種語言的口型同步技術。擁有 150 億參數，在 H100 環境下生成 5 秒 1080p 影片約需 38 秒。

Seedance 2.0：採取封閉商業系統，使用雙向擴散 Transformer (DB-DiT)，支援多模態輸入，可生成長達 60 秒的 2K 影片，並支援 8 種以上語言的口型同步。

在純視覺效果方面，盲測顯示用戶明顯更偏好 HappyHorse。在影音同步與音質方面，兩者水平相當。在易用性方面，Seedance 已透過火山引擎提供成熟的 API。HappyHorse 的 API 預計於 4 月 30 日發布，封閉測試階段的效能仍有待驗證。

由 Artificial Analysis 提供的 HappyHorse-1.0 與 Dreamina Seedance 2.0 (有音訊文字生成影片) 的範例比較：

提示詞：皮克斯風格短片，講述一個膽小的小交通錐夢想成為大型比賽終點線的標誌。其他錐筒嘲笑它的抱負。一名建築工人不小心將它放在了馬拉松終點線。當賽跑者經過時，交通錐臉上的表情從恐懼變為喜悅。空中飄落下五彩紙屑。其他錐筒在電視上看到這一幕，深受啟發。音訊：從交通噪音轉向人群歡呼聲，再轉為激昂的音樂。

關於架構

HappyHorse 採用了不尋常的技術路徑。

它擁有 150 億參數，並使用 40 層統一自注意力 Transformer。文字、影片與音訊的 Token 都被輸入到同一個序列中進行聯合建模。這與常見的「先生成影片再添加音訊」的流水線截然不同，聲音與畫面從一開始就存在於同一個語義空間中。

該模型採用 DMD-2 蒸餾技術，並透過 MagiCompiler 進行全圖優化。在單張 H100 GPU 上，生成 5 秒 1080p 影片約需 38 秒。

它支援 7 種語言的原生口型同步：英語、普通話、粵語、日語、韓語、德語和法語。其詞錯誤率 (WER) 是目前開源模型中最低的之一。

Artificial Analysis 盲測參與者表示，HappyHorse 在角色刻畫方面尤為突出，皮膚紋理與動作流暢度表現優異。由於測試樣本中有超過 60% 為人像或談話類片段，這也是該模型能登頂的原因之一。

1280X1280 (5).PNG

不過，也有批評指出，流出的影片中出現了不自然的波紋、快速移動物體的條紋偽影，以及大螢幕上的畫質下降問題。

開源與訪問計畫

4 月 9 日，HappyHorse-1.0 宣布將全面開源。GitHub 儲存庫已上線，權重完全開放，且沒有商業限制。

官網提供文字生成影片與圖片生成影片的線上 Demo。據阿里巴巴 ATH 表示，API 計劃於 4 月 30 日向公眾開放。

提醒您：據官方團隊指出，目前網路上流傳的絕大多數「官網」均為假冒，真正的官網尚未完全運作。

市場影響與意義

HappyHorse 的出現時間點是在 OpenAI 暫停 Sora 開發後的兩週。原本外界認為 AI 影片領域可能陷入停滯，但中國模型接過了接力棒。

市場反應迅速。在消息確認後，阿里巴巴股價飆升超過 7%，並持續上漲。截至 4 月 10 日收盤，漲幅超過 3%，報收 126.6 港元。

從戰略層面來看，HappyHorse 表明 ATH 擁有第二支能夠打造頂尖多模態模型的團隊。這支團隊具備商業背景，了解用戶需求與商業場景。這形成了一種「雙引擎」結構：通義實驗室（專注基礎研究）與創新單元（根據真實業務挑戰構建應用）。

回顧時間軸：林俊揚於三月初辭職，ATH 於 3 月 16 日成立。4 月 2 日，Qwen 3.6 Plus 登上 OpenRouter 全球調用量榜首；4 月 8 日，HappyHorse 登上 Artificial Analysis 榜首。僅僅一個月內，阿里巴巴在語言與影片模型領域均交出了強勁的成績單。

團隊背景：張迪與阿里巴巴 ATH

HappyHorse 背後的核心人物是重量級專家張迪。

他原為快手副總裁，曾擔任 Kling AI 的技術負責人，被稱為「Kling 之父」。他於 2025 年 11 月離開快手，接任阿里巴巴「未來生活實驗室」負責人，直接向首席科學家鄭博匯報。

五個月後，他的團隊打造出 HappyHorse-1.0，並擊敗了 Kling 與字節跳動的 Seedance 2.0。

該團隊最初隸屬於淘寶未來生活實驗室，但在阿里巴巴最新重組後，被轉移至 ATH 業務群的 AI 創新單元。

ATH 代表「Alibaba Token Hub」，由 CEO 吳泳銘於 3 月 16 日創立並親自領導。其使命是「Token 的創造、提供與應用」，整合了通義實驗室、MaaS 業務線、千問部門、悟空部門及 AI 創新單元。

常見問題 (FAQ)

在本地運行 HappyHorse 需要什麼樣的 GPU？

該模型擁有 150 億參數，規模並不小。在單張 H100 環境下，生成 5 秒 1080p 影片約需 38 秒。消費級顯示卡如 RTX 4090 (24GB 顯存) 將需要進行量化或分割載入。FP16 推理的顯存需求很可能會超過 24GB。已有用戶回報 4-bit 量化測試成功，但畫質有所下降。若要進行嚴肅應用，建議使用具備 40GB 以上顯存的雲端 GPU。此外，等待 4 月 30 日的 API 發布也是明智之舉。

我可以用自己的數據微調 HappyHorse 嗎？

可以，根據授權條款，沒有商業使用限制。但微調 150 億參數的影片模型並不容易。它需要 H100 或 A100 叢集、龐大的影音對應數據集以及顯著的工程資源。GitHub 儲存庫目前不包含微調指令碼，僅支援推理。團隊暗示未來會釋出訓練代碼，但尚未設定具體日期。

有 Discord 或微信交流群嗎？

有，但均為非官方社群。多個 AI 社群已在 Discord 和微信上發起討論串。官方團隊尚未開設正式的社群管道。若您加入群組，請小心偽造連結與釣魚詐騙。建議直接透過 GitHub 儲存庫與阿里巴巴 ATH 的官方公告獲取最新資訊。

這個模型在 Hugging Face 上架了嗎？

目前尚未上架。團隊表示正著手發布至 Hugging Face，但尚未完成。目前權重僅存於 GitHub。社群成員已開始上傳轉換後的 Checkpoints 到 Hugging Face，但這些並非官方版本。為安全起見，請在官方頁面出現前使用 GitHub 原始碼。

返回列表

HappyHorse-1.0 奪冠，API 即將推出

HappyHorse 在排行榜上的表現

HappyHorse 與 Seedance 2.0 的對比

關於架構

開源與訪問計畫

市場影響與意義

團隊背景：張迪與阿里巴巴 ATH

常見問題 (FAQ)

在本地運行 HappyHorse 需要什麼樣的 GPU？

我可以用自己的數據微調 HappyHorse 嗎？

有 Discord 或微信交流群嗎？

這個模型在 Hugging Face 上架了嗎？

最新模型

MiniMax H3 Text-to-Video

MiniMax H3 Image-to-Video

MiniMax H3 Reference-to-Video

Reve 2.1 Remix

一個 API，暢享全模態 AI。