HappyHorse-1.0 belegt den ersten Platz, API folgt in Kürze

Anfang April tauchte plötzlich ein Modell namens „HappyHorse-1.0“ auf. Es setzte sich in vier Kategorien an die Spitze des Video-Leaderboards von Artificial Analysis und ließ ByteDances Seedance 2.0 sowie Kling mit großem Abstand hinter sich.

Es gab keine Pressemitteilungen, keine Blogbeiträge und der Firmenname wurde nicht genannt. Auf der Modellseite hieß es lediglich „coming soon“.

Am 10. April bestätigte Alibabas ATH-Abteilung das Projekt. HappyHorse ist ein internes F&E-Projekt der Innovationsabteilung von ATH und befindet sich derzeit in der Private Beta. Die API wird am 30. April veröffentlicht.

Darüber hinaus soll HappyHorse-1.0 vollständig quelloffen sein. Es wird als das erste Open-Source-Videomodell angepriesen, das nativ gleichzeitig Audio und Video generieren kann.

Dieser „stille Start“ gefolgt von einer „spektakulären Ankündigung“ entwickelt sich zu einem Trend unter chinesischen KI-Unternehmen. Xiaomi tat dies mit einem Codenamen „Hunter Alpha“, und Zhipu nutzte „Pony Alpha“ für sein neues GLM-Modell.

In diesem Artikel beleuchten wir die bekannten Fakten über HappyHorse und deren Bedeutung.

Die Platzierung von HappyHorse im Leaderboard

Artificial Analysis betreibt vier Leaderboards: Text-zu-Video ohne Audio, Bild-zu-Video ohne Audio, Text-zu-Video mit Audio und Bild-zu-Video mit Audio.

Die Daten vom 13. April mittags lauten wie folgt:

Text-zu-Video (ohne Audio): 1384 Elo. Es liegt 111 Punkte vor Seedance 2.0.
Bild-zu-Video (ohne Audio): 1413 Elo. Dies ist der höchste jemals auf der Plattform aufgezeichnete Wert.

下载 (1).png

下载.png

Bei Elo-Werten deutet eine Differenz von mehr als 60 Punkten auf eine klare Präferenz hin. Ein Unterschied von 111 Punkten zeigt, dass sich Nutzer in Blindtests überwältigend für HappyHorse entschieden haben.

Die Situation ändert sich jedoch, wenn Audio einbezogen wird. Der Unterschied schrumpft auf lediglich 1–2 Punkte, was faktisch einem Unentschieden entspricht. Dies zeigt, dass die audiovisuelle Synchronisation und die Tonqualität von HappyHorse nicht drastisch überlegen sind. In dieser Hinsicht ist es in etwa mit Seedance gleichauf.

Vergleich zwischen HappyHorse und Seedance 2.0

Merkmal	HappyHorse-1.0	Seedance 2.0
Modellart	Open Source	Geschlossenes kommerzielles System
Architektur	Unified Transformer	Bidirectional Diffusion Transformer (DB-DiT)
Multimodale Fähigkeit	Gleichzeitige Audio-/Video-Generierung (One-pass)	Multimodaler Input (Text, Bild, Video, Audio)
Video-Generierungsmodus	One-pass-Generierung	Pipeline-basierte Generierung
Video-Generierungslänge	Ca. 5–10 Sekunden (1080p)	Bis zu ca. 60 Sekunden (2K)

Beide Modelle stehen für unterschiedliche Philosophien.

HappyHorse‑1.0: Open Source. Unified Transformer. Gleichzeitige Audio-/Video-Generierung. One-pass-Verarbeitung. Native Lippensynchronisation für 7 Sprachen. 15 Milliarden Parameter. Die Generierung eines 5-sekündigen 1080p-Videos dauert in einer H100-Umgebung 38 Sekunden.

Seedance 2.0: Geschlossenes kommerzielles System. Bidirectional Diffusion Transformer (DB‑DiT). Multimodaler Input. Kann 60-sekündige 2K-Videos generieren. Unterstützt Lippensynchronisation für über 8 Sprachen.

Was die reine visuelle Qualität betrifft, wird HappyHorse in Blindtests klar bevorzugt. Bei der audiovisuellen Synchronisation und Tonqualität sind beide ungefähr gleichwertig. Bezüglich der Nutzbarkeit stellt Seedance bereits über Dienste wie Volcano Engine eine ausgereifte API bereit. Die HappyHorse-API soll am 30. April erscheinen; die Leistung in der Private Beta wird noch verifiziert.

Vergleich von Generierungsbeispielen zwischen HappyHorse-1.0 und Dreamina Seedance 2.0 (Text-zu-Video mit Audio) von Artificial Analysis:

Prompt: Ein kurzer Animationsfilm im Pixar-Stil über ein schüchternes kleines Verkehrshütchen, das davon träumt, der Pylon an der Ziellinie eines großen Rennens zu sein. Die anderen Hütchen lachen über seinen Ehrgeiz. Ein Bauarbeiter stellt es versehentlich an der Ziellinie eines Marathons auf. Während die Läufer vorbeiziehen, wandelt sich der gemalte Ausdruck des Hütchens von Angst in Freude. Konfetti regnet von oben herab. Die anderen Hütchen sehen es im Fernsehen und fühlen sich inspiriert. Audio: Vom Verkehrslärm zum Jubel der Menge und dann aufmunternde Musik.

Zur Architektur

HappyHorse verfolgt einen ungewöhnlichen Ansatz.

Es verfügt über 15 Milliarden Parameter und verwendet einen 40-schichtigen Unified Self-Attention Transformer. Text-, Video- und Audio-Token werden alle in dieselbe Sequenz eingespeist und gemeinsam modelliert. Dies unterscheidet sich erheblich von der üblichen Pipeline, bei der „zuerst das Video generiert und dann Audio hinzugefügt“ wird. Hier existieren Ton und Szene von Anfang an im selben semantischen Raum.

Das Modell nutzt DMD-2-Destillation und vollständige Graphoptimierung via MagiCompiler. Auf einer einzelnen H100-GPU dauert die Generierung eines 5-sekündigen 1080p-Videos etwa 38 Sekunden.

Es unterstützt native Lippensynchronisation für 7 Sprachen: Englisch, Mandarin, Kantonesisch, Japanisch, Koreanisch, Deutsch und Französisch. Die Wortfehlerrate (WER) gehört zu den niedrigsten aller Open-Source-Modelle.

Teilnehmer des Blindtests von Artificial Analysis geben an, dass HappyHorse besonders bei der Darstellung von Charakteren glänzt. Die Hauttextur und die Geschmeidigkeit der Bewegungen sind überlegen. Die Tatsache, dass über 60 % der Teststichproben Porträts oder Talking-Head-Clips waren, war ein Faktor, der dieses Modell an die Spitze katapultierte.

1280X1280 (5).PNG

Es gibt jedoch Kritik. In geleakten Videos wurde auf unnatürliche Wellenbewegungen, Streifenartefakte bei sich schnell bewegenden Objekten und eine Verschlechterung der Bildqualität auf großen Bildschirmen hingewiesen.

Open Source und Zugangsplan

Am 9. April kündigte HappyHorse‑1.0 an, dass es vollständig quelloffen sein wird. Das GitHub-Repository ist live, die Gewichte sind komplett frei verfügbar und es gibt keine kommerziellen Einschränkungen.

Die offizielle Website bietet Online-Demos für Text-zu-Video und Bild-zu-Video. Laut Alibaba ATH soll die API am 30. April der Öffentlichkeit zugänglich gemacht werden.

Ein Hinweis zur Vorsicht: Laut dem offiziellen Team sind die meisten der im Internet kursierenden „offiziellen Websites“ gefälscht. Die echte Seite ist noch nicht vollständig in Betrieb.

Marktauswirkungen und Bedeutung

HappyHorse erschien zwei Wochen, nachdem OpenAI die Entwicklung von Sora gestoppt hatte. Seine Bewegung wurde als Zeichen einer Stagnation im Bereich der KI-Videos gewertet, doch ein chinesisches Modell hat den Staffelstab übernommen.

Der Markt reagierte schnell. Der Aktienkurs von Alibaba stieg nach der Bestätigung um mehr als 7 % und setzte seinen Anstieg fort. Zum Handelsschluss am 10. April lag er über 3 % höher bei 126,6 HK$.

Auf strategischer Ebene zeigt HappyHorse, dass ATH über ein zweites Team verfügt, das in der Lage ist, erstklassige multimodale Modelle zu bauen. Dieses Team hat einen geschäftlichen Hintergrund und versteht Nutzerbedürfnisse sowie kommerzielle Szenarien. Dies schuf eine Dual-Engine-Struktur: das Tongyi Lab (fokussiert auf Grundlagenforschung) und die Innovation Unit (Entwicklung von Anwendungen aus realen geschäftlichen Herausforderungen).

Betrachten wir den Zeitplan: Lin Junyang trat Anfang März zurück, und ATH wurde am 16. März gegründet. Am 2. April belegte Qwen 3.6 Plus den ersten Platz beim globalen Aufrufvolumen von OpenRouter, und am 8. April setzte sich HappyHorse an die Spitze der Liste von Artificial Analysis. In nur einem Monat erzielte Alibaba schlagkräftige Ergebnisse sowohl bei Sprach- als auch bei Videomodellen.

Hintergrund des Teams: Zhang Di und Alibaba ATH

Hinter HappyHorse steht der Schwergewichts-Experte Zhang Di.

Er war ursprünglich Vice President bei Kuaishou und fungierte als technischer Leiter für Kling AI. Er ist als „Vater von Kling“ bekannt. Er verließ Kuaishou im November 2025 und übernahm die Leitung von Alibabas „Future Life Lab“, wobei er direkt an den Chefwissenschaftler Zheng Bo berichtet.

Fünf Monate später baute sein Team HappyHorse‑1.0 und schlug Kling sowie ByteDances Seedance 2.0.

Dieses Team war ursprünglich Teil des Future Life Labs von Taobao, wurde jedoch nach der letzten Umstrukturierung von Alibaba in die KI-Innovationsabteilung der ATH-Geschäftsgruppe verlagert.

ATH steht für „Alibaba Token Hub“, das am 16. März von CEO Wu Yongming gegründet wurde, der es persönlich leitet. Die Mission ist die „Erstellung, Bereitstellung und Anwendung von Token“. Es integriert das Tongyi Lab, die MaaS-Geschäftslinie, die Qianwen-Abteilung, die Wukong-Abteilung und die KI-Innovationsabteilung.

FAQ

Welche Art von GPU ist erforderlich, um HappyHorse lokal auszuführen?

Dieses Modell hat 15 Milliarden Parameter und ist keineswegs klein. In einer einzelnen H100-Umgebung dauert die Generierung eines 5-sekündigen 1080p-Videos etwa 38 Sekunden. Consumer-GPUs wie die RTX 4090 (24 GB VRAM) erfordern Quantisierung oder Offloading. Für FP16-Inferenz dürften 24 GB überschritten werden. Einige Nutzer haben über Erfolge mit 4-Bit-Quantisierung berichtet, allerdings bei reduzierter Qualität. Für den ernsthaften Einsatz wird eine Cloud-GPU mit 40 GB+ VRAM empfohlen. Alternativ ist es ratsam, auf die API-Veröffentlichung am 30. April zu warten.

Kann ich HappyHorse mit meinen eigenen Daten feinabstimmen?

Ja, gemäß der Lizenz. Es gibt keine kommerziellen Nutzungsbeschränkungen. Die Feinabstimmung eines 15-Milliarden-Parameter-Videomodells ist jedoch nicht einfach. Sie erfordert ein H100- oder A100-Cluster, einen großen Datensatz von Video-Audio-Paaren und erhebliche technische Ressourcen. Das GitHub-Repository enthält derzeit keine Fine-Tuning-Skripte und unterstützt nur die Inferenz. Das Team hat angedeutet, in Zukunft Trainingscode zu veröffentlichen, aber ein Datum wurde noch nicht genannt.

Gibt es Discord- oder WeChat-Community-Gruppen?

Ja, aber sie sind inoffiziell. Mehrere KI-Communities haben Threads auf Discord und WeChat gestartet. Das offizielle Team hat noch keine offiziellen Community-Kanäle eröffnet. Wenn Sie einer Gruppe beitreten, hüten Sie sich vor gefälschten Links und Phishing-Betrug. Am besten überprüfen Sie das GitHub-Repository und die offiziellen Ankündigungen von Alibaba ATH für aktuelle Informationen.

Ist dieses Modell auf Hugging Face verfügbar?

Zum Zeitpunkt dieses Schreibens noch nicht. Das Team hat erklärt, dass es an einer Veröffentlichung auf Hugging Face arbeitet, diese aber noch nicht abgeschlossen ist. Derzeit befinden sich die Gewichte nur auf GitHub. Community-Mitglieder haben begonnen, konvertierte Checkpoints auf Hugging Face hochzuladen, aber diese sind inoffiziell. Gehen Sie auf Nummer sicher und nutzen Sie die GitHub-Quelle, bis die offizielle Hugging Face-Seite erscheint.

ZURÜCK ZUR LISTE

HappyHorse-1.0 belegt den ersten Platz, API folgt in Kürze

Die Platzierung von HappyHorse im Leaderboard

Vergleich zwischen HappyHorse und Seedance 2.0

Zur Architektur

Open Source und Zugangsplan

Marktauswirkungen und Bedeutung

Hintergrund des Teams: Zhang Di und Alibaba ATH

FAQ

Welche Art von GPU ist erforderlich, um HappyHorse lokal auszuführen?

Kann ich HappyHorse mit meinen eigenen Daten feinabstimmen?

Gibt es Discord- oder WeChat-Community-Gruppen?

Ist dieses Modell auf Hugging Face verfügbar?

Neueste Modelle

MiniMax H3 Text-to-Video

MiniMax H3 Image-to-Video

MiniMax H3 Reference-to-Video

Reve 2.1 Remix

Eine API für alle Media-KI.