Nous avons lancé 6 scénarios, 12 vidéos et un jeu de prompts partagé pour en avoir le cœur net.
Le 10 avril, l'équipe ATH d'Alibaba a lancé Happy Horse 1.0. En quelques jours, il a décroché la première place du classement des modèles vidéo d'Artificial Analysis — Elo T2V 1389, Elo I2V 1416, devançant le Seedance 2.0 de Bytedance d'environ 115 points sur le texte-vers-vidéo.
Si vous travaillez dans la vidéo générée par IA, la sélection de produits ou la recherche industrielle, la question est immédiate : ce classement tient-il la route face à des charges de travail réelles ?
Nous y avons consacré une semaine. Avec les mêmes prompts, les mêmes ressources de référence et le même cadre d'évaluation, nous avons comparé Happy Horse 1.0 et Seedance 2.0 sur 6 types de scénarios, pour un total de 12 vidéos. Cet article aborde trois points : ce qui a réellement propulsé Happy Horse en tête, la méthodologie d'évaluation que nous avons utilisée (un livre blanc complet sera bientôt disponible), et ce que les 6 scénarios ont révélé que le classement ne montre pas.
À la fin, vous saurez exactement quand choisir HH ou SD, et pourquoi effectuer ce type de comparaison via l'API unique d'Atlas Cloud — une clé, un SDK, un simple changement de nom de modèle — est la méthode la plus pratique pour choisir votre modèle aujourd'hui.
Pourquoi Happy Horse 1.0 domine le classement Elo
Quelques faits à connaître avant de consulter les résultats.
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| Équipe | Alibaba ATH | Bytedance |
| Lancement | 10/04/2026, disponible sur Atlas Cloud le 27/04 | Disponible globalement |
| Architecture | Transformer unifié 15B (génération audio-vidéo conjointe, sans attention croisée) | Architecture "Mixture-of-experts" |
| Audio natif | ✅ | ✅ |
| Multilingue | Lip-sync en 7 langues (mandarin / cantonais / anglais / japonais / coréen / allemand / français) | Saisie de prompt en 6 langues (chinois / anglais + japonais / indonésien / espagnol / portugais) |
| Vitesse de génération | ~38s par clip en 1080p sur un seul H100 | — |
| Elo Artificial Analysis | T2V 1389 (#1) / I2V 1416 (#1) | T2V ~1274 |
Trois éléments lui ont permis d'atteindre ce sommet.
Architecture Transformer unifiée. L'audio et la vidéo sont générés dans la même séquence, et non assemblés en post-production. Le lip-sync, le timing audio et les points de montage sont modélisés simultanément. C'est crucial, car l'approche classique "générer la vidéo d'abord, ajouter l'audio ensuite" produit souvent des décalages visibles — HH l'évite nativement.
Lip-sync natif en 7 langues. Mandarin, cantonais, japonais, coréen, allemand, français, anglais. Il s'agit de la couverture de lip-sync multilingue la plus large disponible actuellement, un atout majeur pour la production de contenu mondial.
Plafond visuel. Sur les images individuelles de nos tests, la texture de la peau, l'esthétique et l'étalonnage cinématographique de HH dépassent ceux de SD. Artificial Analysis s'appuie sur des évaluations humaines à l'aveugle, et les évaluateurs sont très sensibles à "ce qui fait le plus cinéma". C'est l'explication principale de l'écart Elo.
Cependant, l'Elo est un score global unique. Il indique qui a gagné le plus de comparaisons, mais pas pourquoi, ni où se situent les lacunes. Un score total masque la structure réelle. C'est pourquoi nous avons créé un véritable cadre d'évaluation.
Cadre d'évaluation des modèles vidéo IA
Nous avons compilé un Livre blanc sur l'évaluation des modèles vidéo IA complet — voici la méthodologie fondamentale.
Ce que font (et ne font pas) les benchmarks existants
| Système | Forces | Limites |
|---|---|---|
| VBench / VBench-2.0 | Dimensions granulaires (16 + 18), couvre physique et bon sens | Configuration complexe, nécessite un GPU, peu intuitif |
| Elo Artificial Analysis | Reflète la préférence subjective humaine, comparable | Boîte noire, impossible d'isoler les faiblesses, score agrégé |
| FVD / CLIP Score | Objectif, scriptable | Corrélation limitée avec la perception humaine |
| Cherry-picking de démos | Impact visuel fort | Non reproductible, fort biais de sélection |
Le rapport VBench v2.0, publié en mars 2026, est sans équivoque : même les modèles les plus performants plafonnent à environ 50 % en plausibilité physique. Un score de classement ne suffit pas.
Cinq dimensions d'évaluation
| Dimension | Question d'évaluation | Sous-éléments clés |
|---|---|---|
| Alignement prompt-vidéo | La sortie respecte-t-elle les instructions ? | Sujet / Action / Scène / Style / Relations spatiales |
| Qualité visuelle | Chaque image est-elle excellente ? | Résolution / Esthétique / Rendu / Détails |
| Mouvement et physique | Le mouvement obéit-il aux lois physiques ? | Naturel / Physique / Dynamique / Précision caméra |
| Cohérence temporelle | Les plans sont-ils cohérents dans le temps ? | Identité du sujet / Scène / Scintillement / Cohérence multi-plans |
| Capacités multimodales | Que fait le modèle au-delà du visuel ? | Audio / Sync audio-visuelle / Lip-sync / Multilingue |
La dimension 5 (audio/lip-sync/multilingue) est là où se joue la différenciation en 2026. C'est l'atout majeur de HH.
Méthode à trois niveaux
| Niveau | Cas d'usage | Outils |
|---|---|---|
| L1 Métriques objectives | Tri à grande échelle, CI/CD | FVD / CLIP-Score / DINO / SyncNet / MLLM-as-Judge |
| L2 Tâches standardisées | Évaluation de tutoriels, comparaison de produits | Suite de prompts VBench / Atlas Cloud Prompt Hub |
| L3 Review subjective aveugle | Décisions finales, sorties publiques | Elo en double aveugle + carte de score cinq dimensions |
Les études de 2025-2026 confirment que l'approche "MLLM-as-Judge" (utiliser Claude ou GPT-4V comme juge) corrèle bien mieux avec les scores humains que les métriques quantitatives pures. C'est la colonne vertébrale de notre niveau L1.
6 Scénarios : Où le leader du classement échoue
Nous avons sélectionné 6 scénarios via le Prompt Hub d'Atlas Cloud. Paramètres unifiés : 1080p / 16:9 / seed 42 / durée adaptée (5-15s).
Scénario 1 : Exploration de grotte — Qualité visuelle + Audio ambiant
HH gagne sur le visuel, SD gagne sur l'audio. HH démontre sa supériorité visuelle (détails stalactites), mais l'audio de SD est plus riche et moins "artificiel".
Scénario 2 : Poursuite en voiture — Densité d'instructions
SD gagne clairement. HH échoue sur la compréhension sémantique : le prompt "drone" est interprété comme un objet physique entrant dans le champ plutôt qu'un mouvement de caméra.
Scénario 3 : Cohérence des personnages
Match nul. SD offre un plan continu très propre, tandis que HH privilégie une coupe conventionnelle avec des détails plus fins, mais un aspect plus "plastique".
Scénario 4 : Dialogue talk-show — Performance multimodale ⚡
SD gagne haut la main. Non seulement il respecte le rythme (inclinaison, pauses), mais il ajoute de lui-même des rires du public, prouvant une compréhension du genre talk-show. HH échoue sur la consistance audio : la voix du chat devient masculine en fin de clip.
Scénario 5 : Scène romantique → Renversement dramatique ⚡⚡
SD exécute parfaitement le renversement narratif (expression, action, dialogue). HH échoue totalement, traitant le prompt comme une simple scène de dialogue romantique sans comprendre la tension narrative.
Scénario 6 : Fusion multimodale — Thriller ⚡⚡⚡
SD gagne. HH copie la pose de l'image de référence mais génère un visage totalement différent, échouant sur la fidélité de l'identité du personnage.
Conclusion : Quel modèle choisir ?
| Scénario | Choix | Pourquoi |
|---|---|---|
| Qualité visuelle pure | HH | Esthétique, texture, colorimétrie |
| Dialogue/Traduction | HH | Fidélité texte/audio |
| Vidéo scriptée / Action | SD | Exécution précise des coupes |
| Renversement narratif | SD | Compréhension sémantique |
| Consistance personnage | SD | Fidélité identitaire |
L'API unique d'Atlas Cloud nous a permis de tester ces modèles en changeant simplement une chaîne de caractères dans notre code, sans réimplémenter les SDK. Pour vos futurs tests, utilisez notre console pour comparer ces modèles en un clic.






