Clasificado #1 en el leaderboard de Artificial Analysis: ¿Realmente Happy Horse 1.0 supera a Seedance 2.0?

Ejecutamos 6 escenarios, 12 videos y un conjunto de prompts compartidos para averiguarlo.

-fMAk-_8t1s

El 10 de abril, el equipo ATH de Alibaba lanzó Happy Horse 1.0. En pocos días, alcanzó el primer puesto en la tabla de clasificación de modelos de video de Artificial Analysis — T2V Elo 1389, I2V Elo 1416, superando al Seedance 2.0 de Bytedance por aproximadamente 115 puntos en el apartado de texto a video.

Si trabajas en contenido de video con IA, selección de productos o investigación industrial, la pregunta inmediata es obvia: ¿se mantiene esta clasificación bajo cargas de trabajo reales?

Pasamos una semana averiguándolo. Mismos prompts, mismos activos de referencia, mismo marco de evaluación: Happy Horse 1.0 y Seedance 2.0 ejecutados lado a lado en 6 tipos de escenarios, con un total de 12 videos. Este artículo cubre tres puntos: qué llevó realmente a Happy Horse a la cima, la metodología de evaluación que utilizamos (pronto publicaremos un white paper completo) y qué revelaron los 6 escenarios que la tabla de clasificación no muestra.

Al final, tendrás una visión clara de cuándo elegir HH, cuándo elegir SD y por qué realizar este tipo de comparaciones a través de la One API de Atlas Cloud —una clave, un SDK, un simple cambio de string de modelo— es la forma más práctica de realizar una selección de modelos en este momento.

Por qué Happy Horse 1.0 lidera el ranking Elo

Algunos datos que vale la pena conocer antes de ver los resultados de la prueba.

	Happy Horse 1.0	Seedance 2.0
Equipo	Alibaba ATH	Bytedance
Lanzamiento	Presentado el 10/04/2026, disponible en Atlas Cloud el 27/04	Disponibilidad general
Arquitectura	Transformer unificado de 15B (generación conjunta de audio-video, sin atención cruzada)	Arquitectura de mezcla de expertos (MoE)
Audio nativo	✅	✅
Multilingüe	Sincronización labial en 7 idiomas (mandarín / cantonés / inglés / japonés / coreano / alemán / francés)	Entrada de prompts en 6 idiomas (chino / inglés + japonés / indonesio / español / portugués)
Velocidad de generación	~38s por clip a 1080p en una sola H100	—
Elo (Artificial Analysis)	T2V 1389 (puesto #1) / I2V 1416 (puesto #1)	T2V ~1274

Tres factores le otorgaron realmente el primer puesto.

Arquitectura Transformer unificada. El audio y el video se generan en la misma secuencia, no se ensamblan en postproducción. La sincronización labial, el tiempo del audio y los puntos de edición se modelan simultáneamente. Esto es importante porque el enfoque de "generar video primero, añadir audio después" suele producir desalineaciones visibles; HH evita esto a nivel de arquitectura.

Sincronización labial nativa en 7 idiomas. Mandarín, cantonés, japonés, coreano, alemán, francés e inglés. Es la cobertura de sincronización labial multilingüe más amplia de cualquier modelo de video disponible públicamente en este momento, y tiene un valor real para la producción de contenido global.

Techo visual. Al observar los fotogramas individuales de nuestras pruebas, la textura de la piel, la estética de fotograma único y la gradación de color cinematográfica de HH superan realmente a SD. Artificial Analysis utiliza evaluaciones ciegas humanas, y los evaluadores humanos son altamente sensibles a "cuál se parece más a una película". Esa es la explicación principal de la brecha en el Elo.

Pero el Elo es una puntuación agregada única. Te dice quién ganó más comparaciones directas, pero no dónde las ganó ni dónde no. Una puntuación total oculta la estructura real subyacente. Esa es la razón por la que construimos un marco de evaluación adecuado.

Marco de evaluación de modelos de video con IA

Hemos recopilado un White Paper sobre la evaluación de modelos de video con IA completo; aquí presentamos la metodología central.

Qué hacen (y qué no hacen) los benchmarks existentes

Sistema	Fortalezas	Limitaciones
VBench / VBench-2.0 (benchmark académico)	Dimensiones granulares (16 + 18 subdimensiones), cubre física y sentido común	Configuración compleja, requiere GPU para ejecutarse, no es intuitivo
Artificial Analysis Elo (ranking ciego)	Refleja la preferencia subjetiva humana, comparable entre modelos	Caja negra, no identifica debilidades, puntuación agregada única
FVD / CLIP Score (métricas cuantitativas)	Objetivo, programable	Correlación limitada con la percepción humana
Demo cherry-picking (norma de la industria)	Alto impacto visual	No reproducible, sesgo de selección severo

El artículo de VBench v2.0, publicado en marzo de 2026, señalaba algo contundente: incluso los modelos actuales más fuertes obtienen alrededor de un 50% en plausibilidad física. El estándar de oro aún está evolucionando. Una sola puntuación en una tabla de clasificación no es una base fiable para la selección de modelos.

Cinco dimensiones de evaluación

Dimensión	Pregunta de evaluación	Sub-elementos clave
Alineación Prompt-Video	¿La salida sigue las instrucciones con precisión?	Sujeto / Acción / Escena / Estilo / Relaciones espaciales y de cantidad
Calidad Visual	¿Es excelente cada fotograma individual?	Resolución / Estética / Renderizado / Detalle
Movimiento y Física	¿El movimiento obedece a las leyes físicas?	Naturalidad / Física / Rango dinámico / Precisión del movimiento de cámara
Consistencia Temporal	¿Son coherentes los fotogramas y planos a lo largo del tiempo?	Identidad del sujeto / Escena / Flickering / Consistencia entre planos
Capacidades Multimodales	¿Qué puede hacer el modelo más allá de lo visual?	Audio / Sincronización audio-visual / Sincronización labial / Multilingüe / Control de estilo

La dimensión 5 (capacidades multimodales) es donde se está librando la diferenciación de modelos en 2026. También es la carta fuerte de HH.

Método de tres capas

Capa	Caso de uso	Herramientas
L1 Métricas Objetivas	Cribado a gran escala, CI/CD	FVD / CLIP-Score / Estética LAION / DINO / Flujo óptico / SyncNet / MLLM-as-Judge
L2 Conjunto de tareas estandarizadas	Evaluación de tutoriales, comparación de productos, publicación de white paper	Suite de prompts VBench / Atlas Cloud Prompt Hub / prompts personalizados por dimensión
L3 Revisión ciega subjetiva	Decisiones finales, lanzamiento público	Elo doble ciego + tarjeta de puntuación de cinco dimensiones

Múltiples estudios de 2025-2026 confirman que MLLM-as-Judge (usar Claude o GPT-4V como evaluadores) correlaciona significativamente mejor con las puntuaciones humanas que las métricas cuantitativas puras. Esa es la columna vertebral de nuestra capa L1.

Niveles de selección de prompts

La mayor fuente de controversia en los benchmarks comparativos no son las métricas, sino los prompts. Nuestra estructura de niveles y estándar mínimo:

Nivel	Definición	Cuándo usarlo
A (predeterminado)	Prompt neutro respecto al modelo, enfocado a una dimensión — un mismo prompt ejecutado en ambos modelos	Estándar de evaluación principal
B (evitar)	Mismo tema, pero cada modelo usa su propio prompt del Hub	No usar para puntuación — solo para mostrar reels

Por qué una sola puntuación engaña

Los modelos de video en 2026 no son solo "texto a video". Un modelo puede soportar simultáneamente T2V, I2V, referencia a video, edición de video, audio nativo y sincronización labial multilingüe, y comportarse de manera muy diferente en esos modos. El Elo colapsa todo eso en un número. Nuestro marco etiqueta cada evaluación con su modalidad y genera una matriz de capacidades, no un ranking.

El white paper completo incluirá una plantilla de tarjeta de puntuación, SOP de ejecución, recomendaciones de cadenas de herramientas y referencias académicas completas. Los resultados de la prueba a continuación se produjeron bajo este marco.

6 Escenarios: Donde el #1 del ranking pierde

Seleccionamos 6 tipos de escenarios del Prompt Hub de Atlas Cloud, cubriendo las cinco dimensiones de evaluación con una cobertura modal equilibrada. Parámetros unificados en todas las ejecuciones: 1080p / 16:9 / semilla 42 / duración escalada a la complejidad del escenario (5-15 segundos).

Escenario 1: Exploración de cueva — Calidad visual + Audio ambiente

Prompt: exploración con linterna de una cueva de piedra caliza, iluminando paredes de roca húmeda y reflejos de cristal, el haz de luz atravesando aguas poco profundas creando patrones de luz cáustica, estalactitas proyectando sombras largas que se desplazan con la fuente de luz. Audio ambiente: goteo de agua, pasos sobre roca húmeda, respiración en espacio cerrado.

JoCls58wAms

Dimensión	SD	HH
Física de luz cáustica	✅	✅
Reflejos roca húmeda / textura mineral	Tiende a ser sobre-pulido	Más realista ✅ (detalles anatómicos de la estalactita ganan)
Audio ambiente	Goteo / pasos / respiración — tres capas distintas ✅	Notoria "calidad IA", capas mezcladas

HH gana en visuales, SD gana en audio. Este escenario se mapea directamente con la ventaja de HH en el ranking; su detalle visual es genuinamente de nivel SOTA aquí.

Escenario 2: Persecución de autos al estilo Hollywood — Densidad de instrucciones

El prompt incluye 7 tipos de planos distintos en 15 segundos: plano general aéreo → seguimiento de suelo en ángulo bajo → POV desde el capó → plano medio en ángulo holandés → ECU ventana trasera → seguimiento lateral gran angular → alejamiento aéreo.

vA5B6knQohI

Dimensión	SD	HH
Ejecución de 7 planos	5/7 planos precisos ✅	Solo 2-3 planos
Física de humo / escombros	Denso y realista ✅	Tiende a ser ligero
Audio de tres capas (motor / neumáticos / asfalto)	Distinto ✅	Mezclado
Error semántico	—	Renderizó un "plano de dron aéreo" como un dron real volando en el encuadre

SD gana claramente. El "error del dron" de HH es un ejemplo claro de fallo de alineación semántica: conoce la palabra "dron" pero no puede distinguir si se refiere a un movimiento de cámara o a un objeto físico en la escena.

Escenario 3: Consistencia de personaje entre escenas

Referencia: mujer con cabello largo rojo, flequillo recto, camisa blanca, corbata negra. Tarea: caminar de la oficina a casa, manteniendo una apariencia consistente y una transición emocional natural en todo momento.

Algo que vale la pena señalar aquí: usamos R2V (Referencia a Video), no I2V. I2V bloquea por defecto la imagen de referencia como primer fotograma, lo que obliga al video a comenzar desde esa imagen; no se puede probar la consistencia entre escenas de esa manera. La distinción importa más de lo que parece.

CvuxRvUwu8I

Dimensión	SD	HH
Consistencia de rasgos faciales / peinado	✅	✅
Continuidad de vestuario	Toma continua única de la oficina a casa (artístico pero abrupto)	Cambio de ropa limpio, chaqueta removida mientras se mantiene la corbata ✅
Fotogramas de transición emocional	Corte de salto de dos tiempos	Ojos cerrándose + sonrisa leve como transición de "dejar el modo trabajo" ✅
Textura visual	Se inclina hacia limpio y pulido	Detalle fino en pecas, pero brillo "plástico IA" notorio
Integridad narrativa	3 escenas + personaje padre incluido ✅	Enfoque solo en madre-hija

Empate técnico, dos compensaciones diferentes: SD ofrece una toma continua con ejecución limpia; HH utiliza cortes convencionales con mayor detalle pero artefactos de suavizado de IA notables.

Escenario 4: Diálogo de personajes en Talk Show — Desempeño multimodal ⚡

Este es el escenario con mayor densidad de instrucciones de los seis. Tres marcadores de ritmo explícitos en el prompt (inclinarse hacia adelante / pausa de pensamiento falso / remate de risa compartida) funcionan como puntos de control individuales. El prompt especifica un intercambio de tres rondas al estilo Tonight Show, cerrando con ambos personajes riendo.

X9RDDU1M4Q0

Dimensión	SD	HH
Indicador de ritmo: "perro se inclina hacia adelante"	✅ Ejecutado	❌ Completamente estático
Indicador de ritmo: "pausa de pensamiento del gato"	✅ Expresión de pensamiento en ECU entregada	❌ No capturado
Plano final de risa compartida	✅ Corte a risa del gato	⚠️ Corte al perro (personaje equivocado)
Fidelidad al texto	✅	✅ (única dimensión que HH mantuvo)
Igualación de voz	✅ Precisa	⚠️ Precisa pero mecánica
Creatividad extra	✅ Añadió risas de audiencia de talk show de forma proactiva	—
Consistencia de voz	✅	❌ La risa final del gato cambió a una voz masculina

SD gana de forma integral. El detalle más interesante: SD añadió risas de audiencia que no estaban en el prompt. El contenido de un talk show tiene un formato esperado (pistas de risa en momentos de reacción) y el modelo lo rellenó. Eso no es solo seguir instrucciones; es entender qué se supone que es este tipo de contenido.

HH se mantuvo fiel al texto pero sufrió un fallo grave en el audio: la risa final del gato cambió a una voz masculina. La consistencia del audio a largo plazo es una debilidad real.

Escenario 5: Escena romántica → Inversión premeditada — Edición de video ⚡⚡

Video fuente: un hombre extranjero dice en inglés: "La luna está hermosa esta noche, una lástima que no pueda compartirla contigo". Una mujer china responde en mandarín: "Cualquier lugar se siente como una vista hermosa cuando estoy contigo". Azotea de noche, atmósfera suave.

gi0JJeR9n0M

Prompt de edición: inversión narrativa completa. La expresión del hombre cambia de cálida a fría. Empuja a la mujer del techo sin dudar. A mitad de caída, ella grita en mandarín: "¡Me estuviste mintiendo desde el principio!" (no es miedo, es incredulidad). Él se para en el borde con una sonrisa fría y dice en voz baja: "Esto es lo que le debías a mi familia".

Prueba de 4 capas: inversión de expresión + acción física clave + reemplazo de diálogo bilingüe + cambio de tono visual.

cj9dp6wS7Wo

Prueba de 4 capas	SD	HH
Inversión de expresión del hombre	✅ Cambio de ojos + sonrisa fría	❌ La expresión se lee como dolor
Reacción de la mujer (incredulidad)	✅ Rabia y gritos a mitad de caída	❌ Expresión de miedo de libro (opuesto al prompt)
Acción de empujar	✅ Ocurrió (plano de caída aérea)	❌ Nunca la empujó, la mujer sigue de pie
Cambio de tono visual	✅	⚠️ Se mantuvo igual
Diálogo bilingüe	✅	✅ (única dimensión que HH mantuvo)
Realismo de voz	✅	❌ Calidad IA notoria

SD ejecuta el escenario completo. HH falla totalmente. HH interpretó todo el prompt como "añade algo de diálogo y conflicto emocional". La estructura narrativa no se movió. Maneja instrucciones de superficie (qué decir) pero no instrucciones a nivel narrativo.

Escenario 6: Fusión de referencia multimodal — Thriller en ascensor ⚡⚡⚡

Entrada: 3 imágenes de referencia (hombre / ascensor / pasillo) + 1 video de referencia (movimiento de cámara + expresión facial). Tarea: fusionar las 4 entradas y producir una secuencia de miedo → zoom de Hitchcock → salir del ascensor → seguimiento de brazo mecánico.

Los modelos usan endpoints diferentes (HH: video-edit; SD: reference-to-video), pero ambos aceptan entradas compuestas de imagen más video. Los nombres son asimétricos; la capacidad es equivalente. Ese es un punto de prueba útil para lo que hace la capa de abstracción de One API.

NDdrQu1Zmlc

Elemento de evaluación	SD	HH
Ejecución de movimiento de cámara	✅ Sólido	✅ Sólido
Cambio de escena (ascensor / pasillo)	✅	✅
Identidad del hombre coincide con img1	✅ Ejecutado perfectamente	❌ No coincide (cara totalmente diferente)
Consistencia del personaje	✅ Estable	⚠️ Se desvía en la segunda mitad

SD gana claramente. HH replicó la pose de la imagen de referencia (la mano en la garganta) pero generó una cara totalmente diferente. Copió el gesto, no la identidad. Este es estructuralmente el mismo fallo que en el Escenario 5: la imitación superficial funciona, pero la profundidad semántica no.

Happy Horse vs Seedance: Brecha en la comprensión de instrucciones

Surgió una estructura consistente:

Nivel de instrucción	HH	SD
Nivel de superficie (diálogo, pose, parámetros)	✅ Ejecuta	✅ Ejecuta
Nivel semántico (inversión narrativa, identidad, timing)	❌ Falla	✅ Ejecuta
Relleno de convención de género	❌	✅ Añade de forma proactiva

Esto no es una cuestión de qué modelo es "mejor". Operan en diferentes niveles de comprensión. HH es bueno en el detalle superficial y textura visual. SD es más fiable en narrativa, fidelidad de identidad y ejecución de tiempos.

One API: Cambia de modelo cambiando solo un string

El primer problema de ingeniería que encontramos: HH y SD usan SDKs, endpoints y métodos de autenticación diferentes. Adaptar el código cliente por separado sería tedioso.

Por eso, Atlas Cloud colocó tanto a Seedance 2.0 como a Happy Horse 1.0 bajo el mismo pool de modelos y la misma One API. Una clave, un SDK, un string de modelo.

Usando la API

Paso 1: Obtén tu API key desde la consola.

Paso 2: Consulta los documentos de la API para obtener detalles de endpoints y parámetros.

Nota sobre honestidad en el benchmarking

El valor de un white paper de evaluación es que sea honesto. Happy Horse es genuinamente fuerte; el doble primer puesto en Elo no es ruido. Sus fallos te dicen precisamente cuándo elegir la otra opción.

Próximamente:

White Paper completo v1.0 — metodología de cinco dimensiones × tres capas con plantillas y referencias académicas.

Matriz de puntuación completa — 5 dimensiones × 6 escenarios × 2 modelos.

Cadena de herramientas de evaluación — scripts de automatización L1.

Modelos adicionales — Veo, Wan, Kling y otros.

Si estás seleccionando un modelo de video, deja tu caso de uso en los comentarios. Todos los detalles de evaluación se publicaron a través de la One API de Atlas Cloud en una única interfaz.

VOLVER A LA LISTA