Ejecutamos 6 escenarios, 12 videos y un conjunto de prompts compartidos para averiguarlo.
-fMAk-_8t1s
El 10 de abril, el equipo ATH de Alibaba lanzó Happy Horse 1.0. En pocos días, alcanzó el primer puesto en la tabla de clasificación de modelos de video de Artificial Analysis — T2V Elo 1389, I2V Elo 1416, superando al Seedance 2.0 de Bytedance por aproximadamente 115 puntos en el apartado de texto a video.
Si trabajas en contenido de video con IA, selección de productos o investigación industrial, la pregunta inmediata es obvia: ¿se mantiene esta clasificación bajo cargas de trabajo reales?
Pasamos una semana averiguándolo. Mismos prompts, mismos activos de referencia, mismo marco de evaluación: Happy Horse 1.0 y Seedance 2.0 ejecutados lado a lado en 6 tipos de escenarios, con un total de 12 videos. Este artículo cubre tres puntos: qué llevó realmente a Happy Horse a la cima, la metodología de evaluación que utilizamos (pronto publicaremos un white paper completo) y qué revelaron los 6 escenarios que la tabla de clasificación no muestra.
Al final, tendrás una visión clara de cuándo elegir HH, cuándo elegir SD y por qué realizar este tipo de comparaciones a través de la One API de Atlas Cloud —una clave, un SDK, un simple cambio de string de modelo— es la forma más práctica de realizar una selección de modelos en este momento.
Por qué Happy Horse 1.0 lidera el ranking Elo
Algunos datos que vale la pena conocer antes de ver los resultados de la prueba.
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| Equipo | Alibaba ATH | Bytedance |
| Lanzamiento | Presentado el 10/04/2026, disponible en Atlas Cloud el 27/04 | Disponibilidad general |
| Arquitectura | Transformer unificado de 15B (generación conjunta de audio-video, sin atención cruzada) | Arquitectura de mezcla de expertos (MoE) |
| Audio nativo | ✅ | ✅ |
| Multilingüe | Sincronización labial en 7 idiomas (mandarín / cantonés / inglés / japonés / coreano / alemán / francés) | Entrada de prompts en 6 idiomas (chino / inglés + japonés / indonesio / español / portugués) |
| Velocidad de generación | ~38s por clip a 1080p en una sola H100 | — |
| Elo (Artificial Analysis) | T2V 1389 (puesto #1) / I2V 1416 (puesto #1) | T2V ~1274 |
Tres factores le otorgaron realmente el primer puesto.
Arquitectura Transformer unificada. El audio y el video se generan en la misma secuencia, no se ensamblan en postproducción. La sincronización labial, el tiempo del audio y los puntos de edición se modelan simultáneamente. Esto es importante porque el enfoque de "generar video primero, añadir audio después" suele producir desalineaciones visibles; HH evita esto a nivel de arquitectura.
Sincronización labial nativa en 7 idiomas. Mandarín, cantonés, japonés, coreano, alemán, francés e inglés. Es la cobertura de sincronización labial multilingüe más amplia de cualquier modelo de video disponible públicamente en este momento, y tiene un valor real para la producción de contenido global.
Techo visual. Al observar los fotogramas individuales de nuestras pruebas, la textura de la piel, la estética de fotograma único y la gradación de color cinematográfica de HH superan realmente a SD. Artificial Analysis utiliza evaluaciones ciegas humanas, y los evaluadores humanos son altamente sensibles a "cuál se parece más a una película". Esa es la explicación principal de la brecha en el Elo.
Pero el Elo es una puntuación agregada única. Te dice quién ganó más comparaciones directas, pero no dónde las ganó ni dónde no. Una puntuación total oculta la estructura real subyacente. Esa es la razón por la que construimos un marco de evaluación adecuado.
Marco de evaluación de modelos de video con IA
Hemos recopilado un White Paper sobre la evaluación de modelos de video con IA completo; aquí presentamos la metodología central.
Qué hacen (y qué no hacen) los benchmarks existentes
| Sistema | Fortalezas | Limitaciones |
|---|---|---|
| VBench / VBench-2.0 (benchmark académico) | Dimensiones granulares (16 + 18 subdimensiones), cubre física y sentido común | Configuración compleja, requiere GPU para ejecutarse, no es intuitivo |
| Artificial Analysis Elo (ranking ciego) | Refleja la preferencia subjetiva humana, comparable entre modelos | Caja negra, no identifica debilidades, puntuación agregada única |
| FVD / CLIP Score (métricas cuantitativas) | Objetivo, programable | Correlación limitada con la percepción humana |
| Demo cherry-picking (norma de la industria) | Alto impacto visual | No reproducible, sesgo de selección severo |
El artículo de VBench v2.0, publicado en marzo de 2026, señalaba algo contundente: incluso los modelos actuales más fuertes obtienen alrededor de un 50% en plausibilidad física. El estándar de oro aún está evolucionando. Una sola puntuación en una tabla de clasificación no es una base fiable para la selección de modelos.
Cinco dimensiones de evaluación
| Dimensión | Pregunta de evaluación | Sub-elementos clave |
|---|---|---|
| Alineación Prompt-Video | ¿La salida sigue las instrucciones con precisión? | Sujeto / Acción / Escena / Estilo / Relaciones espaciales y de cantidad |
| Calidad Visual | ¿Es excelente cada fotograma individual? | Resolución / Estética / Renderizado / Detalle |
| Movimiento y Física | ¿El movimiento obedece a las leyes físicas? | Naturalidad / Física / Rango dinámico / Precisión del movimiento de cámara |
| Consistencia Temporal | ¿Son coherentes los fotogramas y planos a lo largo del tiempo? | Identidad del sujeto / Escena / Flickering / Consistencia entre planos |
| Capacidades Multimodales | ¿Qué puede hacer el modelo más allá de lo visual? | Audio / Sincronización audio-visual / Sincronización labial / Multilingüe / Control de estilo |
La dimensión 5 (capacidades multimodales) es donde se está librando la diferenciación de modelos en 2026. También es la carta fuerte de HH.
Método de tres capas
| Capa | Caso de uso | Herramientas |
|---|---|---|
| L1 Métricas Objetivas | Cribado a gran escala, CI/CD | FVD / CLIP-Score / Estética LAION / DINO / Flujo óptico / SyncNet / MLLM-as-Judge |
| L2 Conjunto de tareas estandarizadas | Evaluación de tutoriales, comparación de productos, publicación de white paper | Suite de prompts VBench / Atlas Cloud Prompt Hub / prompts personalizados por dimensión |
| L3 Revisión ciega subjetiva | Decisiones finales, lanzamiento público | Elo doble ciego + tarjeta de puntuación de cinco dimensiones |
Múltiples estudios de 2025-2026 confirman que MLLM-as-Judge (usar Claude o GPT-4V como evaluadores) correlaciona significativamente mejor con las puntuaciones humanas que las métricas cuantitativas puras. Esa es la columna vertebral de nuestra capa L1.
Niveles de selección de prompts
La mayor fuente de controversia en los benchmarks comparativos no son las métricas, sino los prompts. Nuestra estructura de niveles y estándar mínimo:
| Nivel | Definición | Cuándo usarlo |
|---|---|---|
| A (predeterminado) | Prompt neutro respecto al modelo, enfocado a una dimensión — un mismo prompt ejecutado en ambos modelos | Estándar de evaluación principal |
| B (evitar) | Mismo tema, pero cada modelo usa su propio prompt del Hub | No usar para puntuación — solo para mostrar reels |
Por qué una sola puntuación engaña
Los modelos de video en 2026 no son solo "texto a video". Un modelo puede soportar simultáneamente T2V, I2V, referencia a video, edición de video, audio nativo y sincronización labial multilingüe, y comportarse de manera muy diferente en esos modos. El Elo colapsa todo eso en un número. Nuestro marco etiqueta cada evaluación con su modalidad y genera una matriz de capacidades, no un ranking.
El white paper completo incluirá una plantilla de tarjeta de puntuación, SOP de ejecución, recomendaciones de cadenas de herramientas y referencias académicas completas. Los resultados de la prueba a continuación se produjeron bajo este marco.
6 Escenarios: Donde el #1 del ranking pierde
Seleccionamos 6 tipos de escenarios del Prompt Hub de Atlas Cloud, cubriendo las cinco dimensiones de evaluación con una cobertura modal equilibrada. Parámetros unificados en todas las ejecuciones: 1080p / 16:9 / semilla 42 / duración escalada a la complejidad del escenario (5-15 segundos).
Escenario 1: Exploración de cueva — Calidad visual + Audio ambiente
Prompt: exploración con linterna de una cueva de piedra caliza, iluminando paredes de roca húmeda y reflejos de cristal, el haz de luz atravesando aguas poco profundas creando patrones de luz cáustica, estalactitas proyectando sombras largas que se desplazan con la fuente de luz. Audio ambiente: goteo de agua, pasos sobre roca húmeda, respiración en espacio cerrado.
JoCls58wAms
| Dimensión | SD | HH |
|---|---|---|
| Física de luz cáustica | ✅ | ✅ |
| Reflejos roca húmeda / textura mineral | Tiende a ser sobre-pulido | Más realista ✅ (detalles anatómicos de la estalactita ganan) |
| Audio ambiente | Goteo / pasos / respiración — tres capas distintas ✅ | Notoria "calidad IA", capas mezcladas |
HH gana en visuales, SD gana en audio. Este escenario se mapea directamente con la ventaja de HH en el ranking; su detalle visual es genuinamente de nivel SOTA aquí.
Escenario 2: Persecución de autos al estilo Hollywood — Densidad de instrucciones
El prompt incluye 7 tipos de planos distintos en 15 segundos: plano general aéreo → seguimiento de suelo en ángulo bajo → POV desde el capó → plano medio en ángulo holandés → ECU ventana trasera → seguimiento lateral gran angular → alejamiento aéreo.
vA5B6knQohI
| Dimensión | SD | HH |
|---|---|---|
| Ejecución de 7 planos | 5/7 planos precisos ✅ | Solo 2-3 planos |
| Física de humo / escombros | Denso y realista ✅ | Tiende a ser ligero |
| Audio de tres capas (motor / neumáticos / asfalto) | Distinto ✅ | Mezclado |
| Error semántico | — | Renderizó un "plano de dron aéreo" como un dron real volando en el encuadre |
SD gana claramente. El "error del dron" de HH es un ejemplo claro de fallo de alineación semántica: conoce la palabra "dron" pero no puede distinguir si se refiere a un movimiento de cámara o a un objeto físico en la escena.
Escenario 3: Consistencia de personaje entre escenas
Referencia: mujer con cabello largo rojo, flequillo recto, camisa blanca, corbata negra. Tarea: caminar de la oficina a casa, manteniendo una apariencia consistente y una transición emocional natural en todo momento.
Algo que vale la pena señalar aquí: usamos R2V (Referencia a Video), no I2V. I2V bloquea por defecto la imagen de referencia como primer fotograma, lo que obliga al video a comenzar desde esa imagen; no se puede probar la consistencia entre escenas de esa manera. La distinción importa más de lo que parece.
CvuxRvUwu8I
| Dimensión | SD | HH |
|---|---|---|
| Consistencia de rasgos faciales / peinado | ✅ | ✅ |
| Continuidad de vestuario | Toma continua única de la oficina a casa (artístico pero abrupto) | Cambio de ropa limpio, chaqueta removida mientras se mantiene la corbata ✅ |
| Fotogramas de transición emocional | Corte de salto de dos tiempos | Ojos cerrándose + sonrisa leve como transición de "dejar el modo trabajo" ✅ |
| Textura visual | Se inclina hacia limpio y pulido | Detalle fino en pecas, pero brillo "plástico IA" notorio |
| Integridad narrativa | 3 escenas + personaje padre incluido ✅ | Enfoque solo en madre-hija |
Empate técnico, dos compensaciones diferentes: SD ofrece una toma continua con ejecución limpia; HH utiliza cortes convencionales con mayor detalle pero artefactos de suavizado de IA notables.
Escenario 4: Diálogo de personajes en Talk Show — Desempeño multimodal ⚡
Este es el escenario con mayor densidad de instrucciones de los seis. Tres marcadores de ritmo explícitos en el prompt (inclinarse hacia adelante / pausa de pensamiento falso / remate de risa compartida) funcionan como puntos de control individuales. El prompt especifica un intercambio de tres rondas al estilo Tonight Show, cerrando con ambos personajes riendo.
X9RDDU1M4Q0
| Dimensión | SD | HH |
|---|---|---|
| Indicador de ritmo: "perro se inclina hacia adelante" | ✅ Ejecutado | ❌ Completamente estático |
| Indicador de ritmo: "pausa de pensamiento del gato" | ✅ Expresión de pensamiento en ECU entregada | ❌ No capturado |
| Plano final de risa compartida | ✅ Corte a risa del gato | ⚠️ Corte al perro (personaje equivocado) |
| Fidelidad al texto | ✅ | ✅ (única dimensión que HH mantuvo) |
| Igualación de voz | ✅ Precisa | ⚠️ Precisa pero mecánica |
| Creatividad extra | ✅ Añadió risas de audiencia de talk show de forma proactiva | — |
| Consistencia de voz | ✅ | ❌ La risa final del gato cambió a una voz masculina |
SD gana de forma integral. El detalle más interesante: SD añadió risas de audiencia que no estaban en el prompt. El contenido de un talk show tiene un formato esperado (pistas de risa en momentos de reacción) y el modelo lo rellenó. Eso no es solo seguir instrucciones; es entender qué se supone que es este tipo de contenido.
HH se mantuvo fiel al texto pero sufrió un fallo grave en el audio: la risa final del gato cambió a una voz masculina. La consistencia del audio a largo plazo es una debilidad real.
Escenario 5: Escena romántica → Inversión premeditada — Edición de video ⚡⚡
Video fuente: un hombre extranjero dice en inglés: "La luna está hermosa esta noche, una lástima que no pueda compartirla contigo". Una mujer china responde en mandarín: "Cualquier lugar se siente como una vista hermosa cuando estoy contigo". Azotea de noche, atmósfera suave.
gi0JJeR9n0M
Prompt de edición: inversión narrativa completa. La expresión del hombre cambia de cálida a fría. Empuja a la mujer del techo sin dudar. A mitad de caída, ella grita en mandarín: "¡Me estuviste mintiendo desde el principio!" (no es miedo, es incredulidad). Él se para en el borde con una sonrisa fría y dice en voz baja: "Esto es lo que le debías a mi familia".
Prueba de 4 capas: inversión de expresión + acción física clave + reemplazo de diálogo bilingüe + cambio de tono visual.
cj9dp6wS7Wo
| Prueba de 4 capas | SD | HH |
|---|---|---|
| Inversión de expresión del hombre | ✅ Cambio de ojos + sonrisa fría | ❌ La expresión se lee como dolor |
| Reacción de la mujer (incredulidad) | ✅ Rabia y gritos a mitad de caída | ❌ Expresión de miedo de libro (opuesto al prompt) |
| Acción de empujar | ✅ Ocurrió (plano de caída aérea) | ❌ Nunca la empujó, la mujer sigue de pie |
| Cambio de tono visual | ✅ | ⚠️ Se mantuvo igual |
| Diálogo bilingüe | ✅ | ✅ (única dimensión que HH mantuvo) |
| Realismo de voz | ✅ | ❌ Calidad IA notoria |
SD ejecuta el escenario completo. HH falla totalmente. HH interpretó todo el prompt como "añade algo de diálogo y conflicto emocional". La estructura narrativa no se movió. Maneja instrucciones de superficie (qué decir) pero no instrucciones a nivel narrativo.
Escenario 6: Fusión de referencia multimodal — Thriller en ascensor ⚡⚡⚡
Entrada: 3 imágenes de referencia (hombre / ascensor / pasillo) + 1 video de referencia (movimiento de cámara + expresión facial). Tarea: fusionar las 4 entradas y producir una secuencia de miedo → zoom de Hitchcock → salir del ascensor → seguimiento de brazo mecánico.
Los modelos usan endpoints diferentes (HH: video-edit; SD: reference-to-video), pero ambos aceptan entradas compuestas de imagen más video. Los nombres son asimétricos; la capacidad es equivalente. Ese es un punto de prueba útil para lo que hace la capa de abstracción de One API.
NDdrQu1Zmlc
| Elemento de evaluación | SD | HH |
|---|---|---|
| Ejecución de movimiento de cámara | ✅ Sólido | ✅ Sólido |
| Cambio de escena (ascensor / pasillo) | ✅ | ✅ |
| Identidad del hombre coincide con img1 | ✅ Ejecutado perfectamente | ❌ No coincide (cara totalmente diferente) |
| Consistencia del personaje | ✅ Estable | ⚠️ Se desvía en la segunda mitad |
SD gana claramente. HH replicó la pose de la imagen de referencia (la mano en la garganta) pero generó una cara totalmente diferente. Copió el gesto, no la identidad. Este es estructuralmente el mismo fallo que en el Escenario 5: la imitación superficial funciona, pero la profundidad semántica no.
Happy Horse vs Seedance: Brecha en la comprensión de instrucciones
Surgió una estructura consistente:
| Nivel de instrucción | HH | SD |
|---|---|---|
| Nivel de superficie (diálogo, pose, parámetros) | ✅ Ejecuta | ✅ Ejecuta |
| Nivel semántico (inversión narrativa, identidad, timing) | ❌ Falla | ✅ Ejecuta |
| Relleno de convención de género | ❌ | ✅ Añade de forma proactiva |
Esto no es una cuestión de qué modelo es "mejor". Operan en diferentes niveles de comprensión. HH es bueno en el detalle superficial y textura visual. SD es más fiable en narrativa, fidelidad de identidad y ejecución de tiempos.
One API: Cambia de modelo cambiando solo un string
El primer problema de ingeniería que encontramos: HH y SD usan SDKs, endpoints y métodos de autenticación diferentes. Adaptar el código cliente por separado sería tedioso.
Por eso, Atlas Cloud colocó tanto a Seedance 2.0 como a Happy Horse 1.0 bajo el mismo pool de modelos y la misma One API. Una clave, un SDK, un string de modelo.
Usando la API
Paso 1: Obtén tu API key desde la consola.


Paso 2: Consulta los documentos de la API para obtener detalles de endpoints y parámetros.
Nota sobre honestidad en el benchmarking
El valor de un white paper de evaluación es que sea honesto. Happy Horse es genuinamente fuerte; el doble primer puesto en Elo no es ruido. Sus fallos te dicen precisamente cuándo elegir la otra opción.
Próximamente:
White Paper completo v1.0 — metodología de cinco dimensiones × tres capas con plantillas y referencias académicas.
Matriz de puntuación completa — 5 dimensiones × 6 escenarios × 2 modelos.
Cadena de herramientas de evaluación — scripts de automatización L1.
Modelos adicionales — Veo, Wan, Kling y otros.
Si estás seleccionando un modelo de video, deja tu caso de uso en los comentarios. Todos los detalles de evaluación se publicaron a través de la One API de Atlas Cloud en una única interfaz.






