Executamos 6 cenários, 12 vídeos e um conjunto compartilhado de prompts para descobrir.
Em 10 de abril, a equipe ATH da Alibaba lançou o Happy Horse 1.0. Em poucos dias, ele conquistou o primeiro lugar no ranking de modelos de vídeo da Artificial Analysis — T2V Elo 1389, I2V Elo 1416, superando o Seedance 2.0 da Bytedance em cerca de 115 pontos no lado de texto para vídeo.
Se você trabalha com conteúdo de vídeo por IA, seleção de produtos ou pesquisa industrial, a pergunta imediata é óbvia: esse ranking se sustenta sob cargas de trabalho reais?
Passamos uma semana investigando. Mesmos prompts, mesmos ativos de referência, mesma estrutura de avaliação — Happy Horse 1.0 e Seedance 2.0 rodaram lado a lado em 6 tipos de cenários, totalizando 12 vídeos. Este artigo aborda três pontos: o que realmente levou o Happy Horse ao topo, a metodologia de avaliação que utilizamos (um white paper completo está por vir) e o que os 6 cenários revelaram que o ranking não mostra.
Ao final, você terá uma visão clara de quando optar pelo HH, quando optar pelo SD e por que realizar esse tipo de comparação através da One API da Atlas Cloud — uma chave, um SDK, uma troca de string de modelo — é a maneira mais prática de realizar a seleção de modelos atualmente.
Por que o Happy Horse 1.0 lidera o ranking Elo
Alguns fatos que valem a pena conhecer antes dos resultados dos testes.
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| Equipe | Alibaba ATH | Bytedance |
| Lançamento | Revelado em 10/04/2026, disponível na Atlas Cloud em 27/04 | Disponibilidade geral |
| Arquitetura | Transformer unificado de 15B (geração conjunta de áudio e vídeo, sem atenção cruzada) | Arquitetura de mistura de especialistas (MoE) |
| Áudio Nativo | ✅ | ✅ |
| Multilíngue | Sincronia labial em 7 idiomas (Mandarim / Cantonês / Inglês / Japonês / Coreano / Alemão / Francês) | Entrada de prompt em 6 idiomas (Chinês / Inglês + Japonês / Indonésio / Espanhol / Português) |
| Velocidade de Geração | ~38s por clipe em 1080p em uma única H100 | — |
| Elo Artificial Analysis | T2V 1389 (1º lugar) / I2V 1416 (1º lugar) | T2V ~1274 |
Três fatores realmente conquistaram o primeiro lugar.
Arquitetura Transformer unificada. Áudio e vídeo são gerados na mesma sequência, não costurados na pós-produção. Sincronia labial, timing do áudio e pontos de corte são modelados simultaneamente. Isso é importante porque a abordagem de pipeline de "gerar vídeo primeiro, adicionar áudio depois" tende a produzir desalinhamentos visíveis — o HH evita isso no nível da arquitetura.
Sincronia labial nativa em 7 idiomas. Mandarim, Cantonês, Japonês, Coreano, Alemão, Francês e Inglês. Essa é a cobertura de sincronia labial multilíngue mais ampla em qualquer modelo de vídeo disponível publicamente hoje, e possui valor real para a produção de conteúdo global.
Teto visual. Observando quadros individuais dos nossos testes, a textura de pele, a estética do quadro único e a gradação de cor cinematográfica do HH estão genuinamente à frente do SD. A Artificial Analysis utiliza avaliação cega por humanos, e avaliadores humanos são altamente sensíveis a "qual parece mais com um filme". Essa é a explicação principal para a diferença no Elo.
Mas o Elo é apenas uma pontuação agregada. Ele diz quem venceu mais comparações diretas — não onde venceram, nem onde falharam. Uma pontuação total esconde a estrutura real subjacente. Esse é o motivo pelo qual construímos uma estrutura de avaliação adequada.
Estrutura de Avaliação de Modelos de Vídeo por IA
Compilamos um White Paper de Avaliação de Modelos de Vídeo por IA completo — aqui está a metodologia central.
O que os benchmarks existentes fazem (e não fazem)
| Sistema | Pontos Fortes | Limitações |
|---|---|---|
| VBench / VBench-2.0 (benchmark acadêmico) | Dimensões granulares (16 + 18 subdimensões), cobre física e senso comum | Configuração complexa, requer GPU para rodar, pouco intuitivo |
| Artificial Analysis Elo (ranking cego) | Reflete preferência subjetiva humana, comparável entre modelos | "Caixa-preta", não aponta fraquezas, pontuação única agregada |
| FVD / CLIP Score (métricas quantitativas) | Objetivo, programável | Correlação limitada com a percepção humana |
| Escolha a dedo de demos (norma da indústria) | Alto impacto visual | Não reprodutível, viés de seleção severo |
O artigo do VBench v2.0, publicado em março de 2026, observou algo direto: mesmo os modelos atuais mais fortes atingem cerca de 50% em plausibilidade física. O padrão ouro ainda está evoluindo. Uma pontuação única de ranking não é base confiável para a seleção de modelos.
Cinco dimensões de avaliação
| Dimensão | Pergunta de Avaliação | Principais Subitens |
|---|---|---|
| Alinhamento Prompt-Vídeo | A saída segue precisamente as instruções? | Sujeito / Ação / Cena / Estilo / Relações Espaciais e de Quantidade |
| Qualidade Visual | Cada quadro individual é excelente? | Resolução / Estética / Renderização / Detalhe |
| Movimento e Física | O movimento obedece às leis físicas? | Naturalidade / Física / Alcance Dinâmico / Precisão de Mov. de Câmera |
| Consistência Temporal | Quadros e planos são coerentes ao longo do tempo? | Identidade do Sujeito / Cena / Oscilação / Consistência de múltiplos planos |
| Capacidades Multimodais | O que o modelo pode fazer além do visual? | Áudio / Sincronia Áudio-Visual / Sincronia Labial / Multilíngue / Estilo |
A dimensão 5 — capacidades multimodais — é onde a diferenciação de modelos está ocorrendo em 2026. É também o principal trunfo do HH.
Método de três camadas
| Camada | Caso de Uso | Ferramentas |
|---|---|---|
| L1 Métricas Objetivas | Triagem em larga escala, CI/CD | FVD / CLIP-Score / LAION Aesthetic / DINO / Fluxo Óptico / SyncNet / MLLM-as-Judge |
| L2 Conjunto de Tarefas Padrão | Avaliação de tutoriais, comparação de produtos, publicação | Suíte de prompts VBench / Atlas Cloud Prompt Hub / Prompts customizados |
| L3 Revisão Subjetiva Cega | Decisões finais, lançamento público | Elo duplo-cego + cartão de pontuação de cinco dimensões |
Vários artigos de 2025–2026 confirmam que o MLLM-as-Judge (usando Claude ou GPT-4V como avaliadores) correlaciona-se significativamente mais com pontuações humanas do que apenas métricas quantitativas puras. Essa é a espinha dorsal da nossa camada L1.
Níveis de seleção de prompts
A maior fonte de controvérsia em benchmarks comparativos não são as métricas, mas os prompts. Nosso padrão mínimo e estrutura de níveis:
| Nível | Definição | Quando usar |
|---|---|---|
| A (padrão) | Prompt neutro para o modelo, focado na dimensão — um prompt em ambos | Padrão de avaliação primário |
| B (evitar) | Mesmo tema, mas cada modelo usa seu próprio prompt do Hub | Não usado para pontuação — apenas vitrines |
Por que uma única pontuação engana
Modelos de vídeo em 2026 não são apenas "texto para vídeo". Um modelo pode suportar T2V, I2V, Referência-para-Vídeo, Edição de Vídeo, áudio nativo e sincronia labial multilíngue simultaneamente — e ter desempenhos muito diferentes nesses modos. O Elo colapsa tudo isso em um número. Nossa estrutura marca cada avaliação com sua modalidade e gera uma matriz de capacidades, não um ranking.
O white paper completo incluirá um modelo de cartão de pontuação, SOP de execução, recomendações de ferramentas e referências acadêmicas completas. Os resultados dos testes abaixo foram produzidos sob essa estrutura.
6 Cenários: Onde o 1º lugar do Ranking perde
Selecionamos 6 tipos de cenários do Prompt Hub da Atlas Cloud — cobrindo todas as cinco dimensões de avaliação com cobertura modal equilibrada. Parâmetros unificados em todas as execuções: 1080p / 16:9 / seed 42 / duração dimensionada conforme a complexidade do cenário (5–15 segundos).
Cenário 1: Exploração de Caverna — Qualidade Visual + Áudio Ambiente
Prompt: exploração com lanterna em uma caverna de calcário, iluminando paredes de rocha molhada e reflexos de cristal, feixe atravessando águas rasas criando padrões de luz cáustica, estalactites projetando longas sombras que se movem com a fonte de luz. Áudio ambiente: gotejamento de água, passos em rocha molhada, respiração em espaço fechado.
| Dimensão | SD | HH |
|---|---|---|
| Física da luz cáustica | ✅ | ✅ |
| Destaques da rocha / textura mineral | Tende ao excesso de polimento | Mais realista ✅ (anatomia da estalactite vence) |
| Áudio ambiente | Gotejamento / passos / respiração — três camadas distintas ✅ | Qualidade "IA" perceptível, camadas misturadas |
HH vence no visual, SD vence no áudio. Este cenário mapeia diretamente a vantagem do HH no ranking — seu detalhe visual é genuinamente de ponta.
Cenário 2: Perseguição de Carro Estilo Hollywood — Densidade de Instrução
O prompt contém 7 tipos de planos distintos em 15 segundos: plano amplo aéreo → tracking terrestre em ângulo baixo → POV do capô → plano médio em ângulo holandês → ECU da janela traseira → tracking lateral grande angular → afastamento aéreo.
| Dimensão | SD | HH |
|---|---|---|
| Execução de 7 planos | 5/7 planos precisos ✅ | Apenas 2–3 planos |
| Física de fumaça / detritos | Denso e realista ✅ | Tende ao leve |
| Áudio de três camadas (motor / pneus / estrada) | Distintos ✅ | Misturados |
| Erro semântico | — | Renderizou um "plano de drone aéreo" como um drone real voando na cena |
SD vence claramente. O "erro de drone" do HH é um exemplo claro de falha de alinhamento semântico — ele conhece a palavra "drone", mas não consegue distinguir se refere-se a um movimento de câmera ou a um objeto físico na cena.
Cenário 3: Consistência de Personagem entre Cenas
Referência: uma mulher com cabelos ruivos longos, franja, camisa branca, gravata preta. Tarefa: caminhar do escritório para casa, mantendo aparência consistente e transição emocional natural.
Um ponto importante: usamos R2V (Referência-para-Vídeo), não I2V. O I2V força o travamento da imagem de referência como primeiro quadro, impedindo o teste de consistência entre cenas.
| Dimensão | SD | HH |
|---|---|---|
| Consistência de traços faciais / cabelo | ✅ | ✅ |
| Continuidade de figurino | Take contínuo do escritório para casa (artístico mas abrupto) | Troca de roupa limpa, jaqueta removida e gravata mantida ✅ |
| Quadros de transição emocional | Corte seco de dois tempos | Olhos fechando + leve sorriso como transição "deixando o trabalho" ✅ |
| Textura visual | Tende ao limpo e polido | Detalhe de sardas, mas brilho "plástico de IA" perceptível |
| Completude narrativa | 3 cenas + personagem pai incluído ✅ | Foco apenas em mãe e filha |
Um empate técnico com trocas diferentes: o SD entrega um take contínuo com execução limpa; o HH usa cortes convencionais com detalhes mais finos, mas artefatos perceptíveis de suavização por IA.
Cenário 4: Diálogo de Dois Personagens em Talk Show — Performance Multimodal ⚡
Este é o cenário de maior densidade de instruções dos seis. Três marcadores de ritmo explícitos no prompt (inclinar para frente / pausa de "pensar" / risada compartilhada) funcionam como pontos de checagem.
| Dimensão | SD | HH |
|---|---|---|
| Ritmo: "cão inclina-se para frente" | ✅ Executado | ❌ Totalmente estático |
| Ritmo: "gato pausa de reflexão" | ✅ ECU de expressão de pensamento entregue | ❌ Não capturado |
| Plano final de risada compartilhada | ✅ Corte para a risada do gato | ⚠️ Corte para o cão (personagem errado) |
| Fidelidade ao texto | ✅ | ✅ |
| Correspondência de voz | ✅ Precisa | ⚠️ Precisa, mas mecânica |
| Criatividade bônus | ✅ Adicionou risadas de plateia proativamente | — |
SD vence de forma abrangente. O detalhe mais interessante: o SD adicionou risadas de plateia que não estavam no prompt. O conteúdo de talk show possui um formato esperado — uma trilha de risadas em reações — e o modelo preencheu isso. Isso não é apenas seguir instruções; é entender o que esse conteúdo deve ser.
O HH permaneceu fiel ao texto, mas teve uma falha grave no áudio: a risada final do gato mudou para uma voz masculina no meio do clipe. Consistência de áudio de longo alcance é uma fraqueza real.
Cenário 5: Cena Romântica → Reversão Premeditada — Edição de Vídeo ⚡⚡
Vídeo fonte: um homem estrangeiro diz em inglês: "A lua está linda esta noite, é uma pena que não possa compartilhar com você", uma mulher chinesa responde em mandarim: "Qualquer lugar parece uma bela vista quando estou com você." Terraço à noite.
Prompt de edição: reversão narrativa completa. A expressão do homem muda de calorosa para fria. Ele empurra a mulher do telhado. No meio da queda, ela grita em mandarim: "Você estava mentindo para mim desde o início!" — não medo, descrença. Ele fica na borda com um sorriso frio e diz baixinho em inglês: "Isso é o que você devia à minha família."
| Teste de 4 Camadas | SD | HH |
|---|---|---|
| Reversão da expressão do homem | ✅ Olhar + sorriso frio | ❌ Expressão de luto |
| Reação da mulher: descrença, não medo | ✅ Raiva no meio da queda e gritos | ❌ Expressão de medo (oposto ao prompt) |
| Ação de empurrar do telhado | ✅ Aconteceu (plano de queda aéreo) | ❌ Nunca empurrou — mulher continua em pé |
| Geração de diálogo bilíngue | ✅ | ✅ |
SD executa o cenário completo. O HH falha completamente. Ele tratou o prompt como "adicione algum diálogo e conflito emocional", sem mover a estrutura narrativa.
One API: Troque modelos alterando uma string
O primeiro problema de engenharia que encontramos ao rodar esta avaliação: HH e SD usam SDKs diferentes, endpoints diferentes, métodos de autenticação diferentes. Apenas adaptar o código do cliente levaria três implementações separadas.
É por isso que a Atlas Cloud colocou tanto o Seedance 2.0 quanto o Happy Horse 1.0 atrás do mesmo pool de modelos e da mesma One API. Uma chave, um SDK, uma string de modelo.
Usando a API
Passo 1: Obtenha sua chave de API no console.
Passo 2: Verifique a documentação da API para detalhes de endpoint, parâmetros de solicitação e autenticação.
Uma nota sobre honestidade em Benchmarking
Antes de escrever isto, tivemos uma hesitação real: publicar conclusões como "o HH renderizou a cena de empurrar de um prédio como uma conversa" — seria injusto?
O valor de um white paper de avaliação é justamente ser honesto. O Happy Horse é genuinamente forte. O duplo primeiro lugar no Elo não é ruído. Seus cenários de falha dizem exatamente quando escolher a outra opção — o que é o objetivo de um benchmark comparativo.
O que vem a seguir:
White Paper Completo v1.0 — a metodologia completa de cinco dimensões × três camadas com modelos de cartões de pontuação, SOP de execução e referências acadêmicas completas.
Matriz de pontuação completa — 5 dimensões × 6 cenários × 2 modelos, 60 células pontuadas individualmente.
Cadeia de ferramentas de avaliação — scripts de automação L1, incluindo uma implementação MLLM-as-Judge.
Modelos adicionais — Veo, Wan, Kling e outros adicionados à matriz de comparação.
Se você está realizando seleção de modelos de vídeo, deixe seu caso de uso nos comentários. O white paper v1.0 incluirá as dimensões de comparação que os leitores mais solicitaram.
Todas as amostras de avaliação, prompts originais, quadros extraídos e detalhes de pontuação serão publicados junto com o white paper. A avaliação completa foi realizada através da Atlas Cloud One API em uma única interface.






