Classificado em 1º lugar no ranking da Artificial Analysis: o Happy Horse 1.0 supera mesmo o Seedance 2.0?

Executamos 6 cenários, 12 vídeos e um conjunto compartilhado de prompts para descobrir.

Em 10 de abril, a equipe ATH da Alibaba lançou o Happy Horse 1.0. Em poucos dias, ele conquistou o primeiro lugar no ranking de modelos de vídeo da Artificial Analysis — T2V Elo 1389, I2V Elo 1416, superando o Seedance 2.0 da Bytedance em cerca de 115 pontos no lado de texto para vídeo.

Se você trabalha com conteúdo de vídeo por IA, seleção de produtos ou pesquisa industrial, a pergunta imediata é óbvia: esse ranking se sustenta sob cargas de trabalho reais?

Passamos uma semana investigando. Mesmos prompts, mesmos ativos de referência, mesma estrutura de avaliação — Happy Horse 1.0 e Seedance 2.0 rodaram lado a lado em 6 tipos de cenários, totalizando 12 vídeos. Este artigo aborda três pontos: o que realmente levou o Happy Horse ao topo, a metodologia de avaliação que utilizamos (um white paper completo está por vir) e o que os 6 cenários revelaram que o ranking não mostra.

Ao final, você terá uma visão clara de quando optar pelo HH, quando optar pelo SD e por que realizar esse tipo de comparação através da One API da Atlas Cloud — uma chave, um SDK, uma troca de string de modelo — é a maneira mais prática de realizar a seleção de modelos atualmente.

Por que o Happy Horse 1.0 lidera o ranking Elo

Alguns fatos que valem a pena conhecer antes dos resultados dos testes.

	Happy Horse 1.0	Seedance 2.0
Equipe	Alibaba ATH	Bytedance
Lançamento	Revelado em 10/04/2026, disponível na Atlas Cloud em 27/04	Disponibilidade geral
Arquitetura	Transformer unificado de 15B (geração conjunta de áudio e vídeo, sem atenção cruzada)	Arquitetura de mistura de especialistas (MoE)
Áudio Nativo	✅	✅
Multilíngue	Sincronia labial em 7 idiomas (Mandarim / Cantonês / Inglês / Japonês / Coreano / Alemão / Francês)	Entrada de prompt em 6 idiomas (Chinês / Inglês + Japonês / Indonésio / Espanhol / Português)
Velocidade de Geração	~38s por clipe em 1080p em uma única H100	—
Elo Artificial Analysis	T2V 1389 (1º lugar) / I2V 1416 (1º lugar)	T2V ~1274

Três fatores realmente conquistaram o primeiro lugar.

Arquitetura Transformer unificada. Áudio e vídeo são gerados na mesma sequência, não costurados na pós-produção. Sincronia labial, timing do áudio e pontos de corte são modelados simultaneamente. Isso é importante porque a abordagem de pipeline de "gerar vídeo primeiro, adicionar áudio depois" tende a produzir desalinhamentos visíveis — o HH evita isso no nível da arquitetura.

Sincronia labial nativa em 7 idiomas. Mandarim, Cantonês, Japonês, Coreano, Alemão, Francês e Inglês. Essa é a cobertura de sincronia labial multilíngue mais ampla em qualquer modelo de vídeo disponível publicamente hoje, e possui valor real para a produção de conteúdo global.

Teto visual. Observando quadros individuais dos nossos testes, a textura de pele, a estética do quadro único e a gradação de cor cinematográfica do HH estão genuinamente à frente do SD. A Artificial Analysis utiliza avaliação cega por humanos, e avaliadores humanos são altamente sensíveis a "qual parece mais com um filme". Essa é a explicação principal para a diferença no Elo.

Mas o Elo é apenas uma pontuação agregada. Ele diz quem venceu mais comparações diretas — não onde venceram, nem onde falharam. Uma pontuação total esconde a estrutura real subjacente. Esse é o motivo pelo qual construímos uma estrutura de avaliação adequada.

Estrutura de Avaliação de Modelos de Vídeo por IA

Compilamos um White Paper de Avaliação de Modelos de Vídeo por IA completo — aqui está a metodologia central.

O que os benchmarks existentes fazem (e não fazem)

Sistema	Pontos Fortes	Limitações
VBench / VBench-2.0 (benchmark acadêmico)	Dimensões granulares (16 + 18 subdimensões), cobre física e senso comum	Configuração complexa, requer GPU para rodar, pouco intuitivo
Artificial Analysis Elo (ranking cego)	Reflete preferência subjetiva humana, comparável entre modelos	"Caixa-preta", não aponta fraquezas, pontuação única agregada
FVD / CLIP Score (métricas quantitativas)	Objetivo, programável	Correlação limitada com a percepção humana
Escolha a dedo de demos (norma da indústria)	Alto impacto visual	Não reprodutível, viés de seleção severo

O artigo do VBench v2.0, publicado em março de 2026, observou algo direto: mesmo os modelos atuais mais fortes atingem cerca de 50% em plausibilidade física. O padrão ouro ainda está evoluindo. Uma pontuação única de ranking não é base confiável para a seleção de modelos.

Cinco dimensões de avaliação

Dimensão	Pergunta de Avaliação	Principais Subitens
Alinhamento Prompt-Vídeo	A saída segue precisamente as instruções?	Sujeito / Ação / Cena / Estilo / Relações Espaciais e de Quantidade
Qualidade Visual	Cada quadro individual é excelente?	Resolução / Estética / Renderização / Detalhe
Movimento e Física	O movimento obedece às leis físicas?	Naturalidade / Física / Alcance Dinâmico / Precisão de Mov. de Câmera
Consistência Temporal	Quadros e planos são coerentes ao longo do tempo?	Identidade do Sujeito / Cena / Oscilação / Consistência de múltiplos planos
Capacidades Multimodais	O que o modelo pode fazer além do visual?	Áudio / Sincronia Áudio-Visual / Sincronia Labial / Multilíngue / Estilo

A dimensão 5 — capacidades multimodais — é onde a diferenciação de modelos está ocorrendo em 2026. É também o principal trunfo do HH.

Método de três camadas

Camada	Caso de Uso	Ferramentas
L1 Métricas Objetivas	Triagem em larga escala, CI/CD	FVD / CLIP-Score / LAION Aesthetic / DINO / Fluxo Óptico / SyncNet / MLLM-as-Judge
L2 Conjunto de Tarefas Padrão	Avaliação de tutoriais, comparação de produtos, publicação	Suíte de prompts VBench / Atlas Cloud Prompt Hub / Prompts customizados
L3 Revisão Subjetiva Cega	Decisões finais, lançamento público	Elo duplo-cego + cartão de pontuação de cinco dimensões

Vários artigos de 2025–2026 confirmam que o MLLM-as-Judge (usando Claude ou GPT-4V como avaliadores) correlaciona-se significativamente mais com pontuações humanas do que apenas métricas quantitativas puras. Essa é a espinha dorsal da nossa camada L1.

Níveis de seleção de prompts

A maior fonte de controvérsia em benchmarks comparativos não são as métricas, mas os prompts. Nosso padrão mínimo e estrutura de níveis:

Nível	Definição	Quando usar
A (padrão)	Prompt neutro para o modelo, focado na dimensão — um prompt em ambos	Padrão de avaliação primário
B (evitar)	Mesmo tema, mas cada modelo usa seu próprio prompt do Hub	Não usado para pontuação — apenas vitrines

Por que uma única pontuação engana

Modelos de vídeo em 2026 não são apenas "texto para vídeo". Um modelo pode suportar T2V, I2V, Referência-para-Vídeo, Edição de Vídeo, áudio nativo e sincronia labial multilíngue simultaneamente — e ter desempenhos muito diferentes nesses modos. O Elo colapsa tudo isso em um número. Nossa estrutura marca cada avaliação com sua modalidade e gera uma matriz de capacidades, não um ranking.

O white paper completo incluirá um modelo de cartão de pontuação, SOP de execução, recomendações de ferramentas e referências acadêmicas completas. Os resultados dos testes abaixo foram produzidos sob essa estrutura.

6 Cenários: Onde o 1º lugar do Ranking perde

Selecionamos 6 tipos de cenários do Prompt Hub da Atlas Cloud — cobrindo todas as cinco dimensões de avaliação com cobertura modal equilibrada. Parâmetros unificados em todas as execuções: 1080p / 16:9 / seed 42 / duração dimensionada conforme a complexidade do cenário (5–15 segundos).

Cenário 1: Exploração de Caverna — Qualidade Visual + Áudio Ambiente

Prompt: exploração com lanterna em uma caverna de calcário, iluminando paredes de rocha molhada e reflexos de cristal, feixe atravessando águas rasas criando padrões de luz cáustica, estalactites projetando longas sombras que se movem com a fonte de luz. Áudio ambiente: gotejamento de água, passos em rocha molhada, respiração em espaço fechado.

Dimensão	SD	HH
Física da luz cáustica	✅	✅
Destaques da rocha / textura mineral	Tende ao excesso de polimento	Mais realista ✅ (anatomia da estalactite vence)
Áudio ambiente	Gotejamento / passos / respiração — três camadas distintas ✅	Qualidade "IA" perceptível, camadas misturadas

HH vence no visual, SD vence no áudio. Este cenário mapeia diretamente a vantagem do HH no ranking — seu detalhe visual é genuinamente de ponta.

Cenário 2: Perseguição de Carro Estilo Hollywood — Densidade de Instrução

O prompt contém 7 tipos de planos distintos em 15 segundos: plano amplo aéreo → tracking terrestre em ângulo baixo → POV do capô → plano médio em ângulo holandês → ECU da janela traseira → tracking lateral grande angular → afastamento aéreo.

Dimensão	SD	HH
Execução de 7 planos	5/7 planos precisos ✅	Apenas 2–3 planos
Física de fumaça / detritos	Denso e realista ✅	Tende ao leve
Áudio de três camadas (motor / pneus / estrada)	Distintos ✅	Misturados
Erro semântico	—	Renderizou um "plano de drone aéreo" como um drone real voando na cena

SD vence claramente. O "erro de drone" do HH é um exemplo claro de falha de alinhamento semântico — ele conhece a palavra "drone", mas não consegue distinguir se refere-se a um movimento de câmera ou a um objeto físico na cena.

Cenário 3: Consistência de Personagem entre Cenas

Referência: uma mulher com cabelos ruivos longos, franja, camisa branca, gravata preta. Tarefa: caminhar do escritório para casa, mantendo aparência consistente e transição emocional natural.

Um ponto importante: usamos R2V (Referência-para-Vídeo), não I2V. O I2V força o travamento da imagem de referência como primeiro quadro, impedindo o teste de consistência entre cenas.

Dimensão	SD	HH
Consistência de traços faciais / cabelo	✅	✅
Continuidade de figurino	Take contínuo do escritório para casa (artístico mas abrupto)	Troca de roupa limpa, jaqueta removida e gravata mantida ✅
Quadros de transição emocional	Corte seco de dois tempos	Olhos fechando + leve sorriso como transição "deixando o trabalho" ✅
Textura visual	Tende ao limpo e polido	Detalhe de sardas, mas brilho "plástico de IA" perceptível
Completude narrativa	3 cenas + personagem pai incluído ✅	Foco apenas em mãe e filha

Um empate técnico com trocas diferentes: o SD entrega um take contínuo com execução limpa; o HH usa cortes convencionais com detalhes mais finos, mas artefatos perceptíveis de suavização por IA.

Cenário 4: Diálogo de Dois Personagens em Talk Show — Performance Multimodal ⚡

Este é o cenário de maior densidade de instruções dos seis. Três marcadores de ritmo explícitos no prompt (inclinar para frente / pausa de "pensar" / risada compartilhada) funcionam como pontos de checagem.

Dimensão	SD	HH
Ritmo: "cão inclina-se para frente"	✅ Executado	❌ Totalmente estático
Ritmo: "gato pausa de reflexão"	✅ ECU de expressão de pensamento entregue	❌ Não capturado
Plano final de risada compartilhada	✅ Corte para a risada do gato	⚠️ Corte para o cão (personagem errado)
Fidelidade ao texto	✅	✅
Correspondência de voz	✅ Precisa	⚠️ Precisa, mas mecânica
Criatividade bônus	✅ Adicionou risadas de plateia proativamente	—

SD vence de forma abrangente. O detalhe mais interessante: o SD adicionou risadas de plateia que não estavam no prompt. O conteúdo de talk show possui um formato esperado — uma trilha de risadas em reações — e o modelo preencheu isso. Isso não é apenas seguir instruções; é entender o que esse conteúdo deve ser.

O HH permaneceu fiel ao texto, mas teve uma falha grave no áudio: a risada final do gato mudou para uma voz masculina no meio do clipe. Consistência de áudio de longo alcance é uma fraqueza real.

Cenário 5: Cena Romântica → Reversão Premeditada — Edição de Vídeo ⚡⚡

Vídeo fonte: um homem estrangeiro diz em inglês: "A lua está linda esta noite, é uma pena que não possa compartilhar com você", uma mulher chinesa responde em mandarim: "Qualquer lugar parece uma bela vista quando estou com você." Terraço à noite.

Prompt de edição: reversão narrativa completa. A expressão do homem muda de calorosa para fria. Ele empurra a mulher do telhado. No meio da queda, ela grita em mandarim: "Você estava mentindo para mim desde o início!" — não medo, descrença. Ele fica na borda com um sorriso frio e diz baixinho em inglês: "Isso é o que você devia à minha família."

Teste de 4 Camadas	SD	HH
Reversão da expressão do homem	✅ Olhar + sorriso frio	❌ Expressão de luto
Reação da mulher: descrença, não medo	✅ Raiva no meio da queda e gritos	❌ Expressão de medo (oposto ao prompt)
Ação de empurrar do telhado	✅ Aconteceu (plano de queda aéreo)	❌ Nunca empurrou — mulher continua em pé
Geração de diálogo bilíngue	✅	✅

SD executa o cenário completo. O HH falha completamente. Ele tratou o prompt como "adicione algum diálogo e conflito emocional", sem mover a estrutura narrativa.

One API: Troque modelos alterando uma string

O primeiro problema de engenharia que encontramos ao rodar esta avaliação: HH e SD usam SDKs diferentes, endpoints diferentes, métodos de autenticação diferentes. Apenas adaptar o código do cliente levaria três implementações separadas.

É por isso que a Atlas Cloud colocou tanto o Seedance 2.0 quanto o Happy Horse 1.0 atrás do mesmo pool de modelos e da mesma One API. Uma chave, um SDK, uma string de modelo.

Usando a API

Passo 1: Obtenha sua chave de API no console.

Passo 2: Verifique a documentação da API para detalhes de endpoint, parâmetros de solicitação e autenticação.

Uma nota sobre honestidade em Benchmarking

Antes de escrever isto, tivemos uma hesitação real: publicar conclusões como "o HH renderizou a cena de empurrar de um prédio como uma conversa" — seria injusto?

O valor de um white paper de avaliação é justamente ser honesto. O Happy Horse é genuinamente forte. O duplo primeiro lugar no Elo não é ruído. Seus cenários de falha dizem exatamente quando escolher a outra opção — o que é o objetivo de um benchmark comparativo.

O que vem a seguir:

White Paper Completo v1.0 — a metodologia completa de cinco dimensões × três camadas com modelos de cartões de pontuação, SOP de execução e referências acadêmicas completas.

Matriz de pontuação completa — 5 dimensões × 6 cenários × 2 modelos, 60 células pontuadas individualmente.

Cadeia de ferramentas de avaliação — scripts de automação L1, incluindo uma implementação MLLM-as-Judge.

Modelos adicionais — Veo, Wan, Kling e outros adicionados à matriz de comparação.

Se você está realizando seleção de modelos de vídeo, deixe seu caso de uso nos comentários. O white paper v1.0 incluirá as dimensões de comparação que os leitores mais solicitaram.

Todas as amostras de avaliação, prompts originais, quadros extraídos e detalhes de pontuação serão publicados junto com o white paper. A avaliação completa foi realizada através da Atlas Cloud One API em uma única interface.

VOLTAR À LISTA