저희는 6개의 시나리오와 12개의 영상, 그리고 하나의 공통 프롬프트 세트를 사용하여 이를 확인해 보았습니다.
4월 10일, Alibaba의 ATH 팀은 Happy Horse 1.0을 출시했습니다. 며칠 만에 이 모델은 Artificial Analysis의 비디오 모델 순위표에서 T2V Elo 1389점, I2V Elo 1416점을 기록하며 1위에 올랐으며, 텍스트-비디오 부문에서 Bytedance의 Seedance 2.0을 약 115점 차이로 앞질렀습니다.
AI 비디오 콘텐츠 제작, 제품 선정, 또는 업계 연구에 종사하는 분이라면 당연히 이런 의문이 드실 겁니다. "이 순위가 실제 작업 현장에서도 유효할까?"
저희는 이를 확인하기 위해 일주일을 투자했습니다. 동일한 프롬프트, 동일한 참조 에셋, 동일한 평가 프레임워크를 사용하여 Happy Horse 1.0과 Seedance 2.0을 6가지 시나리오 유형에서 총 12개의 영상으로 나란히 테스트했습니다. 이 글에서는 Happy Horse가 1위에 오를 수 있었던 이유, 저희가 사용한 평가 방법론(전체 백서는 곧 공개될 예정입니다), 그리고 리더보드에는 나타나지 않는 6가지 시나리오의 테스트 결과를 다룹니다.
이 글을 다 읽으실 때쯤이면 언제 Happy Horse를 선택하고 언제 Seedance를 선택해야 하는지, 그리고 왜 Atlas Cloud의 One API(단일 키, 단일 SDK, 모델 문자열 교체만으로 작동)를 통해 이러한 비교를 수행하는 것이 현재 가장 실용적인 모델 선정 방식인지 명확히 이해하시게 될 것입니다.
Happy Horse 1.0이 Elo 리더보드에서 1위를 차지한 이유
테스트 결과에 앞서 알아두어야 할 몇 가지 사실입니다.
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| 팀 | Alibaba ATH | Bytedance |
| 출시 | 2026/04/10 공개, 4/27 Atlas Cloud 적용 | 일반 공개 |
| 아키텍처 | 15B 통합 트랜스포머 (오디오-비디오 동시 생성, 교차 어텐션 없음) | Mixture-of-experts 아키텍처 |
| 네이티브 오디오 | ✅ | ✅ |
| 다국어 지원 | 7개 언어 립싱크 (북경어/광둥어/영어/일본어/한국어/독일어/프랑스어) | 6개 언어 프롬프트 입력 (중국어/영어 + 일본어/인도네시아어/스페인어/포르투갈어) |
| 생성 속도 | H100 1개 기준 1080p 영상당 약 38초 | — |
| Artificial Analysis Elo | T2V 1389 (1위) / I2V 1416 (1위) | T2V ~1274 |
다음 세 가지 요소가 1위 등극을 이끌었습니다.
통합 트랜스포머 아키텍처. 오디오와 비디오가 포스트 프로덕션 과정에서 합쳐지는 것이 아니라 동일한 시퀀스 내에서 생성됩니다. 립싱크, 오디오 타이밍, 편집 지점이 동시에 모델링됩니다. 이는 "비디오를 먼저 생성하고 오디오를 나중에 추가하는" 방식에서 흔히 발생하는 시각적 불일치를 아키텍처 수준에서 방지합니다.
7개 언어 네이티브 립싱크. 북경어, 광둥어, 일본어, 한국어, 독일어, 프랑스어, 영어를 지원합니다. 이는 현재 공개된 비디오 모델 중 가장 폭넓은 다국어 립싱크 커버리지이며, 글로벌 콘텐츠 제작에 실질적인 가치를 제공합니다.
시각적 완성도. 테스트 결과 개별 프레임을 살펴보면 Happy Horse의 피부 질감, 단일 프레임의 미학, 영화 같은 색감 보정은 Seedance보다 확실히 앞섭니다. Artificial Analysis는 인간의 블라인드 평가를 사용하는데, 평가자들은 "어떤 것이 더 영화 같은가"에 매우 민감하게 반응합니다. 이것이 Elo 점수 차이의 주된 원인입니다.
그러나 Elo는 단일 합산 점수일 뿐입니다. 어떤 모델이 더 많은 대결에서 승리했는지는 알려주지만, 어디서 이겼고 어디서 졌는지는 보여주지 않습니다. 전체 점수는 그 이면의 실제 구조를 숨깁니다. 이것이 바로 저희가 적절한 평가 프레임워크를 구축한 이유입니다.
AI 비디오 모델 평가 프레임워크
저희는 전체 AI 비디오 모델 평가 백서를 작성했으며, 핵심 방법론은 다음과 같습니다.
기존 벤치마크의 한계
| 시스템 | 강점 | 한계 |
|---|---|---|
| VBench / VBench-2.0 (학술적 벤치마크) | 세분화된 차원(16+18개 하위 차원), 물리적/상식적 요소 포함 | 복잡한 설정, GPU 실행 필요, 직관적이지 않음 |
| Artificial Analysis Elo (블라인드 랭킹) | 주관적인 인간 선호도 반영, 모델 간 비교 가능 | 블랙박스, 약점 파악 불가, 단일 합산 점수 |
| FVD / CLIP Score (정량적 지표) | 객관적, 스크립트 작성 가능 | 인간의 인식과 낮은 상관관계 |
| 데모 시연 (업계 관행) | 높은 시각적 효과 | 재현 불가, 심각한 선택 편향 |
2026년 3월 발표된 VBench v2.0 백서는 현재 가장 강력한 모델들도 물리적 타당성 면에서는 50% 정도의 점수만 기록한다는 냉정한 사실을 지적했습니다. 업계 표준은 아직 발전 중입니다. 단일 리더보드 점수는 모델 선정의 신뢰할 만한 근거가 될 수 없습니다.
5가지 평가 차원
| 차원 | 평가 질문 | 주요 항목 |
|---|---|---|
| 프롬프트-비디오 정렬 | 출력이 지침을 정확히 따르는가? | 피사체 / 동작 / 장면 / 스타일 / 수량 및 공간 관계 |
| 시각적 품질 | 개별 프레임이 뛰어난가? | 해상도 / 미학 / 렌더링 / 세부 묘사 |
| 모션 및 물리 | 동작이 물리 법칙을 따르는가? | 자연스러움 / 물리 / 동적 범위 / 카메라 움직임 정확도 |
| 시간적 일관성 | 프레임과 샷이 시간 흐름에 따라 일관된가? | 피사체 정체성 / 장면 / 깜빡임 / 다중 샷 일관성 |
| 멀티모달 역량 | 비디오 외에 무엇을 할 수 있는가? | 오디오 / 시청각 동기화 / 립싱크 / 다국어 / 스타일 제어 |
5번 차원(멀티모달 역량)은 2026년 모델 간 차별화가 이루어지는 지점이며, Happy Horse가 가장 큰 강점을 보이는 분야입니다.
3단계 평가 방식
| 단계 | 사용 사례 | 도구 |
|---|---|---|
| L1 객관적 지표 | 대규모 스크리닝, CI/CD | FVD / CLIP-Score / LAION Aesthetic / DINO / Optical Flow / SyncNet / MLLM-as-Judge |
| L2 표준화 작업 세트 | 튜토리얼 평가, 제품 비교, 백서 발행 | VBench 프롬프트 세트 / Atlas Cloud Prompt Hub / 맞춤형 프롬프트 |
| L3 주관적 블라인드 리뷰 | 최종 결정, 공개 발표 | 더블 블라인드 Elo + 5차원 평가 카드 |
2025~2026년의 여러 논문은 MLLM-as-Judge(Claude 또는 GPT-4V를 평가자로 활용)가 단순 정량 지표보다 인간의 점수와 훨씬 높은 상관관계를 보임을 확인했습니다. 이것이 저희 L1 레이어의 근간입니다.
프롬프트 선택 기준
비교 벤치마크에서 가장 논란이 많은 부분은 지표가 아니라 프롬프트입니다. 저희의 등급 체계는 다음과 같습니다.
| 등급 | 정의 | 권장 상황 |
|---|---|---|
| A (기본) | 모델 중립적, 특정 차원 목표 프롬프트 — 동일 프롬프트로 양쪽 모델 테스트 | 기본 평가 기준 |
| B (지양) | 같은 주제, 각 모델별 자체 허브 프롬프트 사용 | 점수 산정 제외 — 쇼케이스 영상 전용 |
단일 점수가 오해를 불러일으키는 이유
2026년의 비디오 모델은 단순히 "텍스트-비디오" 모델이 아닙니다. T2V, I2V, 참조-비디오, 비디오 편집, 네이티브 오디오, 다국어 립싱크 등을 동시에 지원하며 모드별로 성능 차이가 큽니다. Elo 점수는 이를 하나로 뭉뚱그립니다. 저희 프레임워크는 모든 평가에 모달리티를 태그하고 순위가 아닌 '역량 행렬'을 출력합니다.
전체 백서에는 평가 카드 템플릿, 실행 SOP, 도구 체인 추천, 학술적 참조 자료가 포함될 예정입니다. 아래 테스트 결과는 이 프레임워크에 따라 작성되었습니다.
6가지 시나리오: 리더보드 1위 모델이 실패하는 지점
Atlas Cloud의 Prompt Hub에서 5가지 평가 차원을 모두 충족하는 6가지 시나리오를 선정했습니다. 모든 실행에서 파라미터는 동일하게 설정했습니다(1080p / 16:9 / 시드 42 / 시나리오 복잡도에 따라 5~15초 조정).
시나리오 1: 동굴 탐험 — 시각적 품질 + 주변 오디오
프롬프트: 손전등으로 석회암 동굴을 비추며 젖은 암벽과 결정체의 반사를 관찰. 얕은 물을 통과하는 빛이 산란 패턴을 만들고, 종유석은 빛의 각도에 따라 움직이는 긴 그림자를 생성. 주변 오디오: 물방울 소리, 젖은 바위 위 발자국 소리, 좁은 공간에서의 숨소리.
| 차원 | SD | HH |
|---|---|---|
| 빛의 산란 물리 | ✅ | ✅ |
| 젖은 암벽 하이라이트 / 질감 | 과하게 매끄러운 경향 | 더 현실적 ✅ (종유석 해부학적 세부 묘사 승리) |
| 주변 오디오 | 물방울/발자국/숨소리 레이어 분리 우수 ✅ | 눈에 띄는 "AI 품질", 레이어가 섞여 들림 |
시각적 측면은 HH가, 오디오 측면은 SD가 승리했습니다. 이 시나리오는 HH가 리더보드에서 우위를 점한 이유(SOTA 수준의 시각적 세부 묘사)를 직접적으로 보여줍니다.
시나리오 2: 할리우드 카 체이스 — 지침 밀도
프롬프트는 15초 안에 7가지 샷 유형을 요구합니다: 공중 와이드 샷 → 로우 앵글 추적 → 후드 POV → 더치 앵글 미디엄 샷 → ECU 후방 창문 → 광각 측면 추적 → 공중 풀백.
| 차원 | SD | HH |
|---|---|---|
| 7개 샷 실행 | 5/7 샷 정확 ✅ | 2~3개 샷만 구현 |
| 연기/파편 물리 | 밀도 높고 현실적 ✅ | 가벼운 경향 |
| 3중 오디오 레이어 (엔진/타이어/노면) | 뚜렷함 ✅ | 혼합됨 |
| 의미론적 오류 | — | "공중 드론 샷"을 실제 드론이 프레임으로 들어오는 장면으로 렌더링 |
SD가 확실히 승리했습니다. HH의 "드론 실수"는 의미론적 정렬 실패의 대표적 사례입니다. 모델이 "드론"이라는 단어는 알지만, 카메라 움직임인지 물리적 객체인지 구분하지 못한 것입니다.
시나리오 3: 장면 간 캐릭터 일관성
참조: 긴 빨간 머리, 일자 앞머리, 흰 셔츠, 검은 넥타이의 여성. 과제: 사무실에서 집으로 걸어가며 외형의 일관성과 자연스러운 감정 변화를 유지할 것.
참고: I2V가 아닌 R2V(참조-비디오) 방식을 사용했습니다. I2V는 참조 이미지를 첫 프레임으로 강제하기 때문에 장면 간 일관성을 테스트할 수 없습니다.
| 차원 | SD | HH |
|---|---|---|
| 얼굴/헤어 일관성 | ✅ | ✅ |
| 복장 유지 | 사무실에서 집으로 이어지는 단일 컷 | 깔끔한 의상 변경 (넥타이는 유지하며 재킷 탈의) ✅ |
| 감정 변화 | 2단계 점프 컷 | "업무 모드 해제"를 위한 눈 감기 + 미소 ✅ |
| 시각적 질감 | 깔끔하고 정돈됨 | 주근깨 등 세밀함, AI 특유의 플라스틱 광택 |
| 서사 완성도 | 아버지 캐릭터 포함 3개 장면 ✅ | 어머니-딸 관계에만 집중 |
무승부입니다. SD는 단일 컷으로 깔끔함을 보여줬고, HH는 더 세밀한 묘사를 보여줬으나 AI 특유의 스무딩 현상이 있었습니다.
시나리오 4: 토크쇼 2인 대화 — 멀티모달 성능 ⚡
6가지 시나리오 중 지침 밀도가 가장 높습니다. 프롬프트 내 세 가지 리듬 마커(몸을 앞으로 기울임 / 생각하는 듯한 멈춤 / 공유된 웃음의 펀치라인)가 각각 패스/실패의 기준이 됩니다.
프롬프트는 투나잇쇼 스타일의 3라운드 대화를 요구하며, 마지막은 두 캐릭터가 함께 웃는 장면으로 마칩니다.
| 차원 | SD | HH |
|---|---|---|
| 리듬 큐: "개 몸을 앞으로 기울임" | ✅ 실행 | ❌ 정적인 상태 |
| 리듬 큐: "고양이 생각하는 멈춤" | ✅ 표현 전달 | ❌ 포착 실패 |
| 마지막 웃음 샷 | ✅ 고양이의 웃음으로 컷 | ⚠️ 개로 컷(캐릭터 오류) |
| 텍스트 충실도 | ✅ | ✅ |
| 목소리 매칭 | ✅ 정확 | ⚠️ 정확하지만 기계적 |
| 보너스 창의성 | ✅ 방청객 웃음소리 추가 | — |
| 목소리 일관성 | ✅ | ❌ 마지막 웃음에서 고양이 목소리가 남성으로 변함 |
SD가 완승했습니다. 특히 프롬프트에 없던 방청객 웃음소리를 장르적 특성에 맞춰 추가한 점은 놀랍습니다. HH는 텍스트 충실도는 좋았으나 고양이 목소리가 도중에 변하는 등 오디오 일관성에서 치명적인 약점을 보였습니다.
시나리오 5: 로맨틱 장면 → 서사 반전 — 비디오 편집 ⚡⚡
원본: 남성이 영어로 "달이 아름답네요, 당신과 공유할 수 없다니 아쉽군요", 여성이 북경어로 "당신과 함께라면 어디든 아름다운 풍경이죠"라고 말하는 밤의 옥상 장면.
편집 프롬프트: 완전한 서사 반전. 남성의 표정이 따뜻함에서 차갑게 바뀜. 주저 없이 여성을 옥상에서 밀어버림. 추락 중 여성이 북경어로 "처음부터 나한테 거짓말했잖아!"라며 비명. 남성은 차가운 미소로 "이게 네가 우리 가족에게 빚진 거야"라고 말함.
4단계 테스트: 표정 반전 + 물리적 행동 + 이중 언어 대사 교체 + 시각적 톤 전환.
| 4단계 테스트 | SD | HH |
|---|---|---|
| 남성 표정 반전 | ✅ | ❌ 슬픔으로 표현됨 |
| 여성의 반응 (불신) | ✅ 추락하며 분노와 비명 | ❌ 공포(프롬프트와 반대) |
| 지붕에서 밀어버리는 행동 | ✅ 수행 | ❌ 여성은 여전히 서 있음 |
| 시각적 톤 전환 | ✅ | ⚠️ 기존 톤 유지 |
| 이중 언어 대사 생성 | ✅ | ✅ |
| 목소리 현실감 | ✅ | ❌ AI 특유의 부자연스러움 |
SD는 시나리오를 완벽히 수행했지만 HH는 완전히 실패했습니다. HH는 서사 구조를 이해하지 못한 채 대사와 감정의 단편적인 부분만 해석했습니다.
시나리오 6: 멀티모달 참조 융합 — 엘리베이터 스릴러 ⚡⚡⚡
입력: 참조 이미지 3장(남성 외형 / 엘리베이터 내부 / 복도) + 참조 비디오 1편(카메라 움직임 + 표정). 과제: 4개 입력을 융합하여 공포 → 히치콕 줌 → 엘리베이터 퇴장 → 기계적 팔 패닝 시퀀스 생성.
SD가 깔끔하게 승리했습니다. HH는 동작은 따라 했지만 얼굴을 다르게 생성했습니다. 표면적 흉내는 가능하나 의미론적 깊이가 부족한 결과입니다.
Happy Horse vs Seedance: 지침 이해의 차이
일관된 구조가 드러납니다.
| 지침 수준 | HH | SD |
|---|---|---|
| 표면적 지침 (대사, 포즈, 매개변수) | ✅ 실행 | ✅ 실행 |
| 의미론적 지침 (서사 반전, 신원 유지, 타이밍) | ❌ 실패 | ✅ 실행 |
| 장르적 관습 채우기 (웃음소리 추가 등) | ❌ | ✅ 능동적 추가 |
이는 어느 모델이 더 "우월한가"의 문제가 아닙니다. 작동하는 지침 이해 수준이 다릅니다. HH는 단일 장면의 시각적 묘사가 우수하지만, 다중 장면의 복합 서사나 신원 유지는 SD가 훨씬 강력합니다.
결론: 사용 사례에 맞는 모델 선택
| 시나리오 유형 | 추천 모델 | 이유 |
|---|---|---|
| 단일 장면 시각 품질 | HH | 피부 질감, 색감, 미학 |
| 대사 생성/교체 및 립싱크 | HH | 텍스트 충실도, 다국어 지원 |
| 감정적/분위기 중심 짧은 영상 | HH | 미세한 시각 세부 묘사 |
| 멀티 샷 서사 영상 (액션 등) | SD | 샷-컷 실행력 |
| 서사 반전 / 복합 편집 | SD | 의미론적 이해도 |
| 캐릭터 일관성 및 정체성 유지 | SD | 신원 정보 보존력 |
One API: 문자열 하나로 모델 전환
저희는 두 모델의 SDK와 엔드포인트가 달라 One API를 통해 통합했습니다. 하나의 키, 하나의 SDK, 하나의 모델 문자열로 두 모델을 자유롭게 전환할 수 있습니다. 엔드포인트 이름이 달라도(video-edit vs reference-to-video) 기능적으론 같기에 One API가 이를 추상화해 줍니다. 개발자는 단 하나의 구현만 하면 됩니다.


API 문서에서 엔드포인트 세부 정보와 인증 방식을 확인하세요.
벤치마킹의 정직함에 대하여
HH의 실패 사례를 공개하는 것이 불공정할까 고민했습니다. 하지만 백서의 가치는 정직함에 있습니다. HH의 Elo 점수는 허구가 아닙니다. 다만 실패 사례를 통해 언제 다른 모델을 써야 할지 명확히 알 수 있다는 점이 중요합니다.
다음 업데이트:
- 전체 백서 v1.0 (평가 방법론 및 스코어링 템플릿)
- 전체 스코어링 매트릭스
- 평가 도구 체인 (MLLM-as-Judge 자동화 스크립트)
- 추가 모델 (Veo, Wan, Kling 등)
모델 선정에 고민이 있으시다면 댓글로 사용 사례를 공유해 주세요. 모든 샘플과 데이터는 Atlas Cloud One API를 통해 투명하게 공개됩니다.






