私たちは、6つのシナリオ、12本の動画、そして共通のプロンプトセットを用いて、その真価を検証しました。
4月10日、AlibabaのATHチームはHappy Horse 1.0をリリースしました。わずか数日で、Artificial Analysisの動画モデルリーダーボードで首位を獲得。T2V Elo 1389、I2V Elo 1416を記録し、テキストから動画への変換能力において、BytedanceのSeedance 2.0を約115ポイント引き離しました。
AI動画コンテンツ、製品選定、業界リサーチの分野に携わる人々にとって、最も重要な問いは「このランキングは実際の作業環境でも通用するのか?」という点でしょう。
私たちはその答えを導き出すために1週間を費やしました。同じプロンプト、同じ参照アセット、同じ評価フレームワークを用い、6つのシナリオタイプ・計12本の動画でHappy Horse 1.0とSeedance 2.0をサイド・バイ・サイドで比較しました。本記事では、Happy Horseがトップに躍り出た理由、使用した評価手法(ホワイトペーパーを近日公開予定)、そしてリーダーボードには表れない6つのシナリオから明らかになった事実の3点について解説します。
読了後には、いつHappy Horseを選択し、いつSeedanceを選択すべきかが明確になるはずです。また、Atlas CloudのOne API(1つのキー、1つのSDK、モデル文字列の切り替えのみ)を通じた比較がいかに効率的であるかもご理解いただけることでしょう。
Happy Horse 1.0がEloリーダーボードで首位に立つ理由
テスト結果を見る前に、知っておくべき事実がいくつかあります。
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| チーム | Alibaba ATH | Bytedance |
| リリース | 2026/04/10発表、4/27よりAtlas Cloudで提供開始 | 一般公開済み |
| アーキテクチャ | 15B統合Transformer(音声・動画の同時生成、クロスアテンションなし) | Mixture-of-expertsアーキテクチャ |
| ネイティブ音声 | ✅ | ✅ |
| 多言語対応 | 7言語でのリップシンク(北京語/広東語/英語/日本語/韓国語/ドイツ語/フランス語) | 6言語でのプロンプト入力(中国語/英語/日本語/インドネシア語/スペイン語/ポルトガル語) |
| 生成速度 | 1080p、単一H100で1クリップ約38秒 | — |
| Artificial Analysis Elo | T2V 1389(1位) / I2V 1416(1位) | T2V 約1274 |
Happy Horseがトップ評価を獲得した理由は主に3つです。
統合Transformerアーキテクチャ。 音声と動画を同一シーケンスで生成するため、後付けの編集が不要です。リップシンク、音声のタイミング、編集点が同時にモデル化されるため、「まず動画を生成し、後から音声を追加する」パイプラインで発生しがちな視覚的・聴覚的ズレを、アーキテクチャレベルで回避しています。
ネイティブな7言語リップシンク。 北京語、広東語、日本語、韓国語、ドイツ語、フランス語、英語に対応しており、現在公開されている動画モデルの中で最も広範な多言語リップシンク性能を誇ります。これはグローバルなコンテンツ制作において非常に強力です。
視覚的限界の高さ。 テスト実行結果の個々のフレームを見ると、肌の質感、単一フレームの美学、映画のようなカラーグレーディングにおいて、HHはSDを凌駕しています。Artificial Analysisはブラインド評価を採用しており、人間は「どちらが映画に近いか」に非常に敏感です。これがEloスコアの差を生む主な理由です。
しかし、Eloは単一の集計スコアに過ぎません。どこで勝利し、どこで劣ったのかという詳細は隠されてしまいます。だからこそ、私たちは適切な評価フレームワークを構築しました。
AI動画モデル評価フレームワーク
私たちは『AI動画モデル評価ホワイトペーパー』を作成しました。その中心的な手法を紹介します。
既存のベンチマークが果たす役割と限界
| システム | 強み | 限界 |
|---|---|---|
| VBench / VBench-2.0(学術ベンチマーク) | 粒度の細かい次元評価(16+18のサブディメンション)、物理や常識を網羅 | セットアップが複雑、GPUが必要、直感的でない |
| Artificial Analysis Elo(ブラインド順位) | 人間の主観的好みを反映、モデル横断比較が可能 | ブラックボックス、弱点の特定不可、単一スコアのみ |
| FVD / CLIPスコア(定量的指標) | 客観的でスクリプト可能 | 人間の知覚との相関が限定的 |
| デモ映像の選別(業界標準) | 視覚的インパクトが強い | 再現性がなく、選別バイアスが激しい |
2026年3月に公開されたVBench v2.0の論文は、「現時点で最強のモデルであっても、物理的妥当性スコアは約50%程度にとどまる」という厳しい現実を指摘しています。リーダーボードの単一スコアは、モデル選定の根拠として信頼できません。
5つの評価次元
| 次元 | 評価項目 | 主なサブ項目 |
|---|---|---|
| プロンプトと動画の整合性 | 出力は指示に正確に従っているか? | 被写体 / アクション / シーン / スタイル / 数量と空間的関係 |
| 視覚的品質 | 個々のフレームは優れているか? | 解像度 / 美学 / レンダリング / ディテール |
| 動きと物理法則 | 動きは物理法則に従っているか? | 自然さ / 物理 / ダイナミックレンジ / カメラワークの精度 |
| 時間的整合性 | フレームやショットは時間軸で一貫しているか? | 被写体の同一性 / シーン / フリッカー / マルチショットの一貫性 |
| マルチモーダル能力 | モデルは視覚以外に何ができるか? | 音声 / 音声視覚同期 / リップシンク / 多言語 / スタイル制御 |
第5の次元「マルチモーダル能力」こそが、2026年におけるモデル差の分かれ道であり、HHの最大の武器です。
3層評価手法
| 層 | 利用シーン | ツール |
|---|---|---|
| L1 定量的指標 | 大規模スクリーニング、CI/CD | FVD / CLIP-Score / LAION Aesthetic / DINO / Optical Flow / SyncNet / MLLM-as-Judge |
| L2 標準タスクセット | チュートリアル評価、製品比較、ホワイトペーパー発行 | VBenchプロンプトスイート / Atlas Cloud Prompt Hub / カスタムプロンプト |
| L3 主観的ブラインドレビュー | 最終決定、対外向けリリース | ダブルブラインドElo + 5次元スコアカード |
2025〜2026年の複数の論文により、MLLM-as-Judge(ClaudeやGPT-4Vを評価者として利用)は、単純な定量的指標よりも人間評価との相関が高いことが確認されています。
6つのシナリオ:リーダーボード1位が敗れる場所
Atlas CloudのPrompt Hubから、5つの評価次元を網羅する6つのシナリオを選択しました。パラメータは1080p/16:9/seed 42/持続時間5-15秒に固定しています。
シナリオ1:洞窟探検 — 視覚品質と環境音
プロンプト:石灰岩の洞窟を探検する懐中電灯。濡れた岩肌とクリスタルの反射を照らし、浅瀬を通る光がカウクス光(集光模様)を作り出す。鍾乳石が光源に合わせて揺れ動く長い影を落とす。環境音:水滴の音、濡れた岩を歩く足音、狭い場所での呼吸。
HHは視覚で勝利しましたが、音響面ではSDが優れていました。HHの視覚的ディテールは確かにSOTAレベルです。
シナリオ2:ハリウッドのカーチェイス — 指示の密度
プロンプト:空中ワイドショット → ローアングルの地上追跡 → ボンネットのPOV → ダッチアングルミディアムショット → 後部座席の極端なクローズアップ → 広角の側面追跡 → 空中からの引き画。15秒に7つのショットタイプを詰め込む。
SDの圧勝です。HHの「ドローンミス(空撮ショットを要求したのに、実際のドローンがフレームに入り込んだ)」は、セマンティック(意味論的)な不整合の典型例です。
シナリオ3:シーンを超えたキャラクターの一貫性
参照:赤いロングヘア、ぱっつん前髪、白いシャツ、黒いネクタイの女性。オフィスから帰宅まで、外見と自然な感情の推移を一貫させる。
引き分けです。SDは連続的なワンテイクで見せ、HHはカット割りで細部を描写しましたが、AI特有の平滑化が見られました。
シナリオ4:トークショーの対話 — マルチモーダル性能 ⚡
3つのリズムマーカー(前傾姿勢 / 考えるフリ / 笑いのパンチライン)の実行をテスト。
SDの圧勝です。SDはプロンプトに含まれていなかった「観客の笑い声」を自発的に追加しました。トークショーという形式を深く理解している証拠です。HHは音声の一貫性に課題を残し、猫の笑い声が途中で男性の声に切り替わりました。
シナリオ5:ロマンチックなシーンから衝撃の逆転へ — 動画編集 ⚡⚡
プロンプト:男性が「月が綺麗だね」と囁き、女性が応える。その後、男性が冷酷な表情に変わり、女性を突き落とす。女性は落下中に叫び、男性は冷ややかに微笑む。
SDは完璧に実行しましたが、HHはプロンプトの表層(会話や感情の一部)のみを捉え、物語としての逆転を再現できませんでした。
シナリオ6:マルチモーダル・リファレンス融合 — エレベーターのサスペンス ⚡⚡⚡
参照画像3枚(男性の容姿/エレベーター内部/廊下)と動画1本を融合。
SDは完璧に人物を融合させましたが、HHはポーズは模倣したものの、顔が全くの別物になりました。HHは「ジェスチャーのコピー」はできても、「IDの保持」というセマンティックな理解ができていません。
結論:Happy HorseとSeedanceの使い分け
両モデルは、指示を理解する次元が異なります。
- Happy Horse 1.0: スキンケアの質感、 cinematicなカラーグレーディング、単一ショットでのディテール描写においては圧倒的です。リップシンクや多言語対応が必要な場合に最適です。
- Seedance 2.0: 物語の構成、キャラクターの同一性保持、複雑な指示への対応、ジャンルに応じた自発的な補完において、より優れた理解力を見せます。
Atlas Cloud One APIを使用すれば、キーやSDKをそのままに、モデル文字列を書き換えるだけで両モデルを比較できます。どちらがあなたのユースケースに最適か、ぜひご自身の手で試してみてください。すべての評価サンプル、元のプロンプト、抽出フレーム、スコアリング詳細は、ホワイトペーパーとともに公開されます。今回の全評価は、Atlas Cloud One APIを通じて単一のインターフェースで完了しました。






