Wir haben 6 Szenarien, 12 Videos und einen gemeinsamen Prompt-Satz verwendet, um das herauszufinden.
Am 10. April veröffentlichte das ATH-Team von Alibaba Happy Horse 1.0. Innerhalb weniger Tage eroberte es den Spitzenplatz auf der Video-Modell-Bestenliste von Artificial Analysis — T2V Elo 1389, I2V Elo 1416, womit es Seedance 2.0 von Bytedance im Bereich Text-zu-Video um etwa 115 Punkte übertraf.
Wenn Sie in den Bereichen KI-Videoinhalte, Produktauswahl oder Branchenforschung tätig sind, stellt sich sofort die Frage: Hält dieses Ranking auch unter realen Arbeitslasten stand?
Wir haben eine Woche damit verbracht, dies zu prüfen. Gleiche Prompts, gleiche Referenz-Assets, gleiches Bewertungs-Framework — Happy Horse 1.0 und Seedance 2.0 wurden Seite an Seite in 6 Szenariotypen mit insgesamt 12 Videos getestet. Dieser Artikel behandelt drei Punkte: Was Happy Horse tatsächlich an die Spitze gebracht hat, die von uns verwendete Bewertungsmethodik (ein vollständiges Whitepaper folgt) und was die 6 Szenarien enthüllten, das die Bestenliste nicht zeigt.
Am Ende werden Sie genau wissen, wann Sie zu HH oder SD greifen sollten und warum ein solcher Vergleich über die One API von Atlas Cloud — ein Key, ein SDK, ein Modell-String-Tausch — derzeit die praktischste Methode für die Modellauswahl ist.
Warum Happy Horse 1.0 die Elo-Bestenliste anführt
Einige Fakten, die Sie vor den Testergebnissen kennen sollten.
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| Team | Alibaba ATH | Bytedance |
| Veröffentlichung | Vorgestellt am 10.04.2026, live auf Atlas Cloud am 27.04. | Allgemein verfügbar |
| Architektur | 15B Unified Transformer (gemeinsame Audio-Video-Generierung, keine Cross-Attention) | Mixture-of-Experts-Architektur |
| Native Audio | ✅ | ✅ |
| Mehrsprachig | Lippensynchronisation in 7 Sprachen (Mandarin / Kantonesisch / Englisch / Japanisch / Koreanisch / Deutsch / Französisch) | Prompt-Eingabe in 6 Sprachen (Chinesisch / Englisch + Japanisch / Indonesisch / Spanisch / Portugiesisch) |
| Generierungsgeschwindigkeit | ~38s pro Clip bei 1080p auf einer einzelnen H100 | — |
| Artificial Analysis Elo | T2V 1389 (Platz 1) / I2V 1416 (Platz 1) | T2V ~1274 |
Drei Faktoren haben ihm den Spitzenplatz eingebracht.
Unified Transformer Architektur. Audio und Video werden in derselben Sequenz generiert, nicht in der Postproduktion zusammengesetzt. Lippensynchronisation, Audio-Timing und Schnittpunkte werden gleichzeitig modelliert. Dies ist wichtig, da der „Erst Video generieren, dann Audio hinzufügen“-Ansatz oft zu sichtbaren Asynchronitäten führt — HH vermeidet dies auf Architekturebene.
Native Lippensynchronisation in 7 Sprachen. Mandarin, Kantonesisch, Japanisch, Koreanisch, Deutsch, Französisch, Englisch. Dies ist die derzeit umfassendste mehrsprachige Unterstützung für Lippensynchronisation in einem öffentlich zugänglichen Videomodell und hat einen hohen Mehrwert für die globale Content-Produktion.
Visuelle Obergrenze. Betrachtet man einzelne Frames unserer Testläufe, so sind die Hauttexturen, die Ästhetik der Einzelbilder und das cineastische Color Grading von HH dem von SD tatsächlich voraus. Artificial Analysis nutzt blinde Evaluierungen durch Menschen, und diese reagieren sehr empfindlich darauf, „was eher wie ein Film aussieht“. Das ist die Hauptbegründung für die Elo-Differenz.
Aber Elo ist nur ein aggregierter Gesamtwert. Er sagt aus, wer bei mehr direkten Vergleichen gewonnen hat — nicht, wo die Stärken oder Schwächen liegen. Ein Gesamtwert verschleiert die tatsächliche Struktur. Genau deshalb haben wir ein fundiertes Bewertungs-Framework entwickelt.
Framework zur Bewertung von KI-Videomodellen
Wir haben ein vollständiges AI Video Model Evaluation White Paper erstellt — hier ist die Kernmethodik.
Was bestehende Benchmarks leisten (und was nicht)
| System | Stärken | Einschränkungen |
|---|---|---|
| VBench / VBench-2.0 (akademischer Benchmark) | Granulare Dimensionen (16 + 18 Unterdimensionen), deckt Physik und gesunden Menschenverstand ab | Komplexes Setup, erfordert GPU zum Ausführen, nicht intuitiv |
| Artificial Analysis Elo (Blind-Ranking) | Spiegelt menschliche subjektive Präferenz wider, modellübergreifend vergleichbar | Blackbox, Schwächen nicht punktgenau identifizierbar, nur ein Gesamtwert |
| FVD / CLIP Score (quantitative Metriken) | Objektiv, skriptfähig | Begrenzte Korrelation mit menschlicher Wahrnehmung |
| Demo-Cherry-Picking (Industrienorm) | Hohe visuelle Wirkung | Nicht reproduzierbar, schwerer Selektions-Bias |
Das VBench v2.0-Paper, veröffentlicht im März 2026, stellte nüchtern fest: Selbst die stärksten aktuellen Modelle erreichen bei physikalischer Plausibilität nur etwa 50 %. Der Goldstandard ist noch in der Entwicklung. Ein einzelner Bestenlisten-Wert ist keine verlässliche Basis für die Modellauswahl.
Fünf Bewertungsdimensionen
| Dimension | Bewertungsfrage | Wichtige Unterpunkte |
|---|---|---|
| Prompt-Video-Alignment | Folgt der Output präzise den Anweisungen? | Subjekt / Aktion / Szene / Stil / Anzahl & räumliche Beziehungen |
| Visuelle Qualität | Ist jedes Einzelbild exzellent? | Auflösung / Ästhetik / Rendering / Detailgenauigkeit |
| Bewegung & Physik | Gehorcht die Bewegung physikalischen Gesetzen? | Natürlichkeit / Physik / Dynamikbereich / Genauigkeit der Kamerabewegung |
| Zeitliche Konsistenz | Sind Bilder und Aufnahmen über die Zeit kohärent? | Subjektidentität / Szene / Flimmern / Konsistenz zwischen verschiedenen Aufnahmen |
| Multimodale Fähigkeiten | Was kann das Modell über Bilder hinaus? | Audio / Audio-Visuelle Synchronität / Lippensynchronität / Mehrsprachigkeit / Stilkontrolle |
Dimension 5 — multimodale Fähigkeiten — ist der Bereich, in dem sich die Differenzierung der Modelle im Jahr 2026 abspielt. Das ist auch das Hauptargument von HH.
Drei-Schichten-Methode
| Schicht | Anwendungsfall | Tools |
|---|---|---|
| L1 Objektive Metriken | Großflächiges Screening, CI/CD | FVD / CLIP-Score / LAION Aesthetic / DINO / Optical Flow / SyncNet / MLLM-as-Judge |
| L2 Standardisierter Aufgabensatz | Tutorial-Evaluierung, Produktvergleich, Whitepaper-Publikation | VBench-Prompt-Suite / Atlas Cloud Prompt Hub / zielgerichtete Prompts |
| L3 Subjektive Blindbewertung | Letzte Entscheidung, öffentliche Veröffentlichung | Double-Blind Elo + Fünf-Dimensionen-Scorecard |
Mehrere Studien von 2025–2026 bestätigen, dass MLLM-as-Judge (die Verwendung von Claude oder GPT-4V als Bewerter) signifikant höher mit menschlichen Bewertungen korreliert als rein quantitative Metriken. Dies bildet das Rückgrat unserer L1-Schicht.
Ebenen der Prompt-Auswahl
Die größte Kontroverse bei Vergleichs-Benchmarks sind nicht die Metriken — es sind die Prompts. Unsere Mindestanforderungen und Struktur:
| Ebene | Definition | Verwendung |
|---|---|---|
| A (Standard) | Modell-neutraler, dimensionsorientierter Prompt — derselbe Prompt für beide Modelle | Primärer Bewertungsstandard |
| B (Vermeiden) | Gleiches Thema, aber jedes Modell nutzt eigene Hub-Prompts | Nicht für Scoring — nur für Showreels |
Warum ein einzelner Wert in die Irre führt
Videomodelle im Jahr 2026 sind nicht nur „Text-to-Video“. Ein Modell kann T2V, I2V, Reference-to-Video, Videobearbeitung, natives Audio und mehrsprachige Lippensynchronisation gleichzeitig unterstützen — und in diesen Modi sehr unterschiedlich abschneiden. Elo fasst all dies in eine Zahl zusammen. Unser Framework taggt jede Bewertung mit ihrer Modalität und erstellt eine Fähigkeitsmatrix statt eines einfachen Rankings.
Das vollständige Whitepaper wird eine Scorecard-Vorlage, SOPs zur Durchführung, Toolchain-Empfehlungen und vollständige akademische Referenzen (VBench, Artificial Analysis, AIGCBench, LOVE etc.) enthalten. Die Testergebnisse unten wurden nach diesem Framework erstellt.
6 Szenarien: Wo die Nummer 1 der Bestenliste verliert
Wir haben 6 Szenariotypen aus dem Atlas Cloud Prompt Hub ausgewählt, die alle fünf Bewertungsdimensionen mit ausgewogener Modalitätsabdeckung abdecken. Einheitliche Parameter für alle Läufe: 1080p / 16:9 / Seed 42 / Dauer an die Szenario-Komplexität angepasst (5–15 Sekunden).
Szenario 1: Höhlenforschung — Visuelle Qualität + Ambient Audio
Prompt: Taschenlampen-Erkundung einer Kalksteinhöhle, Beleuchtung nasser Felswände und Kristallreflexionen, Lichtkegel durch flaches Wasser erzeugt kaustische Lichtmuster, Stalaktiten werfen lange Schatten, die sich mit der Lichtquelle bewegen. Ambient Audio: tropfendes Wasser, Schritte auf nassem Fels, Atmen im geschlossenen Raum.
| Dimension | SD | HH |
|---|---|---|
| Kaustische Lichtphysik | ✅ | ✅ |
| Nasse Fels-Highlights / Mineraltextur | Neigt zu "überpoliert" | Realistischer ✅ (anatomisches Detail der Stalaktiten gewinnt) |
| Ambient Audio | Tropfen / Schritte / Atmen — drei Ebenen deutlich ✅ | Auffällige „KI-Qualität“, Ebenen vermischt |
HH gewinnt bei der Visualisierung, SD gewinnt beim Audio. Dieses Szenario spiegelt direkt den Vorteil von HH in der Bestenliste wider — die visuelle Detailtreue ist hier tatsächlich auf SOTA-Niveau.
Szenario 2: Hollywood-Autoverfolgungsjagd — Anweisungsdichte
Der Prompt packt 7 verschiedene Einstellungstypen in 15 Sekunden: Weitwinkelaufnahme aus der Luft → Bodenkamera-Tracking → POV Motorhaube → Dutch Angle Halbtotale → ECU Rückfenster → Weitwinkel-Seiten-Tracking → Aerial Pull-back.
| Dimension | SD | HH |
|---|---|---|
| 7-Shot-Ausführung | 5/7 Aufnahmen akkurat ✅ | Nur 2–3 Aufnahmen |
| Rauch / Trümmer-Physik | Dicht und realistisch ✅ | Neigt zu leicht / dünn |
| Drei-Ebenen-Audio (Motor / Reifen / Straße) | Deutlich ✅ | Vermischt |
| Semantischer Fehler | — | Rendert „Aerial Drone Shot“ als eine echte Drohne, die ins Bild fliegt |
SD gewinnt eindeutig. Der „Drohnenfehler“ von HH ist ein klares Beispiel für ein semantisches Alignment-Versagen — es versteht das Wort „Drohne“, kann aber nicht unterscheiden, ob es sich um eine Kamerabewegung oder ein physisches Objekt in der Szene handelt.
Szenario 3: Szenenübergreifende Charakterkonsistenz
Referenz: eine Frau mit langem rotem Haar, Pony, weißem Hemd, schwarzer Krawatte. Aufgabe: Gehen vom Büro nach Hause, wobei Aussehen und natürlicher emotionaler Übergang konsistent bleiben müssen.
Wichtig: Wir haben R2V (Reference-to-Video) verwendet, nicht I2V. I2V setzt standardmäßig das Referenzbild als erstes Frame fest, was das Video zwingt, von diesem Bild zu starten — eine Überprüfung der szenenübergreifenden Konsistenz ist so nicht möglich. Dieser Unterschied ist entscheidender, als er scheint.
| Dimension | SD | HH |
|---|---|---|
| Gesichtsmerkmale / Frisurkonsistenz | ✅ | ✅ |
| Garderoben-Kontinuität | Ein einziger durchgehender Take vom Büro nach Hause (künstlerisch, aber abrupt) | Sauberer Outfitwechsel, Jacke ausgezogen, Krawatte beibehalten ✅ |
| Emotionale Übergangsbilder | Jump Cut | Augen schließen + leichtes Lächeln als „Feierabend“-Übergang ✅ |
| Visuelle Textur | Rein und poliert | Feine Sommersprossen-Details, aber spürbarer „KI-Plastik“-Glanz |
| Narrative Vollständigkeit | 3 Szenen + Vaterfigur enthalten ✅ | Fokus nur auf Mutter-Tochter |
Ein Unentschieden, mit zwei verschiedenen Kompromissen: SD liefert einen kontinuierlichen Take mit sauberer Ausführung; HH nutzt konventionelle Schnitte mit feineren Details, aber spürbaren KI-Glättungsartefakten.
Szenario 4: Talkshow-Dialog mit zwei Charakteren — Multimodale Performance ⚡
Dies ist das Szenario mit der höchsten Anweisungsdichte von allen sechs. Drei explizite Rhythmus-Marker im Prompt (nach vorne lehnen / Fake-Nachdenk-Pause / gemeinsames Lachen als Pointe) fungieren jeweils als diskrete Bestanden/Nicht-Bestanden-Checkpoints.
Der Prompt spezifiziert einen Schlagabtausch im „Tonight Show“-Stil über drei Runden, der mit einem gemeinsamen Lachen beider Charaktere endet.
| Dimension | SD | HH |
|---|---|---|
| Rhythmus-Cue: „Hund lehnt sich vor“ | ✅ Ausgeführt | ❌ Komplett statisch |
| Rhythmus-Cue: „Katze Nachdenk-Pause“ | ✅ ECU-Nachdenk-Ausdruck geliefert | ❌ Nicht erfasst |
| Gemeinsames Lachen als Abschluss | ✅ Schnitt zum Lachen der Katze (Pointen-Timing) | ⚠️ Schnitt zum Hund statt Katze (falscher Charakter) |
| Texttreue | ✅ | ✅ (einzige Dimension, in der HH mithielt) |
| Stimmen-Matching | ✅ Akkurat | ⚠️ Akkurat, aber mechanisch |
| Bonus-Kreativität | ✅ Fügte proaktiv Lachen aus dem Publikum hinzu — genre-passend | — |
| Stimmen-Konsistenz | ✅ | ❌ Letztes Lachen der Katze wechselte zu einer männlichen Stimme |
SD gewinnt umfassend. Interessant: SD fügte ein Lachen aus dem Publikum hinzu, das nicht im Prompt stand. Talkshow-Inhalte haben ein erwartetes Format — ein Lacher bei Reaktionen — und das Modell hat dies ergänzt. Das ist mehr als nur Anweisungen befolgen; es ist das Verständnis für die Art des Contents.
HH blieb texttreu, versagte aber beim Audio: Das Lachen der Katze wurde mitten im Clip zu einer männlichen Stimme. Langfristige Audio-Konsistenz ist eine echte Schwachstelle.
Szenario 5: Romantische Szene → Narrative Umkehr — Videobearbeitung ⚡⚡
Quellvideo: Ein ausländischer Mann sagt auf Englisch: „Der Mond ist heute Nacht schön, schade, dass ich ihn nicht mit dir teilen kann.“ Eine chinesische Frau antwortet auf Mandarin: „Überall fühlt es sich wie eine schöne Aussicht an, wenn ich bei dir bin.“ Dachterrasse bei Nacht, weiche Atmosphäre.
Bearbeitungs-Prompt: Volle narrative Umkehr. Der Ausdruck des Mannes schlägt von warm zu kalt um. Er stößt die Frau ohne Zögern vom Dach. Mitten im Fall schreit sie auf Mandarin: „Du hast mich von Anfang an belogen!“ — nicht vor Angst, sondern vor Unglauben. Er steht an der Kante mit einem kalten Lächeln und sagt leise auf Englisch: „Das ist es, was du meiner Familie schuldest.“
Vier-Ebenen-Test: Ausdrucksumkehr + physische Kernaktion + zweisprachiger Dialogwechsel + visueller Tonwechsel.
| 4-Ebenen-Test | SD | HH |
|---|---|---|
| Ausdrucksumkehr Mann | ✅ Augen-Wechsel + kaltes Lächeln | ❌ Ausdruck wirkt eher wie Trauer |
| Reaktion Frau: Unglauben statt Angst | ✅ Wut und Schreien während des Fallens | ❌ Schulbuchmäßiger Angstausdruck (Gegenteil vom Prompt) |
| Stoß vom Dach | ✅ Tatsächlich passiert (Aerial-Fall-Shot + Stadt-Tilt) | ❌ Niemals gestoßen — Frau steht noch immer |
| Visueller Tonwechsel | ✅ | ⚠️ Basislinie gehalten |
| Zweisprachiger Dialog | ✅ | ✅ (einzige Dimension, in der HH mithielt) |
| Stimmen-Realismus | ✅ | ❌ Starke KI-Qualität |
SD führt das Szenario komplett aus. HH scheitert vollständig. HH interpretierte den Prompt als „Füge etwas Dialog und emotionalen Konflikt hinzu“. Die narrative Struktur änderte sich nicht. Es verarbeitet oberflächliche Anweisungen (was gesagt werden soll), aber nicht die narrative Ebene.
Szenario 6: Multimodale Referenz-Fusion — Aufzugs-Thriller ⚡⚡⚡
Input: 3 Referenzbilder (Aussehen des Mannes / Aufzug-Interieur / Flur) + 1 Referenzvideo (Kamerabewegung + Gesichtsausdruck). Aufgabe: Fusioniere alle 4 Inputs und produziere eine Sequenz von Angst → Hitchcock-Zoom → Verlassen des Aufzugs → mechanisches Arm-Tracking.
Die beiden Modelle nutzen unterschiedliche Endpunkte — HH nutzt video-edit, SD nutzt reference-to-video — aber beide akzeptieren zusammengesetzten Bild-plus-Video-Input. Die Endpunktnamen sind asymmetrisch; die Fähigkeit ist äquivalent. Das ist ein nützlicher Beweis für das, was die Abstraktionsschicht der One API leistet.
| Bewertungspunkt | SD | HH |
|---|---|---|
| Kamerabewegung | ✅ Solid | ✅ Solid |
| Szenenwechsel (Aufzug / Flur) | ✅ | ✅ |
| Identität Mann matcht Bild 1 | ✅ Perfekt ausgeführt | ❌ Kein Match — komplett anderes Gesicht |
| Charakterkonsistenz | ✅ Stabil | ⚠️ Driftet in der zweiten Hälfte ab |
SD gewinnt eindeutig. HH replizierte die Pose aus dem Referenzbild (Hand-an-der-Kehle), generierte aber ein komplett anderes Gesicht. Es kopierte die Geste, nicht die Identität. Dies ist strukturell dasselbe Versagen wie in Szenario 5: Oberflächliche Imitation funktioniert, semantische Tiefe nicht.
Happy Horse vs Seedance: Die Lücke im Anweisungsverständnis
Es ergab sich ein konsistentes Bild:
| Anweisungs-Ebene | HH | SD |
|---|---|---|
| Oberflächen-Anweisungen (Dialog, Pose, Parameter, Szenenelemente) | ✅ Ausführung | ✅ Ausführung |
| Semantische Anweisungen (narrative Umkehr, Identität, Timing) | ❌ Versagen | ✅ Ausführung |
| Genre-Konventionen (Auto-Ergänzung von Inhalten) | ❌ | ✅ Ergänzt proaktiv |
Es ist keine Frage, welches Modell „besser“ ist. Sie arbeiten auf unterschiedlichen Ebenen des Anweisungsverständnisses.
Geben Sie HH einen Dialog, eine Pose oder ein Szenenelement — es erledigt das Detail gut, oft mit überlegener visueller Textur. Bitten Sie es jedoch, einen Handlungsstrang umzukehren, die Identität einer Person über mehrere Shots zu halten oder Rhythmus-Cues zu folgen — dann bleibt es bei der Oberfläche stehen, ohne das „was eigentlich gemeint war“ auszuführen.
SD funktioniert anders. Weniger präzise in der Oberflächentextur, aber verlässlicher bei Narrative, Identitätstreue und Timing.
Dies erklärt auch das Elo-Ergebnis. Die blinde Bewertung von Artificial Analysis reagiert extrem empfindlich darauf, „was cineastischer aussieht“. Die visuelle Obergrenze von HH ist real. Aber Elo offenbart keine Lücken im semantischen Verständnis. Beides — das Platz-1-Ranking und die Versagensmodi — sind gleichzeitig wahr.
Happy Horse vs Seedance: Welches Modell passt zu Ihrem Anwendungsfall
| Szenario-Typ | Empfehlung | Grund |
|---|---|---|
| Bestaussehender Shot (visuelle Qualität) | HH | Hauttextur / cineastische Farbe / Ästhetik |
| Dialog / Übersetzung / Ersetzung | HH | Verlässliche Texttreue |
| 7-sprachige Lippensynchronisation | HH | Einziges offenes Modell mit dieser Abdeckung |
| Mood-Pieces / Emotionale Shorts | HH | Feine Details + glatte Übergänge |
| Scripted Video mit vielen Shots (Action / Talkshow) | SD | Zuverlässige Shot-Schnitt-Ausführung |
| Narrative Umkehr / Videobearbeitung | SD | Semantisches Anweisungsverständnis |
| Charakterkonsistenz + Identitätstreue | SD | Referenz-Inputs behalten Person bei |
| Hohe Anweisungsdichte / wörtliche Ausführung | SD | Standardmäßig auf Instruktionen ausgerichtet |
One API: Modellwechsel durch Änderung eines Strings
Das erste technische Problem bei dieser Evaluierung: HH und SD nutzen unterschiedliche SDKs, Endpunkte und Auth-Methoden. Die Anpassung des Client-Codes hätte drei separate Implementierungen erfordert.
Deshalb hat Atlas Cloud sowohl Seedance 2.0 als auch Happy Horse 1.0 hinter dieselbe One API gestellt. Ein Key, ein SDK, ein Modell-String.
Das Detail bei Szenario 6 ist noch einmal wichtig — HHs Endpunkt heißt video-edit, SDs reference-to-video. Verschiedene Namen, äquivalente Fähigkeiten. Die One API abstrahiert diesen Unterschied. Entwickler schreiben eine einzige Implementierung.
Alle 12 Videos dieser Evaluierung wurden über die Atlas Cloud One API generiert — gleiche Implementierung, ein Feld geändert. Noch nie war ein modellübergreifender Vergleich so reibungsarm.
API nutzen
Schritt 1: API-Key in der Konsole abrufen.


Schritt 2: Die API-Dokumentation für Endpunktdetails, Request-Parameter und Authentifizierung prüfen.
Ein Wort zur Ehrlichkeit beim Benchmarking
Wir hatten vor diesem Artikel echtes Zögern: Ergebnisse zu veröffentlichen wie „HH hat den Stoß-vom-Dach-Szenario als Konversation gerendert“ oder „HH hat das falsche Gesicht generiert“ — wäre das unfair?
Der Wert eines Whitepapers liegt gerade in seiner Ehrlichkeit. Happy Horse ist wirklich stark. Die Elo-Platzierung ist kein Rauschen. Seine Schwachstellen zeigen Ihnen präzise, wann Sie die andere Option wählen müssen — genau das ist der Punkt eines Vergleichs-Benchmarks.
Was kommt als nächstes:
White Paper v1.0 — Die vollständige Methodik über 5 Dimensionen × 3 Schichten mit Scorecard-Vorlagen, SOPs und akademischen Referenzen.
Vollständige Bewertungsmatrix — 5 Dimensionen × 6 Szenarien × 2 Modelle, 60 Zellen einzeln bewertet.
Bewertungs-Toolchain — L1-Automatisierungsskripte inklusive MLLM-as-Judge-Implementierung.
Zusätzliche Modelle — Veo, Wan, Kling und weitere werden in die Vergleichsmatrix aufgenommen.
Wenn Sie mit der Modellauswahl für Video-KIs beschäftigt sind, schreiben Sie uns Ihren Anwendungsfall in die Kommentare. Das Whitepaper v1.0 wird die Vergleichsdimensionen enthalten, nach denen unsere Leser am häufigsten gefragt haben.
Alle Evaluierungsproben, Original-Prompts, extrahierten Frames und Scoring-Details werden zusammen mit dem Whitepaper veröffentlicht. Die vollständige Evaluierung wurde über die Atlas Cloud One API auf einer einzigen Schnittstelle abgeschlossen.






