Wir haben die Modelle Grok Imagine Image und GPT Image-2 mit 6 identischen, modellneutralen Prompts getestet, die die Bereiche kompositionelle Semantik, fotorealistische Anatomie, mehrsprachige Textdarstellung, geometrische Transformation, lokale Bearbeitung und Fusion mehrerer Referenzen abdecken.
Sowohl das Grok Imagine Image als auch das GPT Image-2 Modell sind über einen einzigen Atlas Cloud API-Schlüssel verfügbar, wodurch dieser Benchmark in wenigen Minuten reproduzierbar ist.
Warum dieser Vergleich von KI-Bildmodellen existiert
Jeder „KI-Bildmodell-Vergleich“, den man online findet, tappt in die gleiche Falle: handverlesene Prompts, Auswahl der besten von fünf Ausgaben und ungetestete Behauptungen. Dieser Benchmark basiert auf Tier-A-Prinzipien: modellneutrale Prompts, identische Eingaben für alle Modelle, Standardausgabe mit einem einzigen Seed (keine Handverlese-Auswahl) und Bewertungskriterien, die pro Kategorie in einem Satz formuliert werden können.
Die sechs Modelle im vollständigen Benchmark-Durchlauf: Grok, GPT Image 2, Nano Banana 2, Nano Banana Pro, Wan 2.7 und Seedream 5.0. Dieser Artikel konzentriert sich auf den direkten Vergleich zwischen Grok und GPT Image 2, da dies für Entwickler, die ein Standard-Bildmodell auswählen, die kommerziell relevanteste Paarung ist.
So haben wir Grok Imagine Image vs. GPT-Image 2 getestet: 6 Kategorien, eine Tier-A-Regel
Jeder Prompt zielt auf eine einzelne, klar definierte Fähigkeitsdimension ab. Die Kriterien für Bestehen/Nichtbestehen wurden vor dem Ausführen der Modelle definiert, nicht erst nach Ansicht der Ergebnisse.
| Kategorie | Getestete Hauptdimension | Pass/Fail-Kriterium (ein Satz) |
|---|---|---|
| Kat 1 · Kompositionelle Semantik | Befolgung der Anweisungen | Hat das Modell 7 Objekte gezählt, korrekt platziert und die Negationsliste beachtet? |
| Kat 2 · Fotorealistische Anatomie & Licht | Visuelle Qualität & Physik | Sind alle 5 Finger anatomisch korrekt und erscheinen kaustische Lichtmuster auf dem Gesicht? |
| Kat 3 · Mehrsprachiges Poster | Textwiedergabe im Bild | Werden chinesische und englische Schriftzeichen korrekt ohne fehlende Striche oder halluzinierte Glyphen dargestellt? |
| Kat 4 · Geometrische Transformation (I2I) | Editierbarkeit + Identität | Ist die Person nach einer 45°-Drehung noch erkennbar und sind alle Kleidungsdetails intakt? |
| Kat 5 · Lokale Bearbeitung & Regionserhalt | Bearbeitungspräzision | Wurden exakt 3 Änderungen vorgenommen, während alles andere auf Pixelebene unverändert blieb? |
| Kat 6 · Fusion mehrerer Referenzen | Konsistenz über Bilder hinweg | Verschmelzen Identität, Stil und Szene aus 3 separaten Referenzen zu einem kohärenten Bild? |
Kat 1 · Kompositionelle Semantik (T2I)
Prompt:
Eine flache Draufsicht auf einen hölzernen Esstisch mit genau sieben Keramikobjekten: drei identische weiße Teetassen in einem gleichseitigen Dreieck in der Mitte, zwei schwarze Schüsseln rechts von den Tassen, ein roter Apfel in der linken schwarzen Schüssel und ein leerer Holzlöffel auf der rechten schwarzen Schüssel, dessen Griff zur oberen linken Ecke des Bildes zeigt. Keine Kaffeetassen, keine Metallgegenstände, keine Teller, kein Glasgeschirr. Weiches, diffuses Fensterlicht von oben links, am Vormittag. Realistische Fotografie, keine Styling-Requisiten.
Dies ist absichtlich als kontradiktorischer Test gestaltet. Zählen, räumliche Sprache ("rechts von", "ganz links") und Negationsklauseln sind bekannte Schwachstellen aller derzeitigen diffusionsbasierten Architekturen.
Checkliste zur Bewertung
| # | Kriterium | Status |
|---|---|---|
| 1 | Gesamtzahl der Objekte | Genau 7 Keramikobjekte |
| 2 | Drei weiße Teetassen | Gleichseitige Dreiecksanordnung |
| 3 | Zwei schwarze Schüsseln | Rechts von den Teetassen positioniert |
| 4 | Roter Apfel | In der linken schwarzen Schüssel |
| 5 | Holzlöffel | Auf der rechten Schüssel, Griff zeigt nach oben links |
| 6 | Einhaltung der Negation | Keine Kaffeetassen / kein Metall / keine Teller / kein Glas |
| 7 | Lichtquelle | Weiches diffuses Licht von oben links, Schatten konsistent |
| 8 | Fotografie-Stil | Keine Styling-Klischees (Palmblätter, Kerzen etc.) |
Grok Imagine Image: Sichtbar 5 Teetassen (nicht 3), in einem Cluster statt in einem gleichseitigen Dreieck. Die beiden schwarzen Schüsseln sind vorhanden, der rote Apfel liegt korrekt in einer von ihnen. Der Holzlöffel ist vorhanden und liegt auf der rechten Schüssel, die Griffrichtung zeigt ungefähr nach oben links – dieses Kriterium ist erfüllt. Die Negationsvorgabe wurde sauber eingehalten: keine Kaffeetassen, kein Metall, keine Teller, kein Glas. Die Lichtquelle von oben links mit konsistenten Schatten ist korrekt. Keine Styling-Requisiten vorhanden.
GPT Image 2 zeigte eine stärkere Befolgung der Anweisungen bei den räumlichen Komponenten, obwohl keines der Modelle die exakte Anzahl von 7 Objekten unter Einhaltung aller Platzierungsbeschränkungen gleichzeitig erreichte.
Kat 2 · Fotorealistische Anatomie & Licht (T2I)
Prompt:
Nahaufnahme einer ostasiatischen Frau in den frühen Dreißigern, die ein halbvolles Kristallweinglas mit Rotwein in der rechten Hand hält; alle fünf Finger und der Daumen sind vollständig sichtbar und umschließen den Stiel und teilweise den Kelch auf natürliche Weise. Sie sitzt während der „Goldenen Stunde“ an einem hohen, nach Westen ausgerichteten Fenster. Das Licht des späten Nachmittags fällt durch den Wein und erzeugt warme, purpurrote kaustische Muster auf ihrem linken Wangenknochen und Kiefer. Ihre linke Hand ruht auf einem aufgeschlagenen Hardcover-Buch auf ihrem Schoß. Reflexionen des Fensters sind in beiden Augen sichtbar. Die Haut zeigt extrem detaillierte Poren, feinen Flaum und Streulicht (Subsurface Scattering) am Ohrläppchen und am Nasenrücken. Haar von hinten beleuchtet (Rim Light). 85mm-Objektiv, f/2.0, geringe Schärfentiefe, fotografischer Realismus.
Dies ist historisch gesehen der schwierigste Test für generative Modelle mit einem Einzelbild.
Checkliste zur Bewertung
| # | Kriterium | Status |
|---|---|---|
| 1 | Handanatomie | Alle 5 Finger + Daumen, natürlicher Griff |
| 2 | Kaustisches Licht | Warme rote Muster vom Wein auf dem Wangenknochen |
| 3 | Reflexionskonsistenz | Position und Form in beiden Augen identisch |
| 4 | Subsurface Scattering (SSS) | Sichtbar an Ohrläppchen und Nasenrücken |
| 5 | Rim-Light-Physik | Richtung stimmt mit Lichtquelle überein |
| 6 | Hautrealismus | Keine "KI-Plastik-Glättung", Poren und Flaum sichtbar |
Grok Imagine lieferte stark in seinem Hauptvorteil. Die Handanatomie war korrekt – die Fingeranzahl stimmte, die Griffhaltung um Stiel und Kelch wirkte natürlich, der Winkel des Handgelenks war physisch plausibel. Allein das übertrifft viele andere Modelle. Die Hauttextur zeigte echte, Poren-genaue Details mit sichtbarem Flaum ohne übermäßige KI-Glättung. Das Streulicht (SSS) auf Nasenrücken und Wangenknochen erzeugte eine warme, lichtdurchlässige Qualität, die fotorealistisch wirkt. Das Rim-Light im Haar folgte der Lichtquelle des Fensters kohärent.
Die kaustische Lichtprojektion war Groks Schwachpunkt. Die roten Lichtmuster erschienen zwar auf dem Gesicht, wurden jedoch als übergroße, dramatisch stilisierte rote Überlagerung gerendert – mehr wie ein Farbeffekt als wie die feinen, weichkantigen Lichtfäden, die physikalisch entstehen, wenn Sonnenlicht durch Wein fällt. Die physische Plausibilität der Kaustik entsprach nicht dem Präzisionsstandard.
GPT Image 2 kehrte diesen Kompromiss um. Die kaustische Lichtwiedergabe war deutlich physikalisch korrekter – die warmen roten Muster auf dem Wangenknochen waren kleiner, diffuser und folgten der geometrischen Logik des Lichts, das in korrektem Winkel durch ein Weinglas fällt. Das ist das Detail, das Grok verpasste. Allerdings zahlte GPT Image 2 dafür an anderer Stelle: Die Handanatomie war weniger natürlich, mit leicht versteiften Fingerwinkeln. Die Hauttextur neigte zur glatteren, flacheren Qualität, wie sie bei KI-Porträts üblich ist, mit weniger sichtbarer SSS-Wärme und schwächerem Rim-Light im Vergleich zu Grok.
Kat 3 · Mehrsprachiges Poster (T2I)
Prompt:
Ein Vintage-Reiseplakat im Stil der 1960er Jahre für ein fiktives Filmfestival, illustriert im Stil des Mid-Century-Designs. Oben auf dem Plakat große, fette serife chinesische Schriftzeichen mit dem Text "时光电影节" (Zeile 1) und darunter in kleineren chinesischen Schriftzeichen "第七届 · 上海 · 1965年5月" (Zeile 2).
Mitte: eine stilisierte Illustration eines alten Filmprojektors, der einen Lichtstrahl auf eine leicht gebogene Kinoleinwand wirft.
Unten Mitte: eine hohe Champagner-Coupe mit dem englischen Text "GRAND OPENING NIGHT", der sich entlang der Krümmung des Kelches windet und der elliptischen Perspektive folgt.
Rechter Rand: vertikaler Text "presented by 时代影业 · TIMES PICTURES", der von oben nach unten verläuft.
Unterer Streifen: kleiner englischer Credit-Text "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" in einer Zeile.
Farbpalette: cremeweißer Hintergrund, tiefes Karmesinrot, senfgelbe Akzente. Leichte Textur von gealtertem Papier, subtile Körnung.
Checkliste zur Bewertung
| # | Kriterium | Status |
|---|---|---|
| 1 | Chinesische Genauigkeit | Keine fehlenden Striche, keine halluzinierten Zeichen |
| 2 | Zweisprachiges Layout | Chinesisch und Englisch nicht vermischt; korrekte Zonen |
| 3 | Gebogener Text auf Glas | Englisch folgt der elliptischen Perspektive |
| 4 | Vertikaler Text (rechter Rand) | Von oben nach unten lesbar |
| 5 | Typografische Hierarchie | Klare Unterscheidung der Überschrift |
| 6 | Stil vs. Lesbarkeit | 1960er Ästhetik erhalten |
Grok Imagine erstellte ein visuell beeindruckendes Poster mit starker Mid-Century-Illustrationsenergie. Es scheiterte jedoch am kritischsten Textkriterium: Die Überschrift lautet "時光電影節" in traditionellem Chinesisch, nicht in dem im Prompt spezifizierten vereinfachten "时光电影节". Dies ist ein Fehler bei der Zeichensatz-Konformität – ein bedeutsamer Unterschied für Lokalisierungs- oder Veröffentlichungszwecke. Die zweite Zeile verwendete ebenfalls traditionelle Zeichen. Strukturell erschien "GRAND OPENING NIGHT" auf dem Glas mit teilweiser Krümmung, wobei die elliptische Perspektive jedoch nur annähernd getroffen wurde. Die vertikale Schrift am rechten Rand war lesbar.
GPT Image 2 bestand den Test der Zeichensätze einwandfrei: Überschrift "时光电影节" und Untertitel sind korrekt in vereinfachtem Chinesisch gerendert, ohne fehlende Striche oder falsche Glyphen – ein direkter Sieg gegenüber Grok. Die Champagner-Coupe zeigt den Text "GRAND OPENING NIGHT" überzeugend entlang der Krümmung. Der vertikale Text am rechten Rand ist vollständig lesbar. Die Credits unten sind vorhanden und lesbar. Die typografische Hierarchie wurde klar eingehalten.
Kat 4 · Geometrische Transformation (I2I)
Das Prompt wies das Modell an, ein Model für ein Fashion-Lookbook um exakt 45° nach links zu drehen, bei gleichbleibender Kameraposition. Die Referenz zeigte ein komplexes Outfit mit vielen Schichten: langer brauner Mantel, Ledercape, Pelzstola, kupfernes Brustabzeichen, schwarze Lederhandschuhe und zweifarbige Lederstiefel. Keine dieser Details wurden im Prompt explizit aufgezählt – das Modell musste sie durch das Verständnis der Identität beibehalten.
Grok Imagine Image behielt die Gesichtsidentität oberhalb des ArcFace-Schwellenwerts von 0.5 bei. Der zuvor verborgene rechte Teil der Pelzstola wurde bei 45° teilweise sichtbar, mit angemessener Gradientenkontinuität. Das Abzeichen auf der Brust blieb erhalten.
GPT Image 2 zeigte eine etwas stärkere Kohärenz der Kleidungsschichten insgesamt, führte jedoch eine stärkere Abweichung der Gesichtsidentität ein – ein relevanter Kompromiss je nach Anwendungsfall.
Kat 5 · Lokale Bearbeitung & Regionserhalt (I2I)
Das Prompt erforderte genau drei Bearbeitungen in einer Wohnzimmerszene: Entfernen einer schlafenden Katze vom Sofa (und natürliche Wiederherstellung des Polsters), Ersetzen einer Tasse Tee durch ein Glas Orangensaft mit Eis und Hinzufügen einer Lesebrille auf dem mittleren Buch auf dem Couchtisch. Das Prompt verbot explizit, irgendetwas anderes zu verändern.
Grok Imagine erledigte alle drei Aufgaben. Die Katze wurde entfernt, das Polster sauber wiederhergestellt. Allerdings zeigt das Glas Orangensaft Lichtreflexionen, die nicht mit der Lichtquelle des Raumes übereinstimmen. Zudem fehlt ein ausreichender Kontakt-Schatten des Glases auf dem Tisch, wodurch es zu einem "schwebenden" Effekt kommt.
GPT Image 2 erledigte ebenfalls alle drei Bearbeitungen und demonstrierte einen stärkeren Erhalt der Szene. Das Orangensaft-Glas war besser gerendert, mit korrekter Positionierung und stimmiger Schattenrichtung passend zur Lichtquelle. Die Brille wurde korrekt platziert. Entscheidend: Der Blick aus dem Fenster blieb erhalten, was Grok nicht schaffte.
Kat 6 · Fusion mehrerer Referenzen (I2I)
Das Prompt kombinierte drei unabhängige Referenzen: eine Porträtidentität (Latina, bernsteinfarbene Augen, braunes Haar), einen Aquarell-Illustrationsstil (japanische Landschaft) und ein Szenenlayout (europäischer Marktplatz bei Sonnenuntergang). Aufgabe: Erstellung eines kohärenten Aquarellgemäldes der identifizierten Person in der Szene.
Grok Imagine scheiterte am Kernkriterium: Das Ergebnis ist fotorealistisch, nicht wie ein Aquarell. Der Marktplatz und die Person behalten volle fotografische Schärfe mit nur einer leichten malerischen Textur – der Pinselstrich und die Qualität der Aquarell-Farben fehlen völlig.
GPT Image 2 erreichte ein echtes Aquarell-Rendering über das gesamte Bild – Gebäude, Kopfsteinpflaster, Himmel und Figur tragen sichtbare Pinselstriche und weiche Farbverläufe, die mit der Stilspezifikation übereinstimmen. Die Szenenstruktur ist intakt, die Identität wurde durch den Stil hindurch bewahrt. Dies ist das einzige Modell, das die Aufgabe vollständig erfüllte.
Testen Sie Grok Imagine Image und GPT Image 2 via Atlas Cloud
Der Benchmark ist reproduzierbar. Sowohl Grok Imagine als auch GPT Image 2 sind jetzt über Atlas Cloud verfügbar – keine modellbasierte Abrechnung, keine Wartelisten.
Warum Atlas Cloud
- Ein API-Schlüssel, über 300 Modelle. Wechseln Sie zwischen Grok, GPT Image 2, Flux, Wan, Seedream und jedem anderen Modell, indem Sie nur ein einziges Feld im API-Call ändern.
- Vollständige Modalabdeckung. LLMs, Text-to-Image, Image-to-Image, Text-to-Video, Image-to-Video – alles unter einem Dach.
- Keine Cold Starts, keine Rate-Limit-Überraschungen. Atlas Cloud läuft auf einer optimierten Inferenz-Infrastruktur, die für hohen Durchsatz ausgelegt ist.
- Entwickelt für Vergleichs-Workflows. Die Architektur von Atlas Cloud ist speziell darauf ausgelegt, identische Prompts über mehrere Modelle hinweg zu testen und die Ergebnisse zu vergleichen. Ein Schlüssel, eine Rechnung, volle Modellbreite.







