Nous avons soumis les modèles Grok Imagine Image et GPT Image-2 à 6 prompts identiques et neutres, couvrant la sémantique compositionnelle, l'anatomie photoréaliste, le rendu de texte multilingue, la transformation géométrique, l'édition locale et la fusion multi-référence.
Les modèles Grok Imagine Image et GPT Image-2 sont tous deux disponibles via une clé API Atlas Cloud unique, rendant ce benchmark reproductible en quelques minutes.
Pourquoi ce benchmark de comparaison de modèles d'IA générative d'images existe-t-il ?
Chaque "comparaison de modèles d'IA" trouvée en ligne tombe dans le même piège : prompts sélectionnés pour favoriser un modèle, sélection du meilleur résultat parmi cinq tentatives, et affirmations non vérifiées. Ce benchmark a été élaboré selon les principes Tier A : prompts neutres, entrées identiques pour tous les modèles, résultat par défaut sans sélection préalable (pas de "cherry-picking"), et critères d'évaluation énoncés en une phrase par catégorie.
Les six modèles du benchmark complet sont : Grok, GPT Image 2, Nano Banana 2, Nano Banana Pro, Wan 2.7 et Seedream 5.0. Cet article se concentre sur le duel Grok vs GPT Image 2, car il s'agit de la combinaison la plus pertinente commercialement pour les développeurs choisissant un modèle d'image par défaut.
Comment nous avons testé Grok Imagine Image vs GPT-Image 2 : 6 catégories, une règle Tier A
Chaque prompt cible une dimension de capacité unique et clairement définie. Les critères de réussite/échec ont été établis avant l'exécution des modèles, et non après avoir vu les résultats.
| Catégorie | Dimension principale testée | Critère de réussite/échec en une phrase |
|---|---|---|
| Cat 1 · Sémantique compositionnelle | Alignement des instructions | Le modèle a-t-il compté 7 objets, les a-t-il placés correctement et respecté la liste de négation ? |
| Cat 2 · Anatomie photoréaliste & Lumière | Qualité visuelle & physique | Les 5 doigts sont-ils anatomiquement corrects et les motifs de lumière caustique apparaissent-ils sur le visage ? |
| Cat 3 · Affiche multilingue | Rendu de texte dans l'image | Les caractères chinois et anglais sont-ils correctement rendus sans traits manquants ni glyphes hallucinés ? |
| Cat 4 · Transformation géométrique (I2I) | Contrôle d'édition + identité | Après une rotation de 45°, la personne est-elle toujours reconnaissable avec tous les détails de vêtements intacts ? |
| Cat 5 · Édition locale & Préservation | Précision d'édition | Exactement 3 modifications ont-elles été effectuées, tout le reste restant inchangé au niveau des pixels ? |
| Cat 6 · Fusion multi-référence | Cohérence inter-images | L'identité, le style et la scène de 3 références distinctes fusionnent-ils en une seule image cohérente ? |
Cat 1 · Sémantique compositionnelle (T2I)
Prompt :
A flat-lay overhead photograph of a wooden dining table containing exactly seven ceramic objects: three identical white teacups arranged in an equilateral triangle in the center, two black bowls placed to the right of the teacups, one red apple sitting inside the leftmost black bowl, and one empty wooden spoon resting on top of the rightmost black bowl with its handle pointing toward the upper-left corner of the frame. No coffee cups, no metal items, no plates, no glassware. Soft diffused window light from the upper-left, mid-morning. Realistic photography, no styling props.
Ceci est délibérément contradictoire. Le comptage, le langage spatial ("à droite de", "le plus à gauche") et les clauses de négation sont des modes de défaillance connus pour toutes les architectures de diffusion actuelles.
Checklist de notation
| # | Critère | Vérification |
|---|---|---|
| 1 | Nombre total d'objets | Strictement 7 objets en céramique |
| 2 | Trois tasses à thé blanches | Disposition en triangle équilatéral |
| 3 | Deux bols noirs | Positionnés à droite des tasses |
| 4 | Pomme rouge | À l'intérieur du bol noir le plus à gauche |
| 5 | Cuillère en bois | Sur le bol le plus à droite, manche pointant en haut à gauche |
| 6 | Conformité à la négation | Pas de tasses à café / métal / assiettes / verrerie |
| 7 | Source lumineuse | Lumière douce diffusée depuis le haut-gauche, ombres cohérentes |
| 8 | Style photographique | Aucun accessoire de stylisme (feuilles de palmier, bougies, etc.) |
Grok Imagine object count : visiblement 5 tasses à thé (et non 3), disposées en groupe plutôt qu'en triangle équilatéral. Les deux bols noirs sont présents, avec la pomme rouge correctement située dans l'un d'eux. La cuillère en bois est présente sur le bol de droite, la direction du manche est approximativement en haut à gauche — ce critère est validé. La conformité à la négation est propre. La source lumineuse et le style photographique sont corrects.
GPT Image 2 a démontré un meilleur suivi des instructions sur les composants spatiaux, bien qu'aucun modèle n'ait atteint le compte exact de 7 objets avec toutes les contraintes de placement simultanément satisfaites.
Cat 2 · Anatomie photoréaliste & Lumière (T2I)
Prompt :
Close-up portrait of an East Asian woman in her early thirties holding a half-full crystal wine glass of red wine in her right hand, all five fingers and thumb fully visible wrapping naturally around the stem and partially around the bowl. She is seated by a tall west-facing window during golden hour. Late afternoon sunlight slices through the wine creating warm crimson caustic patterns on her left cheekbone and jawline. Her left hand rests on an open hardcover book on her lap. Catchlights from the window visible in both eyes. Skin shows ultra-detailed pores, fine peach-fuzz, subsurface scattering on the earlobe and bridge of the nose. Hair backlit with rim light. 85mm lens, f/2.0, shallow depth of field, photographic realism.
Grok Imagine a excellé sur son avantage principal. L'anatomie de la main était correcte — nombre de doigts précis, posture de préhension naturelle autour du pied et du calice, angle du poignet physiquement plausible. La texture de la peau présentait des détails authentiques au niveau des pores, sans lissage plastique excessif.
La projection de lumière caustique a été le point faible de Grok. Les motifs rouges sont apparus sur le visage comme une superposition stylisée, manquant de finesse.
GPT Image 2 a inversé ce compromis. Son rendu de lumière caustique était nettement plus précis physiquement — les motifs sur la pommette étaient plus petits, diffus et suivaient la géométrie du verre. Cependant, l'anatomie de la main était légèrement moins naturelle, avec une certaine raideur.
Cat 3 · Affiche multilingue (T2I)
Prompt :
A vintage 1960s-style travel poster for a fictional film festival, illustrated in the style of mid-century commercial design. Top of poster, large bold serif Chinese characters reading "时光电影节" (line 1), and below in smaller Chinese characters "第七届 · 上海 · 1965年5月" (line 2). Center: a stylized illustration of an old film projector casting a beam onto a slightly curved cinema screen. Lower-center: a tall champagne coupe glass with the English text "GRAND OPENING NIGHT" wrapping along the curvature of the glass bowl, following the elliptical perspective. Right edge, vertical text reading "presented by 时代影业 · TIMES PICTURES" running top-to-bottom. Bottom strip: small English credits text "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" in a single line. Color palette: cream off-white background, deep crimson red, mustard yellow accents. Slight aged paper texture, subtle grain.
Grok Imagine a produit une affiche visuellement saisissante, mais a échoué sur le critère de texte critique : le titre utilise des caractères chinois traditionnels ("時光電影節") au lieu des caractères simplifiés demandés ("时光电影节").
GPT Image 2 a réussi le test des jeux de caractères avec précision : le titre et le sous-titre sont en chinois simplifié sans traits manquants. Le rendu du texte sur le verre et sur le bord vertical est conforme et lisible. C'est une victoire nette en termes de conformité.
Cat 4 · Transformation géométrique (I2I)
Le prompt demandait de faire pivoter le sujet de 45° vers sa gauche, tout en conservant le même cadrage et les détails complexes de la tenue (manteau, étole en fourrure, badge en cuivre, gantelets).
Grok a maintenu l'identité faciale au-dessus du seuil ArcFace 0.5. La section de l'étole en fourrure précédemment cachée est devenue visible, avec une continuité de gradient raisonnable.
GPT Image 2 a montré une cohérence globale légèrement supérieure au niveau des couches de vêtements, mais a introduit une dérive plus importante de l'identité faciale — un compromis significatif selon le cas d'usage.
Cat 5 · Édition locale & Préservation (I2I)
Le prompt exigeait trois modifications : retirer un chat du canapé, remplacer une tasse de thé par un verre de jus d'orange, et ajouter des lunettes de lecture sur les livres. La préservation du reste de la scène était obligatoire.
Grok Imagine a effectué les modifications, mais la gestion de la lumière du verre de jus d'orange ne semblait pas intégrée à l'éclairage existant de la scène. La vue par la fenêtre n'a pas été conservée de manière optimale.
GPT Image 2 a mieux préservé la scène globale. Le retrait du chat était propre, le verre de jus d'orange présentait des ombres cohérentes avec la source de lumière, et la vue par la fenêtre a été parfaitement conservée.
Cat 6 · Fusion multi-référence (I2I)
Le prompt combinait trois références : un portrait (identité), un style (aquarelle) et une mise en page (scène).
Grok Imagine a échoué sur le critère principal : le résultat est photoréaliste et non une aquarelle. C'est une disqualification directe pour cette catégorie.
GPT Image 2 a réussi un rendu d'aquarelle authentique sur l'ensemble de l'image, tout en conservant la structure de la scène et une ressemblance avec l'identité fournie. C'est le seul résultat qui a accompli la tâche.
Essayez les modèles Grok Imagine Image et GPT Image 2 via Atlas Cloud
Le benchmark est reproductible. Grok Imagine et GPT Image 2 sont disponibles dès maintenant via Atlas Cloud — sans configuration de facturation par modèle et sans liste d'attente.
Pourquoi Atlas Cloud
- Une clé API, plus de 300 modèles. Alternez entre Grok, GPT Image 2, Flux, Wan, Seedream et tous les autres modèles en changeant simplement un champ de modèle.
- Couverture complète. LLM, text-to-image, image-to-image, text-to-video, image-to-video — tout est centralisé.
- Pas de "cold starts", pas de surprises sur les limites de débit. Atlas Cloud repose sur une infrastructure d'inférence optimisée pour le débit.
- Conçu pour les workflows de comparaison. L'architecture d'Atlas Cloud est pensée pour tester des prompts identiques sur plusieurs modèles et comparer les résultats en toute simplicité. Une clé, une facture, une vaste gamme de modèles.







