Grok Imagine ImageおよびGPT Image-2モデルを使用し、構文的セマンティクス、フォトリアルな人体描写、多言語テキストのレンダリング、幾何学的変換、ローカル編集、複数参照の融合という6つの同一かつモデル中立的なプロンプトで比較検証を行いました。
Grok Imagine ImageおよびGPT Image-2の両モデルは、単一のAtlas Cloud APIキー経由で利用可能です。そのため、このベンチマークは数分で完全に再現可能です。
AI画像モデル比較ベンチマークが存在する理由
ネット上で見かける「AI画像モデル比較」の多くは、都合の良いプロンプトの選択、ベスト・オブ・ファイブによる出力、検証されていない主張といった罠に陥っています。本ベンチマークは、Tier A原則に基づき構築されました。モデル中立的なプロンプト、全モデル共通の入力、単一シードによるデフォルト出力(チェリーピッキングなし)、そして各カテゴリーを1文で定義できるスコアリング基準を採用しています。
このフルベンチマークで実行した6つのモデルは、Grok、GPT Image 2、Nano Banana 2、Nano Banana Pro、Wan 2.7、Seedream 5.0です。本記事では、開発者がデフォルトの画像モデルを選択する際に最も商業的に重要となる組み合わせである、GrokとGPT Image 2の直接対決に焦点を当てます。
Grok Imagine Image vs GPT-Image 2のテスト方法:6つのカテゴリーとTier Aルール
すべてのプロンプトは、明確に定義された単一の機能的側面をターゲットにしています。合格/不合格の基準はモデルの結果を見た後ではなく、実行前に定義されました。
| カテゴリー | テストする主要次元 | 合格/不合格の判断基準(1文) |
|---|---|---|
| Cat 1 · 構文的セマンティクス | 指示への忠実度 | モデルは7つのオブジェクトを数え、正しく配置し、否定リストを守れたか? |
| Cat 2 · フォトリアルな人体と光 | 視覚品質と物理現象 | 5本の指は解剖学的に正しく、顔にワインを通した光のパターンが現れているか? |
| Cat 3 · 多言語ポスター | 画像内のテキストレンダリング | 中国語と英語が欠けや誤字なく正しくレンダリングされているか? |
| Cat 4 · 幾何学的変換 (I2I) | 編集制御性と同一性 | 45度回転後も、服装のディテールを保持したまま同一人物と認識できるか? |
| Cat 5 · ローカル編集と領域維持 | 編集の精度 | 他の要素をピクセルレベルで変えずに、指定された3箇所の編集が行われたか? |
| Cat 6 · 複数参照の融合 | クロス画像の一貫性 | 3つの別々の参照(ID、スタイル、シーン)が単一の画像に統合されているか? |
Cat 1 · 構文的セマンティクス(T2I)
プロンプト:
木製のダイニングテーブルを上から撮影したフラットレイ写真。画面内には正確に7つの陶器がある:中央に正三角形に配置された3つの白いティーカップ、ティーカップの右側に2つの黒いボウル、左端の黒いボウルの中に赤いリンゴが1つ、右端の黒いボウルの上に空の木製スプーンが1つ乗っており、柄は左上を向いている。否定指令:コーヒーカップ、金属製品、皿、ガラス製品は禁止。左上からの柔らかな拡散光、午前中。リアルな写真、スタイリング小物なし。
これは意図的な高難度テストです。「カウント」、「空間言語(右側、左端)」、「否定文」は、現在のすべての拡散ベースアーキテクチャにとって既知の弱点です。
スコアリングチェックリスト
| # | 基準 | チェック |
|---|---|---|
| 1 | 合計オブジェクト数 | 正確に7つの陶器 |
| 2 | 3つの白いティーカップ | 等辺三角形の配置 |
| 3 | 2つの黒いボウル | ティーカップの右側に配置 |
| 4 | 赤いリンゴ | 左端のボウルの中 |
| 5 | 木製スプーン | 右端のボウル上、柄が左上 |
| 6 | 否定指令の遵守 | コーヒーカップ/金属/皿/ガラスなし |
| 7 | 光源 | 左上からの柔らかな光、影の一貫性 |
| 8 | 写真スタイル | 撮影用小物の排除 |
Grok Imagineは視覚的にティーカップが5つ(3つではない)確認でき、正三角形ではなくクラスター状に配置されていました。黒いボウルは存在し、リンゴも正しく配置されています。スプーンの配置と柄の方向は基準を満たしています。否定指令の遵守は完璧です。
GPT Image 2は、空間コンポーネントにおいてより高い指示追従性を示しましたが、両モデルとも全ての配置制約を同時に満たした正確な7つのオブジェクト生成には至りませんでした。
Cat 2 · フォトリアルな人体と光(T2I)
プロンプト:
30代前半の東アジア人女性のクローズアップポートレート。右手に赤ワインが半分入ったクリスタルグラスを持ち、5本の指がステムとボウルを自然に包み込んでいる。ゴールデンアワーの西向きの窓辺。午後の日光がワインを透過し、左頬骨と顎のラインに暖かい深紅のコースティクス(光の屈折)を作り出している。左手は膝の上の開いたハードカバーの本に乗っている。窓のキャッチライトが両目に反射。肌は毛穴や細かい産毛まで詳細に描かれ、耳たぶと鼻筋にはサブサーフェス・スキャタリング(SSS)が見える。逆光で髪の毛にリムライト。85mmレンズ、f/2.0、浅い被写界深度。
これは、生成モデルにとって歴史的に最も難しい単一画像テストです。
スコアリングチェックリスト
| # | 基準 | チェック |
|---|---|---|
| 1 | 手の解剖学 | 5本の指、ステムとボウルを自然に把持 |
| 2 | コースティクス | 頬骨にワインの屈折した赤い模様 |
| 3 | キャッチライトの一貫性 | 両目で位置と形が一致 |
| 4 | SSS(表面下散乱) | 耳たぶと鼻筋で光を透過 |
| 5 | リムライト | 光源と方向が一致 |
| 6 | 肌のリアリズム | AI特有の過剰な平滑化がないこと |
Grok Imagineは、解剖学的に正確な手の描写(指の数と自然な把持)で大きな強みを発揮しました。肌の質感も毛穴レベルまで非常にリアルです。しかし、コースティクスの描写は弱く、物理的な屈折というよりはスタイライズされた赤いオーバーレイのように見えました。
GPT Image 2はこれと逆のトレードオフを示しました。コースティクスは物理的に極めて正確で、光の屈折の仕方が非常にリアルです。しかし、手の描写にはわずかに硬さが見られ、肌の質感もGrokに比べるとやや平坦な印象を受けました。
Cat 3 · 多言語ポスター(T2I)
プロンプト:
1960年代風の架空の映画祭のトラベルポスター。当時の商業デザインスタイル。上部に大きなボールド体のセリフフォントで「时光电影节」(1行目)、その下に小さな中国語で「第七届 · 上海 · 1965年5月」(2行目)。中央に古い映写機のイラスト。下部中央にシャンパングラスがあり、その曲線に沿って「GRAND OPENING NIGHT」の英語。右端に垂直のテキスト「presented by 时代影业 · TIMES PICTURES」。下部にスタッフクレジット。
スコアリングチェックリスト
| # | 基準 | チェック |
|---|---|---|
| 1 | 中国語の正確性 | 繁体字ではなく簡体字でレンダリング |
| 2 | バイリンガルレイアウト | 中国語と英語が正しく分離 |
| 3 | グラスの上の曲線テキスト | 楕円形のパースに追従 |
| 4 | 垂直テキスト | 上から下に正しく読めるか |
| 5 | タイポグラフィ階層 | 見出しと本文の区別 |
| 6 | スタイルと可読性 | 1960年代の美学を維持 |
Grok Imagineは視覚的に美しいポスターを作成しましたが、致命的なミスがありました。プロンプトで指定した簡体字「时光电影节」ではなく、繁体字「時光電影節」がレンダリングされました。これはローカライズの観点からは不合格です。
GPT Image 2は、簡体字「时光电影节」を正確にレンダリングし、指示を完璧に遵守しました。シャンパングラスの曲線に沿ったテキストや、垂直方向の右端のテキスト、スタッフクレジットの配置も非常に正確で、プロフェッショナルなレベルの完成度です。
Cat 4 · 幾何学的変換(I2I)
モデルに対し、ファッションルックブックの被写体を45度左に回転させ、同じカメラ位置を維持するように指示しました。複雑なレイヤード衣装の細部(コート、レザーケープ、毛皮ストール、銅バッジ、ガントレット、ブーツ)を維持できるかを検証しました。
Grokは、ArcFaceの類似性閾値0.5以上で顔の同一性を維持しました。毛皮ストールの隠れていた部分の露出も適切です。GPT Image 2は衣装の一貫性ではやや勝るものの、顔の同一性においてわずかな漂白が見られました。
Cat 5 · ローカル編集と領域維持(I2I)
リビングルームのシーンから:1) ソファの猫を削除、2) お茶を氷入りオレンジジュースに置換、3) 本の上に黒いフレームの老眼鏡を追加。これら以外は一切変更不可(ソファの模様、本の位置、ランプ、窓の外の景色など)。
Grokは3つの編集を全て完了しましたが、コースティクスの光が周囲の照明と不一致を起こしました。GPT Image 2は、より優れた一貫性を示し、特に影の方向や照明の反射の統合において優れた結果を残しました。ただし、全体の明るさがわずかに変化する「漂白」が見られました。
Cat 6 · 複数参照の融合(I2I)
人物ID(ラテン系女性)、スタイル(水彩画)、シーン(石畳の広場)の3つを統合。
Grokはフォトリアルなスタイルから脱却できず、単なる写真フィルタのような仕上がりとなり、このカテゴリーでは不合格となりました。GPT Image 2は、シーン構造を維持したまま、全体を説得力のある水彩画スタイルでレンダリングし、3つの参照を完璧に融合させました。
Atlas CloudでGrok Imagine ImageおよびGPT Image 2を試す
このベンチマークは再現可能です。Grok ImagineおよびGPT Image 2は、Atlas Cloudを通じて現在利用可能です。
Atlas Cloudを選ぶ理由
- 単一APIで300以上のモデル: Grok、GPT Image 2、Flux、Wan、Seedreamなどを単一のキー、同一のエンドポイントで即座に切り替え可能。
- フルモーダル対応: LLM、T2I、I2I、T2V、I2Vのすべてをカバー。
- コールドスタートなし: 最適化された推論インフラにより、一貫した低遅延を実現。
- 比較ワークフローに最適化: 本ベンチマークのように、同一プロンプトを複数のモデルで比較検証するためのアーキテクチャ設計。One key, one bill, full model breadth.







