Testamos o GPT Image 2 vs Grok Imagine com um benchmark de 6 categorias

Submetemos os modelos Grok Imagine Image e GPT Image-2 a 6 prompts idênticos e neutros, abrangendo semântica composicional, anatomia fotorrealista, renderização de texto multilíngue, transformação geométrica, edição local e fusão de múltiplas referências.

Tanto o Grok Imagine Image quanto o modelo GPT Image-2 estão disponíveis por meio de uma única chave de API da Atlas Cloud, tornando este benchmark exato reprodutível em minutos.

Por que este benchmark de comparação de modelos de imagem por IA existe

Toda "comparação de modelos de imagem por IA" que você encontra online cai na mesma armadilha: prompts escolhidos a dedo, seleção de "melhor de cinco" saídas e alegações não testadas. Este benchmark foi construído em torno dos princípios de Nível A: prompts neutros, entradas idênticas em todos os modelos, saída padrão de semente única (sem "cherry-picking") e critérios de pontuação que podem ser declarados em uma única frase por categoria.

Os seis modelos na execução completa do benchmark são: Grok, GPT Image 2, Nano Banana 2, Nano Banana Pro, Wan 2.7 e Seedream 5.0. Este artigo foca no confronto direto entre Grok e GPT Image 2, sendo o pareamento comercialmente mais relevante para desenvolvedores que escolhem um modelo de imagem padrão.

Como testamos o Grok Imagine Image VS GPT-Image 2: 6 categorias, uma regra de Nível A

Cada prompt tem como alvo uma dimensão de capacidade única e claramente declarada. Os critérios de aprovação/reprovação foram definidos antes da execução dos modelos, não depois de ver os resultados.

Categoria	Dimensão principal testada	Critério de aprovação/reprovação (uma frase)
Cat 1 · Semântica Composicional	Alinhamento de instrução	O modelo contou 7 objetos, posicionou-os corretamente e obedeceu à lista de negação?
Cat 2 · Anatomia Fotorrealista e Luz	Qualidade visual e física	Todos os 5 dedos estão anatomicamente corretos e padrões de luz cáustica aparecem no rosto?
Cat 3 · Pôster Multilíngue	Renderização de texto na imagem	Caracteres chineses e ingleses foram renderizados corretamente, sem traços ausentes ou glifos alucinados?
Cat 4 · Transformação Geométrica (I2I)	Controlabilidade de edição + identidade	Após uma rotação de 45°, a pessoa ainda é reconhecível e todos os detalhes da roupa estão intactos?
Cat 5 · Edição Local e Preservação de Região	Precisão de edição	Foram feitas exatamente 3 edições, com tudo o resto inalterado em nível de pixel?
Cat 6 · Fusão de Múltiplas Referências	Consistência entre imagens	Identidade, estilo e cena de 3 referências separadas se fundem em uma única imagem coerente?

Cat 1 · Semântica Composicional (T2I)

Prompt:

Uma foto aérea de cima para baixo de uma mesa de jantar de madeira contendo exatamente sete objetos de cerâmica: três xícaras de chá brancas idênticas dispostas em um triângulo equilátero no centro, duas tigelas pretas colocadas à direita das xícaras, uma maçã vermelha dentro da tigela preta mais à esquerda e uma colher de madeira vazia descansando em cima da tigela preta mais à direita com o cabo apontando para o canto superior esquerdo do quadro. Sem xícaras de café, sem itens de metal, sem pratos, sem vidros. Luz de janela suave e difusa vinda do canto superior esquerdo, meio da manhã. Fotografia realista, sem adereços de estilo.

Isso é deliberadamente contraditório. Contagem, linguagem espacial ("à direita de", "mais à esquerda") e cláusulas de negação são modos de falha conhecidos para todas as arquiteturas baseadas em difusão atuais.

Checklist de pontuação

#	Critério	Verificação
1	Contagem total de objetos	Estritamente 7 objetos de cerâmica
2	Três xícaras de chá brancas	Arranjo em triângulo equilátero
3	Duas tigelas pretas	Posicionadas à direita das xícaras
4	Maçã vermelha	Dentro da tigela preta mais à esquerda
5	Colher de madeira	Descansando na tigela mais à direita, cabo apontando para cima/esquerda
6	Conformidade com negação	Sem xícaras de café / sem metal / sem pratos / sem vidros
7	Fonte de luz	Luz difusa suave vinda de cima/esquerda, sombras consistentes
8	Estilo de fotografia	Sem clichês de estilo (folhas de palmeira, velas, etc.)

Grok Imagine Image | GPT-Image 2

Contagem de objetos do Grok Imagine: visivelmente 5 xícaras de chá (não 3), dispostas em um grupo em vez de um triângulo equilátero. As duas tigelas pretas estão presentes, com a maçã vermelha corretamente dentro de uma delas. A colher de madeira está presente e descansando na tigela mais à direita, direção do cabo aproximadamente superior esquerda — este critério foi aprovado. A conformidade com a negação é limpa: sem xícaras de café, sem metal, sem pratos, sem vidros. A fonte de luz vinda de cima/esquerda com sombras consistentes foi aprovada. Sem adereços de estilo presentes.

O GPT Image 2 demonstrou um acompanhamento de instruções mais forte nos componentes espaciais, embora nenhum dos modelos tenha alcançado uma contagem perfeita de 7 objetos com todas as restrições de posicionamento satisfeitas simultaneamente.

Cat 2 · Anatomia Fotorrealista e Luz (T2I)

Prompt:

Retrato em close-up de uma mulher do leste asiático na casa dos trinta anos segurando uma taça de vinho de cristal meio cheia de vinho tinto na mão direita, com todos os cinco dedos e o polegar totalmente visíveis envolvendo naturalmente a haste e parcialmente a taça. Ela está sentada perto de uma janela alta voltada para o oeste durante a "hora dourada". A luz do sol do final da tarde atravessa o vinho, criando padrões cáusticos carmesins quentes em sua maçã do rosto esquerda e mandíbula. Sua mão esquerda descansa sobre um livro de capa dura aberto em seu colo. Reflexos da janela visíveis em ambos os olhos. A pele mostra poros ultra-detalhados, penugem fina, espalhamento subsuperficial no lóbulo da orelha e na ponte do nariz. Cabelo retroiluminado com luz de contorno. Lente 85mm, f/2.0, profundidade de campo rasa, realismo fotográfico.

Este é historicamente o teste de imagem única mais difícil para modelos generativos.

Checklist de pontuação

#	Critério	Verificação
1	Anatomia da mão	Todos os 5 dedos + polegar, pegada natural na haste e na taça
2	Luz cáustica	Padrões carmesins quentes projetados no rosto
3	Consistência dos reflexos (catchlight)	Mesma posição e forma em ambos os olhos
4	Espalhamento subsuperficial (SSS)	Visível no lóbulo da orelha e ponte do nariz
5	Física da luz de contorno	Direção coincide com a fonte de luz
6	Realismo da pele	Sem "suavização excessiva de IA"; poros e penugem visíveis

Grok Imagine Image | GPT-Image 2

O Grok Imagine entregou fortemente em sua vantagem principal. A anatomia da mão estava correta — contagem de dedos precisa, postura de pegada natural ao redor da haste e da taça, ângulo do pulso fisicamente plausível. Isso, por si só, ultrapassa uma barreira na qual muitos modelos falham completamente. A textura da pele mostrou detalhes genuínos ao nível dos poros com penugem fina visível e sem suavização excessiva de plástico, e o espalhamento subsuperficial na ponte do nariz e maçãs do rosto produziu uma qualidade quente e permeável à luz que é lida como fotograficamente real. A luz de contorno no cabelo seguiu a direção da fonte da janela de forma coerente.

A projeção de luz cáustica foi o ponto mais fraco do Grok. Os padrões de luz carmesim apareceram no rosto, mas foram renderizados como uma sobreposição vermelha superdimensionada e dramaticamente estilizada — mais parecendo um efeito de gradação de cor do que os filamentos de luz finos e de bordas suaves que resultam fisicamente da luz solar passando pelo vinho. A plausibilidade física da cáustica falhou no padrão de precisão.

O GPT Image 2 inverteu o compromisso. Sua renderização de luz cáustica foi notavelmente mais fisicamente precisa — os padrões carmesins quentes na maçã do rosto eram menores, mais difusos e seguiam a geometria espacial da luz passando por uma taça de vinho no ângulo correto. Este é o detalhe que o Grok perdeu. No entanto, o GPT Image 2 pagou por isso em outros aspectos: a anatomia da mão era ligeiramente menos natural, com ângulos dos dedos ao redor da haste mostrando uma leve rigidez. A textura da pele tendeu para a qualidade mais suave e levemente mais plana, comum em retratos de IA, com menos calor de SSS visível e intensidade de luz de contorno mais fraca em comparação com o Grok.

Cat 3 · Pôster Multilíngue (T2I)

Prompt:

Um pôster de viagem estilo vintage dos anos 1960 para um festival de cinema fictício, ilustrado no estilo do design comercial de meados do século. No topo do pôster, grandes caracteres serifa em negrito em chinês lendo "时光电影节" (linha 1) e, abaixo, em caracteres chineses menores, "第七届 · 上海 · 1965年5月" (linha 2).

Centro: uma ilustração estilizada de um antigo projetor de cinema projetando um feixe em uma tela de cinema ligeiramente curva.

Centro inferior: uma taça de champanhe alta com o texto em inglês "GRAND OPENING NIGHT" envolvendo a curvatura da taça, seguindo a perspectiva elíptica.

Borda direita, texto vertical lendo "presented by 时代影业 · TIMES PICTURES" correndo de cima para baixo.

Faixa inferior: pequeno texto de créditos em inglês "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" em uma única linha.

Paleta de cores: fundo creme, vermelho carmesim profundo, detalhes em amarelo mostarda. Ligeira textura de papel envelhecido, grão sutil.

Checklist de pontuação

#	Critério	Verificação
1	Precisão do chinês	Sem traços ausentes, sem caracteres alucinados
2	Layout bilíngue	Chinês e inglês não misturados; cada um na zona correta
3	Texto curvo na taça	Inglês segue a perspectiva elíptica da taça
4	Texto vertical na borda direita	Legível de cima para baixo
5	Hierarquia tipográfica	Distinção clara entre o título
6	Estilo vs. legibilidade	Estética dos anos 1960 mantida sem sacrificar a clareza

Grok Imagine Image | GPT-Image 2

O Grok Imagine produziu um pôster visualmente marcante com forte energia de ilustração de meados do século. No entanto, falhou no critério de texto mais crítico: o título lê-se "時光電影節" em Chinês Tradicional, não o Simplificado "时光电影节" especificado no prompt. Esta é uma falha de conformidade de conjunto de caracteres — uma distinção significativa para qualquer caso de uso de localização ou publicação. A segunda linha "第七屆 · 上海 · 1965年5月" usou da mesma forma caracteres tradicionais. No lado estrutural, "GRAND OPENING NIGHT" apareceu na taça de champanhe com curva parcial seguindo, embora a adesão à perspectiva elíptica fosse aproximada. O texto vertical da borda direita "TIMES PICTURES" estava legível. A linha de créditos inferior estava presente e legível. A paleta de cores — carmesim, mostarda, creme — foi bem executada. A energia geral do layout era alta, mas a falha entre Tradicional vs. Simplificado é um desclassificador rígido para o prompt declarado.

O GPT Image 2 passou no teste de conjunto de caracteres de forma limpa: o título "时光电影节" e o subtítulo "第七届 · 上海 · 1965年5月" são renderizados corretamente em Chinês Simplificado, sem traços ausentes ou glifos alucinados — uma vitória direta de conformidade sobre o Grok. A taça de champanhe é visível no centro inferior com "GRAND OPENING NIGHT" seguindo a curvatura da taça de forma convincente. O texto vertical da borda direita "时代影业 · TIMES PICTURES" corre de cima para baixo e é totalmente legível, com chinês e inglês colocados corretamente na mesma coluna vertical sem erros de mistura. A linha de créditos inferior — "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" — está presente e legível como uma única linha. A hierarquia tipográfica entre título, subtítulo e nota de rodapé é claramente mantida. A textura do papel envelhecido e a paleta de cores de meados do século são bem realizadas. A composição integra uma silhueta reconhecível do horizonte de Xangai como a ilustração central, o que não foi especificado no prompt, mas adiciona autenticidade contextual sem quebrar nenhum critério.

Cat 4 · Transformação Geométrica (I2I)

O prompt instruiu o modelo a girar um modelo de lookbook de moda de corpo inteiro exatamente 45° para a esquerda, mantendo a mesma posição da câmera. A imagem de referência apresentava um traje complexo em camadas: sobretudo marrom longo, capa de ombro de couro, estola de pele com um gradiente visível (marrom profundo → prata → creme), um emblema de cobre redondo no peito com um retrato embutido, luvas de couro pretas e botas de couro de dois tons. Nenhum desses detalhes foi listado no prompt — o modelo teve que preservá-los apenas através da compreensão da identidade.

Este é um teste de estresse de capacidade deliberado. A instrução foi intencionalmente curta para evitar alimentar o modelo com seu próprio rubro de avaliação.

Checklist de pontuação

#	Critério	Verificação
1	Identidade facial	Similaridade ArcFace ≥ 0,5
2	Revelação da estola de pele	Lado direito prateado anteriormente oculto
3	Emblema no peito	Contorno de cobre circular + retrato embutido
4	Bainha do casaco e camadas internas	Direção de caimento natural após rotação
5	Postura dos pés	Frente esquerda
6	Volume da luva	Posição da mão + textura de tricô visível
7	Limite de cor da bota	Marrom
8	Consistência do fundo	Fundo de estúdio cinza puro
9	Proporção de saída	Quadro completo 9:16 de corpo inteiro mantido
10	Direção do olhar	Segue a rotação — não continua encarando a câmera

Grok Imagine Image | GPT-Image 2

O Grok manteve a identidade facial acima do limite ArcFace 0,5 apropriado para imagens de corpo inteiro. A seção do lado direito da estola de pele anteriormente oculta tornou-se parcialmente visível a 45°, com continuidade de gradiente razoável. O contorno do emblema do peito foi preservado, embora o detalhe do retrato embutido mostrasse compressão. O limite de cor da bota e a textura da luva se mantiveram.

O GPT Image 2 mostrou uma coerência geral das camadas de roupa ligeiramente mais forte, mas introduziu mais desvio na identidade facial — um compromisso significativo dependendo do caso de uso.

Cat 5 · Edição Local e Preservação de Região (I2I)

O prompt exigia exatamente três edições em uma cena de sala de estar: remover um gato dormindo do sofá (e restaurar a almofada naturalmente), substituir uma xícara de chá quente por um copo de suco de laranja com gelo e adicionar óculos de leitura de armação preta dobrados em cima do livro do meio na mesa de centro. A instrução proibia explicitamente alterar qualquer outra coisa — padrão de tecido do sofá, posições dos livros, lâmpada, vista da janela, cor da parede, piso.

O teste de preservação é tão importante quanto o teste de edição. Modelos que reinterpretam toda a cena enquanto fazem alterações locais não são utilizáveis para retoque de fotografia de produto ou desenvolvimento de cena iterativo.

Checklist de pontuação

#	Critério	Verificação
1	Todas as 3 edições concluídas	Gato removido
2	Restauração da almofada	Sem recuo em forma de gato ou resíduo de pelo
3	Física do suco	Geometria do copo, refração do gelo, direção da sombra
4	Posicionamento dos óculos	Corretamente no livro do meio
5	Tecido do sofá	Padrão de trama de diamante intacto
6	Livros inalterados	Posições, capas
7	Lâmpada inalterada	Forma, status de brilho e posição preservados
8	Vista da janela inalterada	Vista da cidade permanece borrada e consistente
9	Parede e piso inalterados	Parede off-white e piso de madeira claros inalterados
10	Iluminação geral preservada	Direção da fonte de luz traseira direita inalterada

Grok Imagine Image | GPT-Image 2

O Grok Imagine completou todas as três edições necessárias. O gato foi removido e a almofada do sofá restaurada de forma limpa, sem recuo visível ou resíduo de pelo — o padrão do tecido na zona editada resistiu bem. O copo de suco de laranja apareceu na posição correta. O copo de suco, no entanto, exibe um padrão de destaque que não se alinha com esta direção da fonte, parecendo como se tivesse sido composto com um modelo de luz independente, em vez de integrado à iluminação existente da cena. A base do copo também mostra sombra de contato insuficiente contra a superfície da mesa de centro de madeira escura, criando um efeito flutuante sutil, mas detectável.

O GPT Image 2 também completou as três edições e demonstrou uma preservação de cena geral mais forte. A remoção do gato foi igualmente limpa. O copo de suco de laranja foi bem renderizado com posicionamento correto e direção de sombra correspondente em relação à fonte de luz da janela lateral direita — a geometria do copo e a opacidade do líquido parecem mais refinadas do que a versão do Grok. Os óculos de leitura foram colocados visivelmente na pilha de livros. Crucialmente, a vista da janela foi preservada — a cidade do lado de fora permanece visível e borrada, consistente com a referência, onde o Grok falhou. Tecido do sofá, lâmpada, parede e piso se mantiveram. Os livros parecem consistentes em posição e cor. A única mudança notável: a cena geral parece ligeiramente mais brilhante e com contraste alterado em relação ao original, sugerindo alguma reinterpretação global da iluminação em vez de uma verdadeira preservação em nível de pixel — um desvio pequeno, mas detectável.

Cat 6 · Fusão de Múltiplas Referências (I2I)

O prompt combinou três referências independentes: uma identidade de retrato (mulher latina, olhos cor de âmbar, cabelo castanho escuro ondulado), um estilo de ilustração em aquarela (paisagem rural japonesa, pinceladas visíveis, atmosfera de conto de fadas quente) e um layout de cena (praça da cidade europeia de paralelepípedos ao pôr do sol, poste de ferro fundido, arco de pedra). A tarefa: produzir uma única pintura em aquarela coerente da pessoa identificada em pé na cena — não uma foto com filtro, não uma colagem.

O desacoplamento de três referências é o teste mais difícil neste benchmark. A maioria dos modelos superpondera uma referência ou falha em alcançar a renderização através do estilo.

Checklist de pontuação

#	Critério	Verificação
1	Desacoplamento de três vias	Identidade
2	Transferência de estilo completa	Saída é aquarela — não foto + filtro
3	Retenção da identidade pós-estilo	Olhos de âmbar + estrutura facial reconhecível
4	Estrutura da cena preservada	Paralelepípedos, poste de luz e layout do arco intactos
5	Adição natural de roupas	Casaco de viagem e bolsa adicionados sem quebrar a composição
6	Consistência da direção da luz	Brilho do pôr do sol visível nos paralelepípedos e na figura

Grok Imagine Image | GPT-Image 2

O Grok Imagine falhou no critério central: a saída é fotorrealista, não uma aquarela. A praça de paralelepípedos e a figura retêm total nitidez fotográfica com apenas uma leve passagem de textura pictórica — nenhuma das pinceladas, sangramento de cor ou qualidade de borda pintada à mão da Ref 2 está presente. A estrutura da cena, identidade, roupas e direção da luz foram aprovadas. Mas renderizar o meio errado completamente é uma desclassificação de nível de categoria, não uma dedução parcial.

O GPT Image 2 alcançou uma renderização em aquarela genuína em todo o quadro — edifícios, paralelepípedos, céu e figura carregam pinceladas visíveis e sangramento de cor suave consistente com a Ref 2. A estrutura da cena da Ref 3 está intacta, o poste de luz está aceso e o arco de pedra é visível no plano médio. A identidade é parcialmente retida através da transformação de estilo — o cabelo escuro ondulado e a estrutura facial são reconhecíveis, embora as características finas sejam, como esperado, abstraídas. Casaco, bolsa, direção da luz e olhar seguem o prompt. Esta é a única saída que completou a tarefa real.

Experimente os modelos Grok Imagine Image e GPT Image 2 via Atlas Cloud

O benchmark é reprodutível. Tanto o Grok Imagine quanto o GPT Image 2 estão disponíveis agora através da Atlas Cloud — sem configuração de cobrança por modelo, sem listas de espera.

Por que a Atlas Cloud

Uma chave de API, mais de 300 modelos. Troque entre Grok, GPT Image 2, Flux, Wan, Seedream e todos os outros modelos no pool alterando um único campo de modelo. A mesma chave, o mesmo endpoint, o mesmo painel de cobrança — esteja você executando um benchmark de seis modelos ou construindo um pipeline de produção de imagens.
Cobertura multimodal completa. LLMs, texto-para-imagem, imagem-para-imagem, texto-para-vídeo, imagem-para-vídeo — tudo sob o mesmo teto. Se o seu fluxo de trabalho precisa de um modelo de linguagem para refinamento de prompt e um modelo de imagem para geração, ambos vivem na mesma API.
Sem cold starts, sem surpresas de limite de taxa. A Atlas Cloud roda em infraestrutura de inferência otimizada, criada especificamente para throughput. Você obtém latência consistente, esteja fazendo uma chamada ou mil.
Criado para fluxos de trabalho de comparação. O caso de uso exato que este benchmark demonstra, executando prompts idênticos em vários modelos e comparando as saídas, é para o que a arquitetura da Atlas Cloud foi projetada. Uma chave, uma fatura, total amplitude de modelos.