Submetemos os modelos Grok Imagine Image e GPT Image-2 a 6 prompts idênticos e neutros, abrangendo semântica composicional, anatomia fotorrealista, renderização de texto multilíngue, transformação geométrica, edição local e fusão de múltiplas referências.
Tanto o Grok Imagine Image quanto o modelo GPT Image-2 estão disponíveis por meio de uma única chave de API da Atlas Cloud, tornando este benchmark exato reprodutível em minutos.
Por que este benchmark de comparação de modelos de imagem por IA existe
Toda "comparação de modelos de imagem por IA" que você encontra online cai na mesma armadilha: prompts escolhidos a dedo, seleção de "melhor de cinco" saídas e alegações não testadas. Este benchmark foi construído em torno dos princípios de Nível A: prompts neutros, entradas idênticas em todos os modelos, saída padrão de semente única (sem "cherry-picking") e critérios de pontuação que podem ser declarados em uma única frase por categoria.
Os seis modelos na execução completa do benchmark são: Grok, GPT Image 2, Nano Banana 2, Nano Banana Pro, Wan 2.7 e Seedream 5.0. Este artigo foca no confronto direto entre Grok e GPT Image 2, sendo o pareamento comercialmente mais relevante para desenvolvedores que escolhem um modelo de imagem padrão.
Como testamos o Grok Imagine Image VS GPT-Image 2: 6 categorias, uma regra de Nível A
Cada prompt tem como alvo uma dimensão de capacidade única e claramente declarada. Os critérios de aprovação/reprovação foram definidos antes da execução dos modelos, não depois de ver os resultados.
| Categoria | Dimensão principal testada | Critério de aprovação/reprovação (uma frase) |
|---|---|---|
| Cat 1 · Semântica Composicional | Alinhamento de instrução | O modelo contou 7 objetos, posicionou-os corretamente e obedeceu à lista de negação? |
| Cat 2 · Anatomia Fotorrealista e Luz | Qualidade visual e física | Todos os 5 dedos estão anatomicamente corretos e padrões de luz cáustica aparecem no rosto? |
| Cat 3 · Pôster Multilíngue | Renderização de texto na imagem | Caracteres chineses e ingleses foram renderizados corretamente, sem traços ausentes ou glifos alucinados? |
| Cat 4 · Transformação Geométrica (I2I) | Controlabilidade de edição + identidade | Após uma rotação de 45°, a pessoa ainda é reconhecível e todos os detalhes da roupa estão intactos? |
| Cat 5 · Edição Local e Preservação de Região | Precisão de edição | Foram feitas exatamente 3 edições, com tudo o resto inalterado em nível de pixel? |
| Cat 6 · Fusão de Múltiplas Referências | Consistência entre imagens | Identidade, estilo e cena de 3 referências separadas se fundem em uma única imagem coerente? |
Cat 1 · Semântica Composicional (T2I)
Prompt:
Uma foto aérea de cima para baixo de uma mesa de jantar de madeira contendo exatamente sete objetos de cerâmica: três xícaras de chá brancas idênticas dispostas em um triângulo equilátero no centro, duas tigelas pretas colocadas à direita das xícaras, uma maçã vermelha dentro da tigela preta mais à esquerda e uma colher de madeira vazia descansando em cima da tigela preta mais à direita com o cabo apontando para o canto superior esquerdo do quadro. Sem xícaras de café, sem itens de metal, sem pratos, sem vidros. Luz de janela suave e difusa vinda do canto superior esquerdo, meio da manhã. Fotografia realista, sem adereços de estilo.
Isso é deliberadamente contraditório. Contagem, linguagem espacial ("à direita de", "mais à esquerda") e cláusulas de negação são modos de falha conhecidos para todas as arquiteturas baseadas em difusão atuais.
Checklist de pontuação
| # | Critério | Verificação |
|---|---|---|
| 1 | Contagem total de objetos | Estritamente 7 objetos de cerâmica |
| 2 | Três xícaras de chá brancas | Arranjo em triângulo equilátero |
| 3 | Duas tigelas pretas | Posicionadas à direita das xícaras |
| 4 | Maçã vermelha | Dentro da tigela preta mais à esquerda |
| 5 | Colher de madeira | Descansando na tigela mais à direita, cabo apontando para cima/esquerda |
| 6 | Conformidade com negação | Sem xícaras de café / sem metal / sem pratos / sem vidros |
| 7 | Fonte de luz | Luz difusa suave vinda de cima/esquerda, sombras consistentes |
| 8 | Estilo de fotografia | Sem clichês de estilo (folhas de palmeira, velas, etc.) |
Grok Imagine Image | GPT-Image 2
Contagem de objetos do Grok Imagine: visivelmente 5 xícaras de chá (não 3), dispostas em um grupo em vez de um triângulo equilátero. As duas tigelas pretas estão presentes, com a maçã vermelha corretamente dentro de uma delas. A colher de madeira está presente e descansando na tigela mais à direita, direção do cabo aproximadamente superior esquerda — este critério foi aprovado. A conformidade com a negação é limpa: sem xícaras de café, sem metal, sem pratos, sem vidros. A fonte de luz vinda de cima/esquerda com sombras consistentes foi aprovada. Sem adereços de estilo presentes.
O GPT Image 2 demonstrou um acompanhamento de instruções mais forte nos componentes espaciais, embora nenhum dos modelos tenha alcançado uma contagem perfeita de 7 objetos com todas as restrições de posicionamento satisfeitas simultaneamente.
Cat 2 · Anatomia Fotorrealista e Luz (T2I)
Prompt:
Retrato em close-up de uma mulher do leste asiático na casa dos trinta anos segurando uma taça de vinho de cristal meio cheia de vinho tinto na mão direita, com todos os cinco dedos e o polegar totalmente visíveis envolvendo naturalmente a haste e parcialmente a taça. Ela está sentada perto de uma janela alta voltada para o oeste durante a "hora dourada". A luz do sol do final da tarde atravessa o vinho, criando padrões cáusticos carmesins quentes em sua maçã do rosto esquerda e mandíbula. Sua mão esquerda descansa sobre um livro de capa dura aberto em seu colo. Reflexos da janela visíveis em ambos os olhos. A pele mostra poros ultra-detalhados, penugem fina, espalhamento subsuperficial no lóbulo da orelha e na ponte do nariz. Cabelo retroiluminado com luz de contorno. Lente 85mm, f/2.0, profundidade de campo rasa, realismo fotográfico.
Este é historicamente o teste de imagem única mais difícil para modelos generativos.
Checklist de pontuação
| # | Critério | Verificação |
|---|---|---|
| 1 | Anatomia da mão | Todos os 5 dedos + polegar, pegada natural na haste e na taça |
| 2 | Luz cáustica | Padrões carmesins quentes projetados no rosto |
| 3 | Consistência dos reflexos (catchlight) | Mesma posição e forma em ambos os olhos |
| 4 | Espalhamento subsuperficial (SSS) | Visível no lóbulo da orelha e ponte do nariz |
| 5 | Física da luz de contorno | Direção coincide com a fonte de luz |
| 6 | Realismo da pele | Sem "suavização excessiva de IA"; poros e penugem visíveis |
Grok Imagine Image | GPT-Image 2
O Grok Imagine entregou fortemente em sua vantagem principal. A anatomia da mão estava correta — contagem de dedos precisa, postura de pegada natural ao redor da haste e da taça, ângulo do pulso fisicamente plausível. Isso, por si só, ultrapassa uma barreira na qual muitos modelos falham completamente. A textura da pele mostrou detalhes genuínos ao nível dos poros com penugem fina visível e sem suavização excessiva de plástico, e o espalhamento subsuperficial na ponte do nariz e maçãs do rosto produziu uma qualidade quente e permeável à luz que é lida como fotograficamente real. A luz de contorno no cabelo seguiu a direção da fonte da janela de forma coerente.
A projeção de luz cáustica foi o ponto mais fraco do Grok. Os padrões de luz carmesim apareceram no rosto, mas foram renderizados como uma sobreposição vermelha superdimensionada e dramaticamente estilizada — mais parecendo um efeito de gradação de cor do que os filamentos de luz finos e de bordas suaves que resultam fisicamente da luz solar passando pelo vinho. A plausibilidade física da cáustica falhou no padrão de precisão.
O GPT Image 2 inverteu o compromisso. Sua renderização de luz cáustica foi notavelmente mais fisicamente precisa — os padrões carmesins quentes na maçã do rosto eram menores, mais difusos e seguiam a geometria espacial da luz passando por uma taça de vinho no ângulo correto. Este é o detalhe que o Grok perdeu. No entanto, o GPT Image 2 pagou por isso em outros aspectos: a anatomia da mão era ligeiramente menos natural, com ângulos dos dedos ao redor da haste mostrando uma leve rigidez. A textura da pele tendeu para a qualidade mais suave e levemente mais plana, comum em retratos de IA, com menos calor de SSS visível e intensidade de luz de contorno mais fraca em comparação com o Grok.
Cat 3 · Pôster Multilíngue (T2I)
Prompt:
Um pôster de viagem estilo vintage dos anos 1960 para um festival de cinema fictício, ilustrado no estilo do design comercial de meados do século. No topo do pôster, grandes caracteres serifa em negrito em chinês lendo "时光电影节" (linha 1) e, abaixo, em caracteres chineses menores, "第七届 · 上海 · 1965年5月" (linha 2).
Centro: uma ilustração estilizada de um antigo projetor de cinema projetando um feixe em uma tela de cinema ligeiramente curva.
Centro inferior: uma taça de champanhe alta com o texto em inglês "GRAND OPENING NIGHT" envolvendo a curvatura da taça, seguindo a perspectiva elíptica.
Borda direita, texto vertical lendo "presented by 时代影业 · TIMES PICTURES" correndo de cima para baixo.
Faixa inferior: pequeno texto de créditos em inglês "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" em uma única linha.
Paleta de cores: fundo creme, vermelho carmesim profundo, detalhes em amarelo mostarda. Ligeira textura de papel envelhecido, grão sutil.
Checklist de pontuação
| # | Critério | Verificação |
|---|---|---|
| 1 | Precisão do chinês | Sem traços ausentes, sem caracteres alucinados |
| 2 | Layout bilíngue | Chinês e inglês não misturados; cada um na zona correta |
| 3 | Texto curvo na taça | Inglês segue a perspectiva elíptica da taça |
| 4 | Texto vertical na borda direita | Legível de cima para baixo |
| 5 | Hierarquia tipográfica | Distinção clara entre o título |
| 6 | Estilo vs. legibilidade | Estética dos anos 1960 mantida sem sacrificar a clareza |
Grok Imagine Image | GPT-Image 2
O Grok Imagine produziu um pôster visualmente marcante com forte energia de ilustração de meados do século. No entanto, falhou no critério de texto mais crítico: o título lê-se "時光電影節" em Chinês Tradicional, não o Simplificado "时光电影节" especificado no prompt. Esta é uma falha de conformidade de conjunto de caracteres — uma distinção significativa para qualquer caso de uso de localização ou publicação. A segunda linha "第七屆 · 上海 · 1965年5月" usou da mesma forma caracteres tradicionais. No lado estrutural, "GRAND OPENING NIGHT" apareceu na taça de champanhe com curva parcial seguindo, embora a adesão à perspectiva elíptica fosse aproximada. O texto vertical da borda direita "TIMES PICTURES" estava legível. A linha de créditos inferior estava presente e legível. A paleta de cores — carmesim, mostarda, creme — foi bem executada. A energia geral do layout era alta, mas a falha entre Tradicional vs. Simplificado é um desclassificador rígido para o prompt declarado.
O GPT Image 2 passou no teste de conjunto de caracteres de forma limpa: o título "时光电影节" e o subtítulo "第七届 · 上海 · 1965年5月" são renderizados corretamente em Chinês Simplificado, sem traços ausentes ou glifos alucinados — uma vitória direta de conformidade sobre o Grok. A taça de champanhe é visível no centro inferior com "GRAND OPENING NIGHT" seguindo a curvatura da taça de forma convincente. O texto vertical da borda direita "时代影业 · TIMES PICTURES" corre de cima para baixo e é totalmente legível, com chinês e inglês colocados corretamente na mesma coluna vertical sem erros de mistura. A linha de créditos inferior — "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" — está presente e legível como uma única linha. A hierarquia tipográfica entre título, subtítulo e nota de rodapé é claramente mantida. A textura do papel envelhecido e a paleta de cores de meados do século são bem realizadas. A composição integra uma silhueta reconhecível do horizonte de Xangai como a ilustração central, o que não foi especificado no prompt, mas adiciona autenticidade contextual sem quebrar nenhum critério.
Cat 4 · Transformação Geométrica (I2I)
O prompt instruiu o modelo a girar um modelo de lookbook de moda de corpo inteiro exatamente 45° para a esquerda, mantendo a mesma posição da câmera. A imagem de referência apresentava um traje complexo em camadas: sobretudo marrom longo, capa de ombro de couro, estola de pele com um gradiente visível (marrom profundo → prata → creme), um emblema de cobre redondo no peito com um retrato embutido, luvas de couro pretas e botas de couro de dois tons. Nenhum desses detalhes foi listado no prompt — o modelo teve que preservá-los apenas através da compreensão da identidade.
Este é um teste de estresse de capacidade deliberado. A instrução foi intencionalmente curta para evitar alimentar o modelo com seu próprio rubro de avaliação.
Checklist de pontuação
| # | Critério | Verificação |
|---|---|---|
| 1 | Identidade facial | Similaridade ArcFace ≥ 0,5 |
| 2 | Revelação da estola de pele | Lado direito prateado anteriormente oculto |
| 3 | Emblema no peito | Contorno de cobre circular + retrato embutido |
| 4 | Bainha do casaco e camadas internas | Direção de caimento natural após rotação |
| 5 | Postura dos pés | Frente esquerda |
| 6 | Volume da luva | Posição da mão + textura de tricô visível |
| 7 | Limite de cor da bota | Marrom |
| 8 | Consistência do fundo | Fundo de estúdio cinza puro |
| 9 | Proporção de saída | Quadro completo 9:16 de corpo inteiro mantido |
| 10 | Direção do olhar | Segue a rotação — não continua encarando a câmera |
Grok Imagine Image | GPT-Image 2
O Grok manteve a identidade facial acima do limite ArcFace 0,5 apropriado para imagens de corpo inteiro. A seção do lado direito da estola de pele anteriormente oculta tornou-se parcialmente visível a 45°, com continuidade de gradiente razoável. O contorno do emblema do peito foi preservado, embora o detalhe do retrato embutido mostrasse compressão. O limite de cor da bota e a textura da luva se mantiveram.
O GPT Image 2 mostrou uma coerência geral das camadas de roupa ligeiramente mais forte, mas introduziu mais desvio na identidade facial — um compromisso significativo dependendo do caso de uso.
Cat 5 · Edição Local e Preservação de Região (I2I)
O prompt exigia exatamente três edições em uma cena de sala de estar: remover um gato dormindo do sofá (e restaurar a almofada naturalmente), substituir uma xícara de chá quente por um copo de suco de laranja com gelo e adicionar óculos de leitura de armação preta dobrados em cima do livro do meio na mesa de centro. A instrução proibia explicitamente alterar qualquer outra coisa — padrão de tecido do sofá, posições dos livros, lâmpada, vista da janela, cor da parede, piso.
O teste de preservação é tão importante quanto o teste de edição. Modelos que reinterpretam toda a cena enquanto fazem alterações locais não são utilizáveis para retoque de fotografia de produto ou desenvolvimento de cena iterativo.
Checklist de pontuação
| # | Critério | Verificação |
|---|---|---|
| 1 | Todas as 3 edições concluídas | Gato removido |
| 2 | Restauração da almofada | Sem recuo em forma de gato ou resíduo de pelo |
| 3 | Física do suco | Geometria do copo, refração do gelo, direção da sombra |
| 4 | Posicionamento dos óculos | Corretamente no livro do meio |
| 5 | Tecido do sofá | Padrão de trama de diamante intacto |
| 6 | Livros inalterados | Posições, capas |
| 7 | Lâmpada inalterada | Forma, status de brilho e posição preservados |
| 8 | Vista da janela inalterada | Vista da cidade permanece borrada e consistente |
| 9 | Parede e piso inalterados | Parede off-white e piso de madeira claros inalterados |
| 10 | Iluminação geral preservada | Direção da fonte de luz traseira direita inalterada |
Grok Imagine Image | GPT-Image 2
O Grok Imagine completou todas as três edições necessárias. O gato foi removido e a almofada do sofá restaurada de forma limpa, sem recuo visível ou resíduo de pelo — o padrão do tecido na zona editada resistiu bem. O copo de suco de laranja apareceu na posição correta. O copo de suco, no entanto, exibe um padrão de destaque que não se alinha com esta direção da fonte, parecendo como se tivesse sido composto com um modelo de luz independente, em vez de integrado à iluminação existente da cena. A base do copo também mostra sombra de contato insuficiente contra a superfície da mesa de centro de madeira escura, criando um efeito flutuante sutil, mas detectável.
O GPT Image 2 também completou as três edições e demonstrou uma preservação de cena geral mais forte. A remoção do gato foi igualmente limpa. O copo de suco de laranja foi bem renderizado com posicionamento correto e direção de sombra correspondente em relação à fonte de luz da janela lateral direita — a geometria do copo e a opacidade do líquido parecem mais refinadas do que a versão do Grok. Os óculos de leitura foram colocados visivelmente na pilha de livros. Crucialmente, a vista da janela foi preservada — a cidade do lado de fora permanece visível e borrada, consistente com a referência, onde o Grok falhou. Tecido do sofá, lâmpada, parede e piso se mantiveram. Os livros parecem consistentes em posição e cor. A única mudança notável: a cena geral parece ligeiramente mais brilhante e com contraste alterado em relação ao original, sugerindo alguma reinterpretação global da iluminação em vez de uma verdadeira preservação em nível de pixel — um desvio pequeno, mas detectável.
Cat 6 · Fusão de Múltiplas Referências (I2I)
O prompt combinou três referências independentes: uma identidade de retrato (mulher latina, olhos cor de âmbar, cabelo castanho escuro ondulado), um estilo de ilustração em aquarela (paisagem rural japonesa, pinceladas visíveis, atmosfera de conto de fadas quente) e um layout de cena (praça da cidade europeia de paralelepípedos ao pôr do sol, poste de ferro fundido, arco de pedra). A tarefa: produzir uma única pintura em aquarela coerente da pessoa identificada em pé na cena — não uma foto com filtro, não uma colagem.
O desacoplamento de três referências é o teste mais difícil neste benchmark. A maioria dos modelos superpondera uma referência ou falha em alcançar a renderização através do estilo.
Checklist de pontuação
| # | Critério | Verificação |
|---|---|---|
| 1 | Desacoplamento de três vias | Identidade |
| 2 | Transferência de estilo completa | Saída é aquarela — não foto + filtro |
| 3 | Retenção da identidade pós-estilo | Olhos de âmbar + estrutura facial reconhecível |
| 4 | Estrutura da cena preservada | Paralelepípedos, poste de luz e layout do arco intactos |
| 5 | Adição natural de roupas | Casaco de viagem e bolsa adicionados sem quebrar a composição |
| 6 | Consistência da direção da luz | Brilho do pôr do sol visível nos paralelepípedos e na figura |
Grok Imagine Image | GPT-Image 2
O Grok Imagine falhou no critério central: a saída é fotorrealista, não uma aquarela. A praça de paralelepípedos e a figura retêm total nitidez fotográfica com apenas uma leve passagem de textura pictórica — nenhuma das pinceladas, sangramento de cor ou qualidade de borda pintada à mão da Ref 2 está presente. A estrutura da cena, identidade, roupas e direção da luz foram aprovadas. Mas renderizar o meio errado completamente é uma desclassificação de nível de categoria, não uma dedução parcial.
O GPT Image 2 alcançou uma renderização em aquarela genuína em todo o quadro — edifícios, paralelepípedos, céu e figura carregam pinceladas visíveis e sangramento de cor suave consistente com a Ref 2. A estrutura da cena da Ref 3 está intacta, o poste de luz está aceso e o arco de pedra é visível no plano médio. A identidade é parcialmente retida através da transformação de estilo — o cabelo escuro ondulado e a estrutura facial são reconhecíveis, embora as características finas sejam, como esperado, abstraídas. Casaco, bolsa, direção da luz e olhar seguem o prompt. Esta é a única saída que completou a tarefa real.
Experimente os modelos Grok Imagine Image e GPT Image 2 via Atlas Cloud
O benchmark é reprodutível. Tanto o Grok Imagine quanto o GPT Image 2 estão disponíveis agora através da Atlas Cloud — sem configuração de cobrança por modelo, sem listas de espera.
Por que a Atlas Cloud
- Uma chave de API, mais de 300 modelos. Troque entre Grok, GPT Image 2, Flux, Wan, Seedream e todos os outros modelos no pool alterando um único campo de modelo. A mesma chave, o mesmo endpoint, o mesmo painel de cobrança — esteja você executando um benchmark de seis modelos ou construindo um pipeline de produção de imagens.
- Cobertura multimodal completa. LLMs, texto-para-imagem, imagem-para-imagem, texto-para-vídeo, imagem-para-vídeo — tudo sob o mesmo teto. Se o seu fluxo de trabalho precisa de um modelo de linguagem para refinamento de prompt e um modelo de imagem para geração, ambos vivem na mesma API.
- Sem cold starts, sem surpresas de limite de taxa. A Atlas Cloud roda em infraestrutura de inferência otimizada, criada especificamente para throughput. Você obtém latência consistente, esteja fazendo uma chamada ou mil.
- Criado para fluxos de trabalho de comparação. O caso de uso exato que este benchmark demonstra, executando prompts idênticos em vários modelos e comparando as saídas, é para o que a arquitetura da Atlas Cloud foi projetada. Uma chave, uma fatura, total amplitude de modelos.







