Como usar o recurso de edição de imagem do Grok AI: um guia passo a passo

Domine a edição de imagens com o Grok AI! Aprenda a modificar imagens, usar prompts avançados de mistura de múltiplas imagens e otimizar seu fluxo de trabalho de API programática.

Como usar o recurso de edição de imagem do Grok AI: um guia passo a passo

Se você tem buscado como usar o recurso de edição de imagens da Grok AI, aqui está a resposta curta: o Grok Imagine permite modificar imagens existentes, trocar planos de fundo, ajustar cores e combinar até três fotos de uma vez — tudo por meio de prompts em linguagem natural simples. Não é necessário nenhum software de design.

Este recurso está disponível para assinantes do X Premium diretamente no aplicativo X. Você também pode usar o aplicativo web do Grok em grok.com ou o aplicativo móvel Grok. O processo é exatamente o mesmo no desktop ou no celular. Basta abrir o Grok, enviar sua imagem e descrever as alterações desejadas usando palavras simples.

Este guia mostra como usar a ferramenta passo a passo. Aprenda a escrever prompts que realmente funcionam para que você possa editar imagens imediatamente. Não é necessária experiência técnica.

Para quem é isto:

  • Assinantes do X Premium ou X Premium+
  • Usuários do aplicativo Grok independente (web ou móvel)
  • Qualquer pessoa que deseje edição de imagem com IA sem ferramentas complexas

Vamos começar.

Entendendo o recurso de edição de imagens da Grok AI e os requisitos da conta

O gerador de imagens da Grok AI é executado no Aurora. Este é o modelo autorregressivo da xAI que lida tanto com a criação quanto com a edição de imagens. A maioria das outras ferramentas usa difusão, mas o Aurora processa as imagens token por token. Esse método confere à ferramenta uma consistência melhor quando você altera partes específicas de uma foto.

Quem pode acessar?

O acesso depende de onde e como você está usando o Grok:

  
PlataformaNível de acesso necessário
Aplicativo X (Twitter) — geração de imagem em feed públicoAssinatura X Premium (Basic, Premium ou Premium+)
Aplicativo web do Grok (grok.com)Conta Grok gratuita (com limites de uso)
Aplicativo móvel Grok (iOS/Android)Conta Grok gratuita (com limites de uso)
Edição avançada e maior volumeAssinatura X Premium+ ou SuperGrok

Limitações importantes de edição de imagem para saber

Antes de começar, esteja ciente destas limitações de edição de imagem:

  • Usuários do aplicativo Grok gratuito têm um número limitado de gerações de imagem por dia
  • Conteúdo explícito ou que viole as políticas é bloqueado em todos os níveis
  • O recurso de mesclagem de múltiplas imagens (até 3 fotos) pode exigir um nível pago, dependendo do status atual do lançamento
  • A disponibilidade pode variar por região

Verificar seu nível de assinatura atual antes de começar evita frustrações mais tarde.

Passo a passo: Como usar o recurso de edição de imagens da Grok AI no X e na Web

Esteja você trabalhando dentro do aplicativo X ou pela interface web independente do Grok, o fluxo de trabalho central para o processo de como usar o recurso de edição de imagens da Grok AI segue a mesma sequência lógica. Aqui está um passo a passo completo.

Passo 1: Acesse o Grok e abra o editor de imagens

  1. Navegue até grok.com ou abra o aplicativo móvel Grok (iOS/Android)

  2. Procure o ícone do Grok na barra lateral do X (se estiver usando o X/Twitter) ou na interface principal de chat no aplicativo web

  3. Clique no ícone de anexo de imagem para enviar uma imagem — os formatos suportados incluem JPEG, PNG e WebP

    Acesse o Grok e abra o editor de imagens

Passo 2: Ative o modo de edição

Assim que sua imagem for carregada, a interface ativa o modo de edição automaticamente. Você verá o botão de editar imagem aparecer ao lado do arquivo enviado. Clique nele para entrar na tela de edição.

Passo 3: Escreva seu prompt de revisão

É aqui que o trabalho real acontece. Digite um prompt de revisão claro e descritivo em linguagem simples — por exemplo:

  
ObjetivoExemplo de prompt
Alterar plano de fundo"Substitua o fundo por um pôr do sol sobre o oceano"
Ajustar tom de cor"Torne a imagem inteira mais quente e dourada"
Adicionar um objeto"Adicione um guarda-chuva vermelho no lado esquerdo da imagem"
Combinar duas imagens"Mescle <IMAGE_0> e <IMAGE_1> em uma cena coesa"

Passo 4: Gere e refine

Pressione Run (Executar) e aguarde aproximadamente 13 segundos pelo resultado. Se a saída precisar de refinamento, simplesmente escreva outro prompt de revisão — o modelo suporta edições iterativas em várias etapas sem precisar começar do zero.

Técnicas avançadas: Como usar a edição e mesclagem de múltiplas imagens do Grok

As capacidades de edição de múltiplas imagens do Grok são onde a ferramenta realmente se destaca da maioria dos editores de IA para o consumidor. Em vez de trabalhar com um único arquivo de origem, você pode combinar várias fotos — até três — e instruir o Grok a sintetizá-las em uma saída coerente usando prompts de entrada multimodal.

Como funciona a referência de múltiplas imagens

Ao enviar mais de uma imagem, o motor Aurora do Grok identifica cada fonte usando a sintaxe de espaço reservado: <IMAGE_0>, <IMAGE_1> e <IMAGE_2>. Seu prompt então referencia essas tags para direcionar como cada foto contribui para o resultado final.

Exemplo de prompt: "Aplique o estilo de pintura de <IMAGE_0> ao assunto em <IMAGE_1> e use o plano de fundo de <IMAGE_2>."

Isso lhe dá controle composicional granular sem qualquer mascaramento manual ou trabalho de camadas.

A seguir, vamos colocar isso em prática. Vou demonstrar usando a API de Edição de Imagem Grok da Atlas Cloud.

Vou criar uma visualização que mescla um Assunto, uma Referência de estilo e um Ambiente. Abaixo estão as três imagens de origem básicas que gerei, que servem como "matérias-primas" alimentadas no Grok para processamento.

Síntese de 3 imagens que mescla um assunto, uma referência de estilo e um ambiente, que servem como "matérias-primas" alimentadas no Grok Imagine para processamento.

Em seguida, essas três imagens são fundidas; enquanto integra perfeitamente detalhes texturais complexos e um plano de fundo ambiental totalmente novo, as características distintas e o espírito da mulher na imagem original são preservados com precisão.

Meu prompt:

Um retrato marcante que sintetiza e mescla os elementos precedentes. Apresenta a poderosa mulher africana vista em image_0.png, mas sua forma agora é definida pelas caóticas formas geométricas em azul safira e branco e texturas de bronze metálico quente de image_1.png. Essas texturas fluem por sua pele e grandes brincos geométricos de prata, substituindo a iluminação original. Seus olhos ainda são intensos e idênticos aos da image_0.png. A figura sintetizada inteira é perfeitamente integrada ao tranquilo jardim japonês ao crepúsculo (image_2.png), posicionada atrás do caminho de pedra e da lanterna. As texturas abstratas harmonizam com o musgo e a luz do anoitecer do jardim. O estilo é uma arte de IA multicamadas sofisticada, nítida e etérea.

Nota: Sintetize o assunto de <IMAGE_0>, o estilo de textura de <IMAGE_1> e o ambiente de <IMAGE_2>. Mantenha a identidade facial da mulher perfeitamente. Aplique texturas abstratas apenas à sua pele e vestimenta. Retenha a lanterna de pedra e o caminho de <IMAGE_2>, mas restrinja-os estritamente ao primeiro plano inferior direito. Certifique-se de que a área do peito e pescoço do assunto esteja livre de elementos de pedra do plano de fundo."

O resultado ao isolar referências via <IMAGE_0>, <IMAGE_1> e <IMAGE_2>, o motor do Grok Imagine executa perfeitamente transferências de textura de alta fidelidade enquanto preserva a identidade e a composição ambiental

Esta prática prova a capacidade excepcional do Grok de analisar hierarquias de instrução complexas. Ao isolar referências via <IMAGE_0>, <IMAGE_1> e <IMAGE_2>, o motor Aurora executa perfeitamente transferências de textura de alta fidelidade enquanto preserva a identidade e a composição ambiental.

Dicas profissionais:

  • Trave posições: Use palavras de posicionamento claras como "mantenha plano no chão" ou "no canto frontal direito". Isso impede que objetos de fundo se misturem ao seu assunto.
  • Atenha-se à formatação padrão: Sempre use o estilo de colchetes exato <IMAGE_X> em vez de nomes de arquivo. Isso ajuda a IA a seguir suas instruções muito melhor durante edições longas e passo a passo.

Principais casos de uso

   
TécnicaO que fazExemplo de prompt
Transferência de estiloAplica o estilo visual de uma foto a outra"Repinte <IMAGE_1> no estilo aquarela de <IMAGE_0>"
Consistência de referência de personagemTrava a aparência de um personagem em novas cenas"Coloque o personagem de <IMAGE_0> no ambiente de <IMAGE_1>"
Troca de fundo com preservação do assuntoMantém o assunto intacto, substitui o entorno"Mantenha a pessoa de <IMAGE_0>, use a paisagem urbana de <IMAGE_1> como fundo"
Transferência de guarda-roupa ou texturaMove detalhes de roupas ou superfícies entre referências"Vista o assunto de <IMAGE_0> com o traje mostrado em <IMAGE_1>"

Dicas para melhores resultados com múltiplas imagens

  • Seja explícito sobre qual tag de imagem desempenha qual função — o Grok segue a hierarquia de instruções de perto
  • Use imagens de referência de alto contraste para transferência de estilo para obter resultados mais pronunciados
  • Para consistência de referência de personagem em várias cenas, mantenha sua foto de referência do personagem (<IMAGE_0>) consistente em todos os prompts na mesma sessão
  • O refinamento iterativo funciona bem aqui — gere uma vez, depois ajuste o prompt para uma segunda passagem

Alternativa programática: Guia do desenvolvedor para APIs de edição de imagem com IA

Para equipes técnicas e criadores corporativos, depender de uma interface manual sem código ou um aplicativo móvel nem sempre é eficiente. Se o seu fluxo de trabalho exige processamento em lote, criação dinâmica de ativos ou integração de produtos, você pode acessar o mecanismo de edição principal programaticamente.

O sistema opera por meio de uma integração de API simplificada hospedada na Atlas Cloud, expondo exatamente as mesmas capacidades de edição multimodal ao seu código.

Criação e autenticação de token

Comece fazendo login na sua plataforma de desenvolvedor na nuvem para configurar suas credenciais. Gere uma chave de acesso de API para o caminho de roteamento. Esta chave deve ser incluída nos cabeçalhos da sua solicitação de backend para autorizar conexões seguras.

Crie uma chave de API na Atlas Cloud

Cabeçalhos HTTP

plaintext
1import os
2
3API_KEY = os.environ.get("ATLASCLOUD_API_KEY")
4headers = {
5    "Content-Type": "application/json",
6    "Authorization": f"Bearer {API_KEY}"
7}

Preparando a mídia de referência

Certifique-se de que todos os seus ativos de destino estejam programaticamente acessíveis. O endpoint ingere dados de imagem via URLs públicas padrão ou codificação de string Base64 bruta. Se seu objetivo for edição avançada — como consistência de personagem ou transferência de textura — tenha seus arquivos de referência indexados antes de compilar o código.

Mapeando a carga útil multimodal

Ao construir o corpo da sua solicitação POST JSON, atribua suas imagens de origem a índices de array específicos. Isso se alinha perfeitamente com a sintaxe de espaço reservado do modelo:

Enviando instruções e exportando

Alimente suas instruções de edição em linguagem natural diretamente na variável de prompt, utilizando explicitamente os espaços reservados, por exemplo, "Mantenha a pessoa de <IMAGE_0>, mas substitua o plano de fundo pelo ambiente de <IMAGE_1>". Selecione sua resolução preferida (1K Standard vs. 2K Quality) e implante.

Exemplo de corpo da solicitação:

plaintext
1{
2  "model": "xai/grok-imagine-image-quality/edit",
3  "prompt": "your prompt",
4  "image_urls": [
5    "image_0",
6    "image_1",
7    "image_2"
8  ],
9  "num_images": 1,
10  "resolution": "1k",
11  "aspect_ratio": "3:2",
12  "enable_base64_output": false
13}

Escrevendo prompts vencedores para edição de imagens com Grok AI

A qualidade dos seus prompts de edição de imagem do Grok determina diretamente a saída. Instruções vagas produzem resultados genéricos; comandos específicos e estruturados dão ao modelo Aurora parâmetros claros com os quais trabalhar. Veja como criar prompts que realmente funcionam.

A fórmula do prompt

Um bom prompt segue esta estrutura:

[Ação] + [Assunto/Área] + [Estilo ou Humor] + [Iluminação] + [Textura ou Detalhe Espacial]

Por exemplo: "Altere o céu para uma cena de tempestade dramática. Use um estilo realista com luz suave de ângulo baixo. Adicione detalhes de nuvens densas no terço superior da imagem."

Cada detalhe extra reduz as suposições para a IA. Isso torna sua imagem final muito mais precisa.

Comparação de prompts fracos vs. fortes

   
ElementoPrompt fracoPrompt forte
Alteração de plano de fundo"Altere o plano de fundo""Substitua o fundo por uma floresta japonesa enevoada, luz suave da manhã filtrada por cedros"
Ajuste de cor"Torne mais quente""Mude a imagem inteira para tons de hora dourada, destaques em âmbar quente, contraste profundo de sombra"
Estilo fotorrealista"Faça parecer real""Estilo fotorrealista, foco nítido, profundidade de campo de lente 85mm, textura de pele natural"
Remoção de objeto"Remova o carro""Remova o carro vermelho à esquerda e preencha com textura de pavimentação de paralelepípedos correspondente"

Exemplo:

Prompt fraco: Um pano de fundo tempestuoso dramático atrás de uma paisagem, estilo simples, luz do dia.

Grok Imagine prompt fraco: Um pano de fundo tempestuoso dramático atrás de uma paisagem, estilo simples, luz do dia.

Prompt forte: Fotografia de paisagem realista e grande angular apresenta um céu dramático e tempestuoso. Luz baixa e suave corta a atmosfera por toda a cena. Nuvens escuras e espessas se sobrepõem pesadamente no terço superior do quadro. Essas nuvens projetam sombras realistas no chão abaixo. A imagem inteira é hiperdetalhada com foco nítido.

Grok Imagine prompt forte: a imagem inteira é hiperdetalhada com foco nítido.

Comparado às imagens geradas por prompts fracos, ele mescla naturalmente destaques e sombras para produzir efeitos de edição coerentes e realistas — em vez de meras substituições de fundo.

Usando variáveis de edição iterativa

Variáveis de edição iterativa permitem que você refine sem reconstruir. Após sua primeira geração, ajuste uma variável de cada vez — iluminação primeiro, depois textura, depois humor — em vez de reescrever o prompt inteiro. Isso isola o que mudou e oferece melhorias direcionais previsíveis.

Para comandos de texto de in-painting direcionados a regiões específicas, sempre nomeie a localização espacial explicitamente: "canto superior esquerdo", "assunto em primeiro plano", "linha do horizonte no plano intermediário". Isso ancora a atenção do modelo exatamente onde você deseja que a edição seja aplicada.

Solução de problemas: Limites de edição de imagem da Grok AI e especificações de qualidade

Antes de escalar seu fluxo de trabalho, ajuda saber exatamente o que o Grok pode e não pode produzir — técnica e politicamente. Aqui está um detalhamento consolidado.

Resolução de saída e opções de proporção de aspecto

O mecanismo Aurora do Grok produz em dois níveis de resolução:

   
ConfiguraçãoDimensõesMelhor para
1K StandardAté 1024×1024 pxPostagens sociais, mockups rápidos
1K — proporção 4:31024×768 pixelsEdições de fotografia de paisagem
2K QualityAté 2048×2048 pxImpressão, trabalho comercial, alto detalhe

O sistema suporta 13 proporções de aspecto que variam de 2:1 a 1:2, cobrindo formatos de retrato, quadrado e widescreen. Os formatos de saída incluem JPEG, PNG e WebP — com transparência de canal alfa disponível em exportações PNG e WebP.

Marca d'água

Todas as imagens geradas ou editadas pelo Grok contêm uma marca d'água GROK ou credenciais de metadados C2PA incorporadas, identificando-as como conteúdo produzido por IA. Essa marca d'água não pode ser removida no momento e aparecerá nas exportações, independentemente do nível de assinatura.

Guardrails de segurança e restrições de deepfake

O Grok aplica restrições de segurança contra deepfakes rigorosas em todos os níveis de conta. As seguintes categorias de conteúdo são bloqueadas:

  • Trocas de rosto realistas em indivíduos reais e identificáveis
  • Imagens íntimas não consensuais de qualquer tipo
  • Mídia manipulada projetada para espalhar desinformação

Prompts que acionam esses filtros são rejeitados imediatamente, sem que nenhuma saída parcial seja retornada.

Outpainting e a lacuna do expansor de imagem por IA

O Grok carece atualmente de uma ferramenta nativa de expansor de imagem por IA ou outpainting. Se você precisar estender as bordas da tela além das bordas originais da imagem, precisará de uma ferramenta de outpainting dedicada, como o Adobe Firefly ou o Stability AI, antes de trazer o resultado de volta ao Grok para edição posterior.

Observação sobre privacidade de dados

As imagens enviadas podem ser usadas para melhorar os modelos da xAI, a menos que você opte por sair nas configurações de privacidade da conta. Revise a política de privacidade da xAI antes de enviar visuais sensíveis ou proprietários.

Recurso de edição de imagens da Grok AI vs. concorrentes: Vale a pena?

Ao avaliar o Grok Imagine vs. outros modelos de IA, a resposta honesta é: depende da sua prioridade. Veja como ele se compara nos critérios que mais importam.

Comparação direta

    
RecursoGrok ImagineChatGPT Image 2Midjourney V7
Edição em linguagem natural✅ Sim✅ Sim⚠️ Limitado
Mesclagem de múltiplas imagens✅ Sim✅ Sim❌ Não
Geração de imagem para vídeo✅ Pipeline nativo❌ Não nativo❌ Não nativo
Renderização de texto na imagem⚠️ Competitivo✅ Melhor da categoria⚠️ Moderado
Estilização artística⚠️ Bom⚠️ Bom✅ Melhor da categoria
Fluxo de trabalho de edição integrado✅ Plataforma única⚠️ Parcial❌ Requer exportação
Outpainting❌ Não suportado✅ Sim✅ Sim

Onde o Grok vence

O caso mais convincente para o Grok é seu fluxo de trabalho de edição integrado. Você pode editar uma imagem estática e enviá-la diretamente para a geração de imagem para vídeo — tudo sem sair da plataforma. Esse pipeline ocupa atualmente o 1º lugar no Artificial Analysis Image-to-Video Arena, o que é uma vantagem significativa para criadores de conteúdo que trabalham com rapidez.

A velocidade do playground da xAI é outro diferencial genuíno. Com latência de aproximadamente 4 segundos para texto para imagem e 13 segundos para edição, os ciclos de iteração permanecem curtos — especialmente úteis durante sessões de refinamento em várias etapas.

Onde os concorrentes ainda lideram

O GPT Image 2 do ChatGPT mantém uma vantagem clara na precisão de texto na imagem e no outpainting. O Midjourney continua sendo a referência para estética ilustrativa e artística. Se qualquer um desses for seu caso de uso principal, essas ferramentas ainda são a melhor escolha.

O veredito

Para usuários que desejam uma plataforma que cubra edição, geração e vídeo — o Grok oferece um fluxo de trabalho de edição integrado coerente, rápido e cada vez mais competitivo, que elimina o custo de troca de ferramentas com o qual a maioria dos criadores lida diariamente.

Modelos recentes

Mais de 300 Modelos, Comece Agora,

Explorar Todos os Modelos

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.