Guia de Prompts do Gemini Omni: As 5 Dimensões, 4 Capacidades Avançadas e o Fluxo de Trabalho de Edição Conversacional do Google DeepMind

O Google DeepMind lançou o guia de prompts do Gemini Omni no I/O em 19 de maio de 2026. Uma análise das 5 dimensões de prompt, edição conversacional, 4 capacidades avançadas e o motivo pelo qual os laboratórios de IA de vídeo estão convergindo para as mesmas recomendações.

Guia de Prompts do Gemini Omni: As 5 Dimensões, 4 Capacidades Avançadas e o Fluxo de Trabalho de Edição Conversacional do Google DeepMind

Em 19 de maio de 2026, no Google I/O, o DeepMind lançou o Gemini Omni. No mesmo dia, o guia de prompts do Gemini Omni foi publicado no site de documentação do DeepMind, posicionado entre o cartão do modelo Omni Flash e as notas da API. A maioria das pessoas assistiu às demonstrações da conferência, e o documento acabou sendo pouco lido.

Vamos aos fatos rápidos. O Gemini Omni é o novo modelo de geração multimodal do DeepMind. O primeiro produto, Gemini Omni Flash, gera vídeos de até 10 segundos a partir de qualquer combinação de textos, imagens, áudio ou entradas de vídeo. Todas as saídas contêm uma marca d'água SynthID. Usuários do AI Plus, AI Pro e AI Ultra tiveram acesso imediato; usuários do YouTube Shorts e do app YouTube Create recebem acesso gratuito a partir desta semana de lançamento (conforme reportado pela Gagadget). O acesso via API está "chegando em semanas", segundo o Google.

Voltando ao guia de prompts: o guia da Google DeepMind descreve a mudança diretamente, na seção "World understanding" (Compreensão de mundo):

Com o Veo, você precisa compartilhar instruções precisas para obter os melhores resultados. Mas com o Gemini Omni, você não precisa ser tão prescritivo com seu prompt. Em vez disso, diga ao Omni o que você deseja criar – e observe o raciocínio e o conhecimento de mundo do modelo darem vida aos detalhes.

A tradução: escreva menos.

Compare isso com os guias de prompts que a ByteDance e a Kuaishou publicam para seus próprios modelos de vídeo. As estruturas diferem, mas apontam para a mesma direção.

Diagrama de comparação das estruturas de prompt para os modelos de vídeo de IA Seedance 2.0 e Kling 3.0.

A ByteDance documenta o Seedance 2.0 em sua plataforma internacional de desenvolvedores com o guia de prompts do BytePlus ModelArk. A estrutura recomendada é: assunto + movimento (+ ambiente + estética + movimento de câmera/corte + áudio). Nem todos os componentes são necessários; você escolhe o que se encaixa na cena.

O guia de ponderação de prompts do Kling da Kuaishou enquadra a criação através da fórmula 5W1H (Quem, O quê, Onde, Quando, Por que e Como). O "Quem" — o assunto — geralmente tem a maior prioridade e lidera o prompt, já que a posição da palavra determina o peso no Kling 3.0: o que vem primeiro recebe a maior atenção computacional. Escolhas estilísticas, como meio ou perspectiva, funcionam melhor no final, agindo como um filtro sobre a cena já estabelecida. O guia alerta contra o empilhamento indiscriminado de elementos; muitos termos conflitantes degradam a qualidade.

Três empresas chegaram a essa recomendação de forma independente, o que sugere que seus modelos atingiram um nível de capacidade semelhante quase ao mesmo tempo. O Google diz para escrever menos, a ByteDance marca a maioria dos componentes como opcionais e a Kuaishou enfatiza a ordem das palavras em vez do volume bruto. Os enquadramentos específicos diferem, mas todos os três laboratórios orientam os criadores a usar prompts mais flexíveis e naturais.

Agora, vejamos como o guia de prompts do Gemini Omni funciona na prática.

Estrutura de Prompt do Gemini Omni: 5 Dimensões Utilizadas pelo Google DeepMind

O guia abre com um exemplo completo:

Um plano de ângulo aberto (wide-angle) desliza suavemente por um lago sereno, revelando um objeto colossal, reflexivo e em forma de feijão cromado, levitando sem esforço acima, girando lentamente para revelar suas reflexões distorcidas de penhascos majestosos e um objeto menor e semelhante parcialmente submerso nas águas azuis claras abaixo, enquanto um sol brilhante surge atrás da anomalia flutuante, banhando toda a cena em uma luz do dia nítida e etérea com tons vibrantes de azul e verde, criando um ambiente cinematográfico e inspirador, sublinhado por uma trilha orquestral majestosa e de outro mundo que enfatiza a vastidão e o mistério da paisagem alienígena, com zumbidos profundos e sutis emanando do objeto levitante.

Mais de 90 palavras. Se você decompor, encontrará 5 dimensões:

  • Enquadramento e movimento. Grande angular, médio ou close-up? A câmera deve deslizar suavemente ou avançar rapidamente? Os dois verbos produzem resultados visivelmente diferentes, então algumas rodadas de teste valem a pena quando você busca a sensação de movimento correta.
  • Estilo. Realista, cinematográfico, etéreo, majestoso? Esta dimensão não precisa de detalhes. Diga ao modelo o tom emocional e isso será suficiente.
  • Iluminação. De onde vem a luz? Do sol, de um poste, na câmera ou fora de cena? Deve parecer nítida, quente ou etérea?
  • Cena. Uma linha no guia merece destaque: "você não precisa descrever cada pequeno detalhe, pois o Omni trabalhará com sua intenção geral." Isso coincide com o que o Seedance e o Kling dizem em seus documentos oficiais.
  • Ação e interação. Quem e o que está na cena, como se movem e como interagem.

Edição Conversacional do Gemini Omni vs. Reescrita de Prompts do Veo

O Omni e o Veo produzem uma qualidade de geração comparável. A verdadeira diferença é o que você pode fazer após o vídeo ser gerado.

Anteriormente, alterar um detalhe significava reescrever o prompt inteiro, gerar novamente e torcer para que a consistência entre quadros fosse mantida. O Omni substitui essa etapa por uma conversa.

O guia oficial oferece alguns exemplos.

Um vídeo estilo stop-motion de um pequeno menino. Primeira edição: "troque a borboleta por uma abelha". A seguir: "transforme a abelha em um pequeno enxame de vaga-lumes". Um elemento muda por vez; os outros quadros são preservados automaticamente.

A câmera funciona da mesma forma. Um vídeo de um violinista recebe três comandos em sequência: "transporte o violinista para o ambiente da imagem", "torne o violino invisível", "mude o ângulo da câmera para ficar sobre o ombro do violinista". Troca de ambiente, remoção de objeto, reposicionamento de câmera, tudo através de linguagem natural.

Há um detalhe importante a observar. Avaliadores de terceiros notam que, se sua instrução de edição for muito vaga, o Omni tende a editar demais, alterando elementos que você queria manter. A recomendação do Google: altere uma variável por vez e indique explicitamente o que deve permanecer igual.

O exemplo de sincronização cross-modal é mais interessante. Pegue um vídeo noturno de um prédio de apartamentos e adicione a instrução "as luzes dos apartamentos começam a acender em sincronia com a música". O modelo analisa as batidas da trilha sonora e alinha as luzes das janelas a elas. Fazer isso no After Effects exigiria uma linha do tempo, um metrônomo e marcações manuais quadro a quadro.

As 4 Capacidades Avançadas do Gemini Omni: Conhecimento de Mundo, Renderização de Texto, Referência de Ação e Multi-Entrada

A segunda metade do guia detalha 4 capacidades.

Conhecimento de mundo aplicado

Exemplo de prompt: Explique a diferença entre computação comum e computação quântica. Visualize esta frase usando um estilo de mídia plana contemporânea que mistura formas vetoriais minimalistas com ricas texturas orgânicas. A estética é definida por uma paleta de cores "elétricas" de alto contraste, com rosas neon, cianos e limas contra um fundo azul-marinho profundo. Uma marca registrada deste estilo é o uso de sombreamento pontilhado e gradientes granulados, que adicionam uma qualidade tátil, semelhante a um risógrafo, às formas geométricas simples. Ao combinar bordas afiadas com essas transições suaves e salpicadas, a ilustração alcança uma sensação editorial lúdica.

O modelo já sabe o que é superposição quântica e como transmiti-la através de um conjunto comparativo de cenas. O usuário não precisa explicar mecânica quântica, apenas o tom visual.

Isso funciona porque o Omni roda em um modelo de raciocínio de fronteira, que modelos de vídeo voltados apenas para geração não conseguem igualar. Demis Hassabis, em uma entrevista à Semafor após o I/O, enquadrou o Omni como um passo no projeto de construir uma IA que compreenda melhor o mundo real. Ele apontou que a Waymo, divisão de direção autônoma da Alphabet, já está testando modelos de mundo semelhantes para dar aos carros autônomos uma espécie de "imaginação" para lidar com situações imprevisíveis. A geração de vídeo é apenas a aplicação mais visível dessa arquitetura.

Renderização de texto

Exemplo de prompt: palavra por palavra, uma palavra na tela de cada vez, cada palavra com um estilo animado diferente, ritmo perfeito em relação a uma batida, sizzle reel.

Referência de ação complexa

Exemplo de prompt: edite isso mantendo tudo igual, adicione efeitos de movimento animados saindo do skate.

Referência de multi-entrada

Exemplo de prompt: Os pássaros do vídeo formam vagamente a forma imperfeita de um pássaro com base na imagem. Eles se movem com a música do áudio e se dissipam enquanto voam.

Transferência de estilo

Exemplo de prompt: Crie uma progressão estilística de quatro partes da referência de vídeo que começa com uma estética de giz de cera vibrante, apresentando traços ricos, cerosos e texturizados e designs de personagens lúdicos desenhados à mão contra um pano de fundo de papel altamente granulado. Transição suave para um esboço a lápis de grafite em papel texturizado, utilizando hachuras, variações de espessura de linha e um efeito de "line boiling" de 12fps para enfatizar a sensação de desenho à mão. Em seguida, transforme em um estilo de vidro translúcido 3D hiper-realista, caracterizado por refrações complexas de luz, padrões cáusticos e brilhos internos suaves em um ambiente de estúdio minimalista. Conclua a sequência com uma aparência de impressão risográfica tátil, aplicando uma paleta limitada de três cores, texturas granuladas de meio-tom e sobreposições de registro intencionais para um acabamento retrô e mecânico.

Referência de storyboard

Prompt: Mostre-me nesta história. Siga a história exatamente na ordem começando no topo esquerdo. História completa em 10 segundos. Cinematográfico.

Consistência entre cenas (cross-shot)

Por que os conselhos de prompt do Gemini Omni, ByteDance Seedance e Kuaishou Kling estão convergindo

Voltando à observação anterior: a semelhança nos conselhos de prompt do Seedance, Kling e Omni não é resultado de cópia mútua. É mais plausível que esta geração de modelos tenha atingido um nível de capacidade semelhante por conta própria.

Uma vez que um modelo consegue lidar com linguagem natural no nível da cena, suplementar detalhes com conhecimento de mundo e inferir o que o usuário realmente quer dizer, o excesso de prescrição torna-se um gargalo. Os três laboratórios discordam sobre quanto de estrutura adicionar, mas concordam que a resposta não é continuar escrevendo mais.

Este é o resultado de dois anos de modelos de difusão treinados em conjunto com grandes modelos de linguagem. O Omni leva o resultado a um estado relativamente completo.

Chamando o Gemini Omni através da Atlas Cloud: API Unificada para Seedance, Kling, Veo

O Gemini Omni está chegando à Atlas Cloud. A Atlas Cloud agrega mais de 300 modelos de IA de texto, imagem, vídeo e áudio. Os principais modelos de vídeo já rodam na plataforma: Seedance 2.0, Kling 3.0, Wan 2.7, Veo, entre outros. Para uma comparação lado a lado, veja a análise profunda da Atlas Cloud sobre Wan 2.7 vs Seedance 2.0 vs Kling 3.0.

Uma única conta gerencia todo o fluxo de trabalho. Não há necessidade de registrar, pagar ou manter chaves de API em várias plataformas regionais. O Playground suporta depuração interativa. Uma API unificada, compatível com OpenAI, integra-se aos seus fluxos de trabalho existentes.

A biblioteca de prompts da Atlas Cloud possui mais de vinte categorias de prompts prontos para uso, cobrindo anime, ficção científica, mistério, culinária e formatos de vlog. Cada prompt vem com um vídeo de exemplo e notas de parâmetros. Copie, troque algumas palavras e execute.

Modelos recentes

Mais de 300 Modelos, Comece Agora,

Explorar Todos os Modelos

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.