Após semanas de vazamentos e especulações, o Gemini Omni finalmente fez sua estreia oficial no Google I/O 2026, nas primeiras horas desta manhã.
Ele não é o modelo dedicado de geração de vídeo que os rumores sugeriam, nem um "Veo 4" seguindo a linhagem de nomenclatura do Veo 3. O CEO do Google DeepMind, Demis Hassabis, subiu ao palco para fazer o anúncio:
“Estamos dando o próximo passo importante — Gemini Omni, um modelo totalmente novo que pode criar qualquer coisa a partir de qualquer entrada.”
Em outras palavras, o Gemini Omni é um modelo grande verdadeiramente "omni-capaz" — aceitando qualquer forma de entrada e gerando qualquer tipo de conteúdo, sendo a geração de vídeo apenas uma parte do quebra-cabeça.
O Gemini Omni já está disponível em todos os produtos do Google. Usuários dos planos de assinatura AI Plus, Pro e Ultra podem acessá-lo pelo aplicativo Gemini ou pela plataforma de criação de vídeos com IA do Google, o Flow.
Assinamos o plano Ultra, o mais avançado do Google, imediatamente para colocar o Gemini Omni à prova com testes em primeira mão.
Resumo direto ao ponto: é decepcionante.
Consistência nos Testes do Gemini Omni: Segura-se, na Maioria
Um dos recursos mais promovidos do Omni é sua capacidade de manter a consistência visual em múltiplas rodadas de edições em linguagem natural.
Na demonstração oficial do Google, a filmagem original mostra um violinista tocando em um ambiente interno. Após alterar o ambiente de fundo, mudar os ângulos da câmera e até remover o violino, as expressões, movimentos, iluminação e até o posicionamento sutil das mãos do artista permaneceram perfeitamente adaptados a cada novo cenário — junto com a música.
Tanto a precisão das edições quanto a consistência do objeto principal pareceram genuinamente impressionantes.
Então, nós mesmos colocamos à prova, começando com uma troca de ambiente e atmosfera.
Nosso primeiro prompt: uma visão aérea de dois carros colidindo em um cruzamento, um deles um carro esportivo azul, com uma atmosfera tensa e emocionante.
Em seguida, fizemos uma edição e um refinamento mais detalhados. O prompt: mudar para um pôr do sol dourado, trocar o carro azul por um vermelho e fazer com que os dois carros explodam em confetes e balões no impacto — com um tom leve, sonhador e extravagante.
A cor dos carros e a iluminação mudaram conforme solicitado, e a estrutura geral e o movimento da cena permaneceram em grande parte coerentes, sem rasgos ou distorções visuais.
No entanto, houve um problema sutil, mas revelador: o Omni não lidou muito bem com o momento real da colisão. Em ambos os vídeos, os dois carros pareciam estar dirigindo um em direção ao outro quase deliberadamente — até diminuindo ligeiramente a velocidade e ajustando seus ângulos pouco antes do impacto.
Parecia, em uma palavra, encenado. Como se pudesse ver a mão invisível do Omni empurrando os carros para a posição correta para cumprir o prompt.
A seguir, testamos se o Omni conseguiria manter a consistência através de movimentos dinâmicos. O teste: uma personagem alternando entre vários ângulos de câmera, com características faciais, roupas, acessórios e até penteado permanecendo estáveis — sem bugs como "mesma roupa, cor diferente de um ângulo diferente".
Nosso prompt: um plano médio de acompanhamento de uma dançarina com um vestido vermelho realizando uma dança contemporânea em uma antiga estação de trem, cortando para um plano fixo aberto após um salto, com o vestido vermelho e o fundo da estação de trem permanecendo completamente consistentes durante todo o vídeo.
Este saiu razoavelmente bem. Os movimentos da dançarina foram fluidos e contínuos, a física do vestido de seda vermelho parecia convincentemente real, e o corte do plano médio para o plano fixo aberto foi relativamente suave.
O Omni também adicionou automaticamente uma faixa de música de fundo — nada particularmente expressivo ou atmosférico, mas que se encaixou bem o suficiente no clima geral da dança.
Fizemos então um pequeno ajuste, solicitando: remova a música de fundo e mantenha apenas o som ambiente — passos em sincronia com os movimentos da dança e o suave farfalhar do vestido.
É aqui que as coisas ficaram um pouco bagunçadas. A primeira metade do vídeo captou os sons suaves do vestido balançando e dos pés tocando o chão. Mas, na segunda metade, a música de fundo surgiu inexplicavelmente novamente.
Em seguida, testamos sua capacidade de entender relacionamentos complexos entre personagens e posicionamento espacial.
O teste: quando vários personagens com aparências e roupas diferentes interagem entre si, suas características individuais não devem se misturar ou ser trocadas durante as mudanças de ângulo da câmera.
Nosso prompt: um plano por cima do ombro de quatro a cinco cientistas, cada um com um visual distintamente diferente, discutindo uma projeção holográfica em um laboratório, com a câmera girando lentamente — todos os personagens devem manter suas aparências e roupas inalteradas durante todo o tempo.
Talvez em um esforço para atender fielmente ao requisito do prompt por cientistas com aparências distintas, o Omni selecionou criteriosamente quatro personagens abrangendo uma variedade de idades, gêneros e etnias. Durante o plano rotativo, as aparências, roupas, vozes e posições relativas dos personagens permaneceram em grande parte consistentes.
A única falha lamentável: perto da segunda metade do vídeo, houve um corte visivelmente brusco e abrupto que quebrou o fluxo completamente.
Controle Preciso? Precisa de Mais Trabalho
Edição e refinamento foi outro recurso que o Google colocou em destaque na sua apresentação oficial.
Então fomos direto ao ponto — pegamos um vídeo gerado por IA de alguém assistindo a um jogo de beisebol que viralizou recentemente nas redes sociais coreanas e alimentamos o Omni com uma imagem de personagem estilo anime (obtida dos materiais de demonstração do próprio Google), pedindo para substituir a pessoa no vídeo original pela personagem da imagem.
O resultado? Decepcionante, para dizer o mínimo.
A personagem de substituição manteve aproximadamente a mesma posição da original, mas as expressões sutis — a mordida no lábio, o olhar furtivo, o pequeno sorriso ao notar a câmera — foram quase inteiramente perdidas na tradução.
Essa dificuldade com detalhes precisos não foi um caso isolado.
Solicitamos ao Omni que gerasse um vídeo de um homem de meia-idade em um quarto com pouca luz, falando baixinho com seu reflexo no espelho: "Eu sei que foi você. Pare de fingir."
O resultado inicial foi decente — tirando um leve sotaque chinês, a sincronia labial correspondeu a cada palavra com bastante precisão. Se transmitiu emoção humana genuína, é uma questão de interpretação pessoal.
Mas quando tentamos mudar a fala do homem, os circuitos do Omni pareceram entrar em curto-circuito completamente.
O prompt: um homem de meia-idade em um quarto com pouca luz, dizendo calmamente ao seu espelho: "20 de maio chegou de novo — feliz aniversário."
Primeiro, ele não conseguiu entender o conceito de "mudar a fala" de forma alguma, e simplesmente colocou a nova frase como uma legenda na parte inferior da tela. Depois, ele ficou no meio termo — entregando metade da frase original e metade da nova. Na tentativa final, ele saiu completamente dos trilhos.
A iluminação ficou um pouco mais clara e a expressão mudou para um sorriso — mas agora tínhamos um homem sorrindo calorosamente enquanto dizia "Eu sei que foi você. Pare de fingir", com a mesma música de fundo sinistra de antes. De alguma forma, ficou mais assustador que o original.
Em suma, quando se trata de controle preciso, o Omni ainda tem um longo caminho a percorrer.
Uma API Unificada para Geração de Vídeo em Produção
Enquanto o Google lança o Gemini Omni Flash dentro do aplicativo Gemini e do Google Flow para usuários finais, desenvolvedores e equipes de produto que desejam integrar o mesmo mecanismo de vídeo multimodal em seus próprios fluxos de trabalho precisam de uma camada de API estável e previsível.
O Atlas Cloud disponibiliza o Gemini Omni Flash através de uma API unificada compatível com OpenAI, juntamente com mais de 300 outros modelos de imagem, vídeo e LLM — para que você possa integrar o modelo multimodal nativo do Google sem precisar lidar com contas de fornecedores, portais de faturamento ou SDKs separados.
Ambas as variantes do Gemini Omni Flash estão disponíveis no Atlas Cloud:
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
| Variante | Ideal Para | Entradas | Resolução | Duração | Preço Inicial |
| Gemini Omni Flash Text-to-Video (Developer) | Geração cinematográfica pura por prompt | Texto (até 20.000 caracteres) | 720p / 1080p / 4K | 4, 6, 8, 10 s | USD0.2 + USD0.1/s |
| Gemini Omni Flash Image-to-Video (Developer) | Vídeo com consistência de objeto a partir de referências reais | Texto + até 7 imagens de referência | 720p / 1080p / 4K | 4, 6, 8, 10 s | USD0.2 + USD0.1/s |
Início Rápido — Gere um vídeo Gemini Omni Flash em 5 linhas:
plaintext1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \ 2 -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \ 3 -H "Content-Type: application/json" \ 4 -d '{ 5 "model": "google/gemini-omni-flash/text-to-video-developer", 6 "input": { 7 "prompt": "A misty forest at golden hour, cinematic dolly shot", 8 "resolution": "1080p", 9 "duration": 8, 10 "aspect_ratio": "16:9" 11 } 12 }'
A API retorna um ID de predição imediatamente — consulte /api/v1/model/prediction/{id} para obter a URL do MP4 renderizado. O esquema completo, exemplos de código em 7 idiomas e um Playground sem código estão disponíveis nas páginas dos modelos linkadas acima.
Conhecimento de Mundo: Forte em Física e História, Mas Ainda com Bugs
Por último, avaliamos o conhecimento de mundo e o raciocínio.
A alegação oficial do Google é que o Omni, construído sobre o modelo carro-chefe Gemini, melhorou significativamente sua compreensão de leis físicas como gravidade, energia cinética e dinâmica de fluidos, bem como de história mundial, ciência e matemática.
Fomos direto ao teste com este prompt: gere uma bola de gude rolando rapidamente ao longo de uma pista de reação em cadeia.
O resultado foi genuinamente impressionante. O Omni projetou um curso de reação em cadeia bastante complexo por conta própria, incorporando gravidade, elasticidade, força centrífuga e muito mais — tudo o que parecia convincentemente realista.
Dito isto, um bug surgiu perto da segunda metade: do nada, uma bola de gude inexplicavelmente se dividiu em duas.
Tentamos outro: uma bola rolando para frente e para trás ao longo da parede interna de uma pista em forma de U, finalmente parando no ponto mais baixo.
Este pareceu um pouco estranho.
A bola rolou para frente e para trás ao longo da pista em U e parou no fundo como solicitado — mas tudo parecia estar acontecendo em algum lugar que não fosse a Terra. A bola se moveu com uma qualidade estranhamente sem peso, flutuante, e em certos momentos parecia atravessar ligeiramente a geometria da pista.
Finalmente, lançamos mais um prompt — curto, impactante e com uma referência cultural especificamente chinesa: gere um vídeo do Imperador Taizong de Tang e seu irmão mais velho se enfrentando no Portão Xuanwu.
Bem — os caracteres chineses para "Portão Xuanwu" no fundo estavam um pouco distorcidos, e ambas as figuras da dinastia Tang falavam mandarim com um sotaque levemente estrangeiro. Mas o Omni entendeu a referência histórica e entregou um confronto tenso, com espadas desembainhadas, entre Li Shimin e Li Yuanji.
Pelo menos em história mundial, o Omni parece ter feito o dever de casa.
Considerações Finais: Aguardando o Seedance 2.1
O burburinho em torno do Omni vinha crescendo muito antes do anúncio de hoje.
Tudo começou no início de maio, quando um usuário notou uma pequena linha de texto fácil de passar despercebida na página de geração de vídeo do Gemini: "Powered by Omni". Aquele pequeno detalhe desencadeou uma onda de especulação em toda a comunidade tecnológica mundial.
Todos faziam a mesma pergunta: o que exatamente é o Omni? É o Veo 4, a próxima geração do Veo 3 do Google I/O 2025? Ou é um modelo multimodal totalmente novo? É por isso que os primeiros relatos continuavam oscilando entre "Gemini Omni" e "Veo 4".
Então, em 11 de maio, um vídeo de teste interno vazado de um "professor deduzindo equações em um quadro-negro" viralizou no X, acumulando mais de 2,4 milhões de visualizações em apenas alguns dias.
Em apenas 10 segundos, o clipe cortava entre vários ângulos — as costas do professor, um perfil lateral, um close-up do giz escrevendo equações — tudo acompanhado pelo som suave do giz no quadro-negro, com cada fórmula no quadro matematicamente correta. As expectativas foram às alturas.
Dizia-se na época que o Omni havia internalizado totalmente a linguagem cinematográfica e os instintos de edição — cortes multi-ângulo, música de fundo nativa incluída — e que poderia "produzir um vídeo finalizado pronto para uso".
Mas agora que o Gemini Omni finalmente chegou após toda a expectativa, a recepção tem sido decididamente mista.
Parece que teremos que ficar de olho no Seedance 2.1 — quando quer que ele decida aparecer.







