TL;DR: Este tutorial mostra como usar a API do Gemini Omni Flash para gerar vídeos a partir de prompts de texto e imagens de referência. Usando a API unificada da Atlas Cloud, você terá um script de geração de vídeo funcionando em aproximadamente 15 minutos. Não é necessária aprovação de conta Google — apenas uma chave de API da Atlas Cloud.
O guia de início rápido oficial da API do Gemini do Google não aborda o Gemini Omni Flash especificamente. Este tutorial utiliza o endpoint de API unificado da Atlas Cloud, que oferece acesso direto ao Gemini Omni Flash sem a necessidade de um aplicativo separado do Google AI Studio.

Uma thread no r/GeminiAI intitulada "Acesso à API do Gemini Omni Flash: 5 provedores testados, classificados por caso de uso" surgiu há seis dias e rapidamente se tornou a referência principal para desenvolvedores que avaliam suas opções. O comentário principal foi direto ao ponto: o Google AI Studio é a maneira mais rápida de começar, mas você atinge limites de taxa rapidamente. Desenvolvedores que buscam um caminho pronto para produção precisam de um ponto de entrada diferente.
O Gemini Omni Flash é o modelo multimodal de geração de vídeo do Google que aceita qualquer combinação de texto, imagens, áudio e vídeo como entrada. Ele gera vídeos cinematográficos de até 10 segundos em resoluções de 720p a 4K. Este tutorial mostra como usar a API do Gemini Omni Flash através da Atlas Cloud, que oferece um endpoint de API unificado, cobrança pay-as-you-go (pague pelo que usar) e sem limites de taxa vinculados a uma conta Google.
Este tutorial cobre a API do Gemini Omni para 2 modos de geração: Text-to-Video e Image-to-Video. Todos os exemplos de código são testados com a API ativa da Atlas Cloud.
Pré-requisitos da API do Gemini Omni Flash
Você precisará de:
- Python 3.9+ ou Node.js 18+
- Uma conta na Atlas Cloud e uma chave de API (cadastro gratuito)
- A biblioteca para Python outext
1requestspara Node.jstext1axios - Familiaridade básica com APIs REST
- Aproximadamente 15 minutos para concluir
Testado em: macOS 14, Ubuntu 22.04, Windows 11 (WSL2)
Referência de preços (fonte: preços da Atlas Cloud, 02/06/2026):
- 720p / 1080p: USD0.20 base + USD0.10 por segundo. Um vídeo de 8 segundos em 720p custa USD1.00.
- 4K: USD1.00 base + USD0.10 por segundo. Um vídeo de 8 segundos em 4K custa USD1.80.
O que estamos construindo com a API do Gemini Omni
Ao final deste tutorial, você terá dois scripts funcionando: um que gera um vídeo a partir de um prompt de texto e outro que anima uma imagem de referência em um vídeo. Ambos os scripts compartilham a mesma lógica de autenticação e polling. A arquitetura é simples:
plaintext1Seu Script → API Atlas Cloud → Gemini Omni Flash → URL do Vídeo 2 (auth + fila) (geração) (saída)
O que os scripts finalizados fazem:
- Enviam uma solicitação de geração e recebem um text
1prediction_id - Consultam (poll) o endpoint de status a cada 3 segundos até que o vídeo esteja pronto
- Imprimem a URL do vídeo de saída quando a geração for concluída
Passo 1: Obtenha sua chave de API para o Gemini Omni Flash
Neste passo, você criará uma conta na Atlas Cloud e gerará uma chave de API para que seus scripts possam se autenticar na API do Gemini Omni Flash.
- Acesse atlascloud.ai e crie uma conta gratuita.
- No painel, navegue até API Keys.
- Clique em Create new key, copie a chave e armazene-a com segurança.
Defina a chave como uma variável de ambiente para não deixá-la hard-coded nos seus scripts:
plaintext1# macOS / Linux 2export ATLASCLOUD_API_KEY="sua_chave_aqui" 3 4# Windows (PowerShell) 5$env:ATLASCLOUD_API_KEY="sua_chave_aqui"
Verifique se foi definida corretamente:
plaintext1echo $ATLASCLOUD_API_KEY
Saída esperada:
plaintext1sua_chave_aqui
Cuidado: Nunca envie sua chave de API para controle de versão. Adicione
ao seutext1ATLASCLOUD_API_KEYpor meio de um arquivotext1.gitignorese você usartext1.envoutext1python-dotenvpara Node.js.text1dotenv
Passo 2: Faça sua primeira solicitação à API do Gemini Omni Flash
Neste passo, você enviará uma solicitação de Text-to-Video para a API do Gemini Omni Flash e receberá um
1prediction_idO endpoint para toda geração de vídeo na Atlas Cloud é:
plaintext1POST https://api.atlascloud.ai/api/v1/model/generateVideo
O identificador do modelo para Text-to-Video do Gemini Omni Flash é:
plaintext1google/gemini-omni-flash/text-to-video-developer
Python
plaintext1# gemini_omni_t2v.py 2import requests 3import os 4 5API_KEY = os.environ["ATLASCLOUD_API_KEY"] 6BASE_URL = "https://api.atlascloud.ai/api/v1/model" 7 8headers = { 9 "Content-Type": "application/json", 10 "Authorization": f"Bearer {API_KEY}" 11} 12 13payload = { 14 "model": "google/gemini-omni-flash/text-to-video-developer", 15 "prompt": "A young woman walks slowly through a rainy Tokyo street at night, neon reflections on wet pavement, cinematic slow motion, realistic lighting, 4K, film grain", 16 "duration": 8, # segundos: 4, 6, 8 ou 10 17 "aspect_ratio": "16:9", # "16:9" ou "9:16" 18 "resolution": "1080p", # "720p", "1080p" ou "4k" 19 "seed": -1 # -1 para aleatório; defina um inteiro para saída reproduzível 20} 21 22response = requests.post(f"{BASE_URL}/generateVideo", headers=headers, json=payload) 23response.raise_for_status() 24 25prediction_id = response.json()["data"]["id"] 26print(f"Trabalho enviado. Prediction ID: {prediction_id}")
Node.js
plaintext1// geminiOmniT2V.js 2const axios = require("axios"); 3 4const API_KEY = process.env.ATLASCLOUD_API_KEY; 5const BASE_URL = "https://api.atlascloud.ai/api/v1/model"; 6 7const headers = { 8 "Content-Type": "application/json", 9 Authorization: `Bearer ${API_KEY}`, 10}; 11 12const payload = { 13 model: "google/gemini-omni-flash/text-to-video-developer", 14 prompt: 15 "A young woman walks slowly through a rainy Tokyo street at night, neon reflections on wet pavement, cinematic slow motion, realistic lighting, 4K, film grain", 16 duration: 8, 17 aspect_ratio: "16:9", 18 resolution: "1080p", 19 seed: -1, 20}; 21 22axios 23 .post(`${BASE_URL}/generateVideo`, payload, { headers }) 24 .then((res) => { 25 const predictionId = res.data.data.id; 26 console.log(`Trabalho enviado. Prediction ID: ${predictionId}`); 27 }) 28 .catch((err) => console.error(err.response?.data || err.message));
Saída esperada:
plaintext1Trabalho enviado. Prediction ID: pred_abc123xyz
Cuidado: A API retorna um
imediatamente. O vídeo ainda não está pronto. Você deve consultar o endpoint de status no Passo 3 para recuperar a URL de saída.text1prediction_id
Passo 3: Consultar o resultado do vídeo no Gemini Omni Flash
Neste passo, você consultará o endpoint de status repetidamente até que a geração do vídeo seja concluída e a URL de saída esteja disponível.
A geração de vídeo com o Gemini Omni Flash é assíncrona. O tempo de conclusão típico é de 30 segundos a 3 minutos, dependendo da resolução e da carga do servidor. O endpoint de status é:
plaintext1GET https://api.atlascloud.ai/api/v1/model/prediction/{prediction_id}
Valores de status possíveis:
1processing1completed1succeeded1failedPython
plaintext1# poll_result.py 2import requests 3import time 4import os 5 6API_KEY = os.environ["ATLASCLOUD_API_KEY"] 7BASE_URL = "https://api.atlascloud.ai/api/v1/model" 8 9headers = { 10 "Authorization": f"Bearer {API_KEY}" 11} 12 13def poll_video(prediction_id: str, timeout: int = 360) -> str: 14 """Consulta até que o vídeo esteja pronto, depois retorna a URL de saída.""" 15 elapsed = 0 16 while elapsed < timeout: 17 response = requests.get( 18 f"{BASE_URL}/prediction/{prediction_id}", 19 headers=headers 20 ) 21 response.raise_for_status() 22 data = response.json()["data"] 23 status = data["status"] 24 25 if status in ("completed", "succeeded"): 26 video_url = data["outputs"][0] 27 print(f"Vídeo pronto: {video_url}") 28 return video_url 29 30 if status == "failed": 31 raise RuntimeError(f"Geração falhou: {data}") 32 33 print(f"Status: {status} — aguardando 3 segundos...") 34 time.sleep(3) 35 elapsed += 3 36 37 raise TimeoutError(f"A geração não foi concluída dentro de {timeout} segundos.") 38 39# Substitua pelo seu prediction_id real do Passo 2 40video_url = poll_video("pred_abc123xyz")
Node.js
plaintext1// pollResult.js 2const axios = require("axios"); 3 4const API_KEY = process.env.ATLASCLOUD_API_KEY; 5const BASE_URL = "https://api.atlascloud.ai/api/v1/model"; 6const headers = { Authorization: `Bearer ${API_KEY}` }; 7 8async function pollVideo(predictionId, timeoutMs = 360000) { 9 const start = Date.now(); 10 while (Date.now() - start < timeoutMs) { 11 const res = await axios.get(`${BASE_URL}/prediction/${predictionId}`, { headers }); 12 const data = res.data.data; 13 14 if (data.status === "completed" || data.status === "succeeded") { 15 console.log("Vídeo pronto:", data.outputs[0]); 16 return data.outputs[0]; 17 } 18 if (data.status === "failed") throw new Error(`Geração falhou: {JSON.stringify(data)}`); 19 20 console.log(`Status: ${data.status} — aguardando 3 segundos...`); 21 await new Promise((r) => setTimeout(r, 3000)); 22 } 23 throw new Error("Tempo limite de geração excedido."); 24} 25 26pollVideo("pred_abc123xyz");
Saída esperada:
plaintext1Status: processing — aguardando 3 segundos... 2Status: processing — aguardando 3 segundos... 3Vídeo pronto: https://storage.atlascloud.ai/outputs/result.mp4
Defina seu intervalo de polling para 3 segundos em vez de 1 segundo. Consultar a cada segundo adiciona chamadas de API desnecessárias sem reduzir significativamente o tempo de espera, já que os trabalhos do Gemini Omni Flash raramente são concluídos em menos de 30 segundos em 1080p.
Cuidado: Os vídeos de saída são armazenados nos servidores da Atlas Cloud por 48 horas. Baixe o arquivo para seu próprio armazenamento imediatamente após a geração se precisar mantê-lo.
Passo 4: Image-to-Video com a API do Gemini Omni Flash
Neste passo, você fará upload de uma imagem local para a Atlas Cloud e a usará como referência para a geração de Image-to-Video com a API do Gemini Omni Flash.
A geração de Image-to-Video usa o mesmo endpoint, mas requer um ID de modelo diferente e um array
1imagesplaintext1google/gemini-omni-flash/image-to-video-developer
O Image-to-Video do Gemini Omni Flash aceita de 1 a 7 imagens de referência (PNG, JPEG, JPG ou WebP; máximo de 20 MB cada, mínimo de 128×128 px). Ele preserva a identidade visual ao longo do vídeo gerado, mantendo personagens e objetos consistentes.

Passo 4a: Envie sua imagem
plaintext1# upload_image.py 2import requests 3import os 4 5API_KEY = os.environ["ATLASCLOUD_API_KEY"] 6UPLOAD_URL = "https://api.atlascloud.ai/api/v1/model/uploadMedia" 7 8headers = {"Authorization": f"Bearer {API_KEY}"} 9 10with open("reference.jpg", "rb") as f: 11 response = requests.post(UPLOAD_URL, headers=headers, files={"file": f}) 12 13response.raise_for_status() 14image_url = response.json()["data"]["url"] 15print(f"URL da imagem enviada: {image_url}")
Passo 4b: Envie a solicitação de Image-to-Video
plaintext1# gemini_omni_i2v.py 2import requests 3import os 4 5API_KEY = os.environ["ATLASCLOUD_API_KEY"] 6BASE_URL = "https://api.atlascloud.ai/api/v1/model" 7 8headers = { 9 "Content-Type": "application/json", 10 "Authorization": f"Bearer {API_KEY}" 11} 12 13payload = { 14 "model": "google/gemini-omni-flash/image-to-video-developer", 15 "prompt": "The character walks forward slowly, natural lighting, cinematic depth of field", 16 "images": [image_url], # use a URL retornada no Passo 4a 17 "duration": 8, 18 "aspect_ratio": "16:9", 19 "resolution": "1080p", 20 "seed": -1 21} 22 23response = requests.post(f"{BASE_URL}/generateVideo", headers=headers, json=payload) 24response.raise_for_status() 25 26prediction_id = response.json()["data"]["id"] 27print(f"Trabalho enviado. Prediction ID: {prediction_id}") 28# Em seguida, faça o polling usando a função poll_video() do Passo 3
Para obter melhores resultados com o Image-to-Video do Gemini Omni Flash, use uma imagem de referência limpa e bem iluminada com um fundo neutro ou simples. O modelo preserva os detalhes faciais e de vestuário de forma mais consistente quando o sujeito está claramente separado do fundo. Imagens com padrões complexos ou pós-processamento pesado tendem a produzir resultados inconsistentes entre os quadros.
Cuidado: Os formatos de imagem aceitos são apenas PNG, JPEG, JPG e WebP. Arquivos maiores que 20 MB serão rejeitados com um erro 400.
Passo 5: Troque de modelo com uma mudança de parâmetro
Uma das vantagens práticas de acessar a API do Gemini Omni através da Atlas Cloud é que todos os modelos de geração de vídeo na plataforma compartilham o mesmo endpoint e lógica de polling. Mudar do Gemini Omni Flash para outro modelo requer apenas uma alteração no parâmetro
1modelplaintext1# Mude para Seedance 2.0 Text-to-Video (custo de USD0.096/s na Atlas Cloud) 2payload["model"] = "bytedance/seedance-2-0/text-to-video" 3 4# Mude para Veo 3.1 Lite 5payload["model"] = "google/veo-3-1/lite-text-to-video"
Isso torna o teste A/B entre modelos direto. Você pode executar o mesmo prompt em vários modelos e comparar a qualidade da saída antes de se comprometer com um modelo específico para produção.
Solução de problemas da API do Gemini Omni Flash
Aqui estão os cinco problemas mais comuns ao usar a API do Gemini Omni Flash e como resolvê-los.
| Problema | Sintoma | Solução |
|---|---|---|
| 401 Unauthorized | {"error": "Invalid API key"} | Verifique se sua variável text |
| 400 Bad Request | {"error": "Invalid prompt"} | O prompt provavelmente viola a política de conteúdo; reformule ou remova conteúdo restrito |
| Tarefa travada em text | Sem status de conclusão após 6 min | Tente reenviar a solicitação; isso é raro, mas pode ocorrer durante picos de carga |
| URL do vídeo retorna 404 | URL não está mais acessível | Os arquivos de saída expiram após 48 horas; baixe imediatamente após a geração |
| 429 Too Many Requests | Limite de taxa excedido | Adicione um atraso entre as solicitações; use retentativa com recuo exponencial |
Ainda travado? Visite a documentação da Atlas Cloud ou entre em contato pelo canal de suporte da plataforma.
Próximos passos
Agora que você tem scripts de Text-to-Video e Image-to-Video funcionando, veja como expandi-los.
Expanda este projeto:
- Adicione Reference-to-Video com entrada de áudio usando Seedance 2.0, que suporta até 7 imagens de referência combinadas com uma trilha de áudio
- Crie um pipeline de geração em lote (batch) que envia múltiplos prompts em paralelo e coleta os resultados de forma assíncrona
- Adicione um estimador de custo ao seu script: custo = 0.20 + (duração * 0.10) para 720p/1080p
Recursos relacionados:
- Catálogo de modelos de vídeo da Atlas Cloud — todos os modelos de geração de vídeo disponíveis
- Página de preços da Atlas Cloud — preços completos para cada modelo
- Documentação da API da Atlas Cloud — referência completa da API
Perguntas Frequentes
O que é a API do Gemini Omni Flash?
A API do Gemini Omni Flash é a interface multimodal de geração de vídeo do Google que aceita qualquer combinação de texto, imagens, áudio e vídeo como entrada e gera clipes de vídeo cinematográficos. Ela suporta durações de 4 a 10 segundos, resoluções de 720p a 4K e orientações paisagem e retrato. Acesse-a via Atlas Cloud sem um processo de aprovação separado do Google.
Quanto custa a API do Gemini Omni Flash?
Na Atlas Cloud, o Gemini Omni Flash é cobrado a USD0.20 de base mais USD0.10 por segundo para saída 720p e 1080p. Um clipe padrão de 8 segundos em 1080p custa USD1.00. Para saída 4K, a taxa base é de USD1.00 mais USD0.10 por segundo, tornando um clipe 4K de 8 segundos USD1.80. Toda a cobrança é pay-as-you-go sem gasto mínimo (preços da Atlas Cloud, 02/06/2026).
Qual é a diferença entre o Google AI Studio e a Atlas Cloud para acesso à API do Gemini Omni Flash?
O Google AI Studio oferece acesso direto aos modelos Gemini, mas requer uma conta Google e está sujeito a cotas de uso individuais que podem ser atingidas rapidamente. A Atlas Cloud oferece o mesmo modelo Gemini Omni Flash através de um endpoint de API unificado com cobrança transparente por segundo, sem fila de aprovação e com acesso a mais de 300 outros modelos de vídeo e imagem sob a mesma chave de API. Para uso em produção, a API unificada da Atlas Cloud elimina a necessidade de gerenciar credenciais separadas por provedor de modelo.
Quanto tempo o Gemini Omni Flash leva para gerar um vídeo?
O tempo de geração típico para um vídeo de 8 segundos em 1080p é de 30 segundos a 3 minutos, dependendo da carga do servidor. A API é assíncrona: seu script envia um trabalho e recebe um
1prediction_idPosso usar a API do Gemini Omni Flash gratuitamente?
A Atlas Cloud oferece créditos gratuitos para novas contas, que você pode aplicar na geração do Gemini Omni Flash. Após o esgotamento dos créditos gratuitos, a cobrança é pay-as-you-go, sem necessidade de assinatura. Inscreva-se em atlascloud.ai para começar.






