Como usar a API do Gemini Omni: Passo a passo (2026)

TL;DR: Este tutorial mostra como usar a API do Gemini Omni Flash para gerar vídeos a partir de prompts de texto e imagens de referência. Usando a API unificada da Atlas Cloud, você terá um script de geração de vídeo funcionando em aproximadamente 15 minutos. Não é necessária aprovação de conta Google — apenas uma chave de API da Atlas Cloud.

O guia de início rápido oficial da API do Gemini do Google não aborda o Gemini Omni Flash especificamente. Este tutorial utiliza o endpoint de API unificado da Atlas Cloud, que oferece acesso direto ao Gemini Omni Flash sem a necessidade de um aplicativo separado do Google AI Studio.

developer editorial style terminal

Uma thread no r/GeminiAI intitulada "Acesso à API do Gemini Omni Flash: 5 provedores testados, classificados por caso de uso" surgiu há seis dias e rapidamente se tornou a referência principal para desenvolvedores que avaliam suas opções. O comentário principal foi direto ao ponto: o Google AI Studio é a maneira mais rápida de começar, mas você atinge limites de taxa rapidamente. Desenvolvedores que buscam um caminho pronto para produção precisam de um ponto de entrada diferente.

O Gemini Omni Flash é o modelo multimodal de geração de vídeo do Google que aceita qualquer combinação de texto, imagens, áudio e vídeo como entrada. Ele gera vídeos cinematográficos de até 10 segundos em resoluções de 720p a 4K. Este tutorial mostra como usar a API do Gemini Omni Flash através da Atlas Cloud, que oferece um endpoint de API unificado, cobrança pay-as-you-go (pague pelo que usar) e sem limites de taxa vinculados a uma conta Google.

Este tutorial cobre a API do Gemini Omni para 2 modos de geração: Text-to-Video e Image-to-Video. Todos os exemplos de código são testados com a API ativa da Atlas Cloud.

Pré-requisitos da API do Gemini Omni Flash

Você precisará de:

Python 3.9+ ou Node.js 18+
Uma conta na Atlas Cloud e uma chave de API (cadastro gratuito)
A biblioteca requests para Python ou axios para Node.js
Familiaridade básica com APIs REST
Aproximadamente 15 minutos para concluir

Testado em: macOS 14, Ubuntu 22.04, Windows 11 (WSL2)

Referência de preços (fonte: preços da Atlas Cloud, 02/06/2026):

720p / 1080p: USD0.20 base + USD0.10 por segundo. Um vídeo de 8 segundos em 720p custa USD1.00.
4K: USD1.00 base + USD0.10 por segundo. Um vídeo de 8 segundos em 4K custa USD1.80.

O que estamos construindo com a API do Gemini Omni

Ao final deste tutorial, você terá dois scripts funcionando: um que gera um vídeo a partir de um prompt de texto e outro que anima uma imagem de referência em um vídeo. Ambos os scripts compartilham a mesma lógica de autenticação e polling. A arquitetura é simples:

plaintext
1Seu Script → API Atlas Cloud → Gemini Omni Flash → URL do Vídeo
2               (auth + fila)     (geração)      (saída)

O que os scripts finalizados fazem:

Enviam uma solicitação de geração e recebem um prediction_id
Consultam (poll) o endpoint de status a cada 3 segundos até que o vídeo esteja pronto
Imprimem a URL do vídeo de saída quando a geração for concluída

Passo 1: Obtenha sua chave de API para o Gemini Omni Flash

Neste passo, você criará uma conta na Atlas Cloud e gerará uma chave de API para que seus scripts possam se autenticar na API do Gemini Omni Flash.

Acesse atlascloud.ai e crie uma conta gratuita.
No painel, navegue até API Keys.
Clique em Create new key, copie a chave e armazene-a com segurança.

Defina a chave como uma variável de ambiente para não deixá-la hard-coded nos seus scripts:

plaintext
1# macOS / Linux
2export ATLASCLOUD_API_KEY="sua_chave_aqui"
3
4# Windows (PowerShell)
5$env:ATLASCLOUD_API_KEY="sua_chave_aqui"

Verifique se foi definida corretamente:

plaintext
1echo $ATLASCLOUD_API_KEY

Saída esperada:

plaintext
1sua_chave_aqui

Cuidado: Nunca envie sua chave de API para controle de versão. Adicione ATLASCLOUD_API_KEY ao seu .gitignore por meio de um arquivo .env se você usar python-dotenv ou dotenv para Node.js.

Passo 2: Faça sua primeira solicitação à API do Gemini Omni Flash

Neste passo, você enviará uma solicitação de Text-to-Video para a API do Gemini Omni Flash e receberá um prediction_id para rastrear o trabalho.

O endpoint para toda geração de vídeo na Atlas Cloud é:

plaintext
1POST https://api.atlascloud.ai/api/v1/model/generateVideo

O identificador do modelo para Text-to-Video do Gemini Omni Flash é:

plaintext
1google/gemini-omni-flash/text-to-video-developer

Python

plaintext
1# gemini_omni_t2v.py
2import requests
3import os
4
5API_KEY = os.environ["ATLASCLOUD_API_KEY"]
6BASE_URL = "https://api.atlascloud.ai/api/v1/model"
7
8headers = {
9    "Content-Type": "application/json",
10    "Authorization": f"Bearer {API_KEY}"
11}
12
13payload = {
14    "model": "google/gemini-omni-flash/text-to-video-developer",
15    "prompt": "A young woman walks slowly through a rainy Tokyo street at night, neon reflections on wet pavement, cinematic slow motion, realistic lighting, 4K, film grain",
16    "duration": 8,          # segundos: 4, 6, 8 ou 10
17    "aspect_ratio": "16:9", # "16:9" ou "9:16"
18    "resolution": "1080p",  # "720p", "1080p" ou "4k"
19    "seed": -1              # -1 para aleatório; defina um inteiro para saída reproduzível
20}
21
22response = requests.post(f"{BASE_URL}/generateVideo", headers=headers, json=payload)
23response.raise_for_status()
24
25prediction_id = response.json()["data"]["id"]
26print(f"Trabalho enviado. Prediction ID: {prediction_id}")

Node.js

plaintext
1// geminiOmniT2V.js
2const axios = require("axios");
3
4const API_KEY = process.env.ATLASCLOUD_API_KEY;
5const BASE_URL = "https://api.atlascloud.ai/api/v1/model";
6
7const headers = {
8  "Content-Type": "application/json",
9  Authorization: `Bearer ${API_KEY}`,
10};
11
12const payload = {
13  model: "google/gemini-omni-flash/text-to-video-developer",
14  prompt:
15    "A young woman walks slowly through a rainy Tokyo street at night, neon reflections on wet pavement, cinematic slow motion, realistic lighting, 4K, film grain",
16  duration: 8,
17  aspect_ratio: "16:9",
18  resolution: "1080p",
19  seed: -1,
20};
21
22axios
23  .post(`${BASE_URL}/generateVideo`, payload, { headers })
24  .then((res) => {
25    const predictionId = res.data.data.id;
26    console.log(`Trabalho enviado. Prediction ID: ${predictionId}`);
27  })
28  .catch((err) => console.error(err.response?.data || err.message));

Saída esperada:

plaintext
1Trabalho enviado. Prediction ID: pred_abc123xyz

Cuidado: A API retorna um prediction_id imediatamente. O vídeo ainda não está pronto. Você deve consultar o endpoint de status no Passo 3 para recuperar a URL de saída.

Passo 3: Consultar o resultado do vídeo no Gemini Omni Flash

Neste passo, você consultará o endpoint de status repetidamente até que a geração do vídeo seja concluída e a URL de saída esteja disponível.

A geração de vídeo com o Gemini Omni Flash é assíncrona. O tempo de conclusão típico é de 30 segundos a 3 minutos, dependendo da resolução e da carga do servidor. O endpoint de status é:

plaintext
1GET https://api.atlascloud.ai/api/v1/model/prediction/{prediction_id}

Valores de status possíveis: processing, completed, succeeded, failed.

Python

plaintext
1# poll_result.py
2import requests
3import time
4import os
5
6API_KEY = os.environ["ATLASCLOUD_API_KEY"]
7BASE_URL = "https://api.atlascloud.ai/api/v1/model"
8
9headers = {
10    "Authorization": f"Bearer {API_KEY}"
11}
12
13def poll_video(prediction_id: str, timeout: int = 360) -> str:
14    """Consulta até que o vídeo esteja pronto, depois retorna a URL de saída."""
15    elapsed = 0
16    while elapsed < timeout:
17        response = requests.get(
18            f"{BASE_URL}/prediction/{prediction_id}",
19            headers=headers
20        )
21        response.raise_for_status()
22        data = response.json()["data"]
23        status = data["status"]
24
25        if status in ("completed", "succeeded"):
26            video_url = data["outputs"][0]
27            print(f"Vídeo pronto: {video_url}")
28            return video_url
29
30        if status == "failed":
31            raise RuntimeError(f"Geração falhou: {data}")
32
33        print(f"Status: {status} — aguardando 3 segundos...")
34        time.sleep(3)
35        elapsed += 3
36
37    raise TimeoutError(f"A geração não foi concluída dentro de {timeout} segundos.")
38
39# Substitua pelo seu prediction_id real do Passo 2
40video_url = poll_video("pred_abc123xyz")

Node.js

plaintext
1// pollResult.js
2const axios = require("axios");
3
4const API_KEY = process.env.ATLASCLOUD_API_KEY;
5const BASE_URL = "https://api.atlascloud.ai/api/v1/model";
6const headers = { Authorization: `Bearer ${API_KEY}` };
7
8async function pollVideo(predictionId, timeoutMs = 360000) {
9  const start = Date.now();
10  while (Date.now() - start < timeoutMs) {
11    const res = await axios.get(`${BASE_URL}/prediction/${predictionId}`, { headers });
12    const data = res.data.data;
13
14    if (data.status === "completed" || data.status === "succeeded") {
15      console.log("Vídeo pronto:", data.outputs[0]);
16      return data.outputs[0];
17    }
18    if (data.status === "failed") throw new Error(`Geração falhou: {JSON.stringify(data)}`);
19
20    console.log(`Status: ${data.status} — aguardando 3 segundos...`);
21    await new Promise((r) => setTimeout(r, 3000));
22  }
23  throw new Error("Tempo limite de geração excedido.");
24}
25
26pollVideo("pred_abc123xyz");

Saída esperada:

plaintext
1Status: processing — aguardando 3 segundos...
2Status: processing — aguardando 3 segundos...
3Vídeo pronto: https://storage.atlascloud.ai/outputs/result.mp4

Defina seu intervalo de polling para 3 segundos em vez de 1 segundo. Consultar a cada segundo adiciona chamadas de API desnecessárias sem reduzir significativamente o tempo de espera, já que os trabalhos do Gemini Omni Flash raramente são concluídos em menos de 30 segundos em 1080p.

Cuidado: Os vídeos de saída são armazenados nos servidores da Atlas Cloud por 48 horas. Baixe o arquivo para seu próprio armazenamento imediatamente após a geração se precisar mantê-lo.

Passo 4: Image-to-Video com a API do Gemini Omni Flash

Neste passo, você fará upload de uma imagem local para a Atlas Cloud e a usará como referência para a geração de Image-to-Video com a API do Gemini Omni Flash.

A geração de Image-to-Video usa o mesmo endpoint, mas requer um ID de modelo diferente e um array images. O identificador do modelo é:

plaintext
1google/gemini-omni-flash/image-to-video-developer

O Image-to-Video do Gemini Omni Flash aceita de 1 a 7 imagens de referência (PNG, JPEG, JPG ou WebP; máximo de 20 MB cada, mínimo de 128×128 px). Ele preserva a identidade visual ao longo do vídeo gerado, mantendo personagens e objetos consistentes.

the video of showing a person is moving

Passo 4a: Envie sua imagem

plaintext
1# upload_image.py
2import requests
3import os
4
5API_KEY = os.environ["ATLASCLOUD_API_KEY"]
6UPLOAD_URL = "https://api.atlascloud.ai/api/v1/model/uploadMedia"
7
8headers = {"Authorization": f"Bearer {API_KEY}"}
9
10with open("reference.jpg", "rb") as f:
11    response = requests.post(UPLOAD_URL, headers=headers, files={"file": f})
12
13response.raise_for_status()
14image_url = response.json()["data"]["url"]
15print(f"URL da imagem enviada: {image_url}")

Passo 4b: Envie a solicitação de Image-to-Video

plaintext
1# gemini_omni_i2v.py
2import requests
3import os
4
5API_KEY = os.environ["ATLASCLOUD_API_KEY"]
6BASE_URL = "https://api.atlascloud.ai/api/v1/model"
7
8headers = {
9    "Content-Type": "application/json",
10    "Authorization": f"Bearer {API_KEY}"
11}
12
13payload = {
14    "model": "google/gemini-omni-flash/image-to-video-developer",
15    "prompt": "The character walks forward slowly, natural lighting, cinematic depth of field",
16    "images": [image_url],  # use a URL retornada no Passo 4a
17    "duration": 8,
18    "aspect_ratio": "16:9",
19    "resolution": "1080p",
20    "seed": -1
21}
22
23response = requests.post(f"{BASE_URL}/generateVideo", headers=headers, json=payload)
24response.raise_for_status()
25
26prediction_id = response.json()["data"]["id"]
27print(f"Trabalho enviado. Prediction ID: {prediction_id}")
28# Em seguida, faça o polling usando a função poll_video() do Passo 3

Para obter melhores resultados com o Image-to-Video do Gemini Omni Flash, use uma imagem de referência limpa e bem iluminada com um fundo neutro ou simples. O modelo preserva os detalhes faciais e de vestuário de forma mais consistente quando o sujeito está claramente separado do fundo. Imagens com padrões complexos ou pós-processamento pesado tendem a produzir resultados inconsistentes entre os quadros.

Cuidado: Os formatos de imagem aceitos são apenas PNG, JPEG, JPG e WebP. Arquivos maiores que 20 MB serão rejeitados com um erro 400.

Passo 5: Troque de modelo com uma mudança de parâmetro

Uma das vantagens práticas de acessar a API do Gemini Omni através da Atlas Cloud é que todos os modelos de geração de vídeo na plataforma compartilham o mesmo endpoint e lógica de polling. Mudar do Gemini Omni Flash para outro modelo requer apenas uma alteração no parâmetro model.

plaintext
1# Mude para Seedance 2.0 Text-to-Video (custo de USD0.096/s na Atlas Cloud)
2payload["model"] = "bytedance/seedance-2-0/text-to-video"
3
4# Mude para Veo 3.1 Lite
5payload["model"] = "google/veo-3-1/lite-text-to-video"

Isso torna o teste A/B entre modelos direto. Você pode executar o mesmo prompt em vários modelos e comparar a qualidade da saída antes de se comprometer com um modelo específico para produção.

Solução de problemas da API do Gemini Omni Flash

Aqui estão os cinco problemas mais comuns ao usar a API do Gemini Omni Flash e como resolvê-los.

Problema	Sintoma	Solução
401 Unauthorized	{"error": "Invalid API key"}	Verifique se sua variável `ATLASCLOUD_API_KEY` está definida e não expirou
400 Bad Request	{"error": "Invalid prompt"}	O prompt provavelmente viola a política de conteúdo; reformule ou remova conteúdo restrito
Tarefa travada em `processing`	Sem status de conclusão após 6 min	Tente reenviar a solicitação; isso é raro, mas pode ocorrer durante picos de carga
URL do vídeo retorna 404	URL não está mais acessível	Os arquivos de saída expiram após 48 horas; baixe imediatamente após a geração
429 Too Many Requests	Limite de taxa excedido	Adicione um atraso entre as solicitações; use retentativa com recuo exponencial

Ainda travado? Visite a documentação da Atlas Cloud ou entre em contato pelo canal de suporte da plataforma.

Próximos passos

Agora que você tem scripts de Text-to-Video e Image-to-Video funcionando, veja como expandi-los.

Expanda este projeto:

Adicione Reference-to-Video com entrada de áudio usando Seedance 2.0, que suporta até 7 imagens de referência combinadas com uma trilha de áudio
Crie um pipeline de geração em lote (batch) que envia múltiplos prompts em paralelo e coleta os resultados de forma assíncrona
Adicione um estimador de custo ao seu script: custo = 0.20 + (duração * 0.10) para 720p/1080p

Recursos relacionados:

Catálogo de modelos de vídeo da Atlas Cloud — todos os modelos de geração de vídeo disponíveis
Página de preços da Atlas Cloud — preços completos para cada modelo
Documentação da API da Atlas Cloud — referência completa da API

Perguntas Frequentes

O que é a API do Gemini Omni Flash?

A API do Gemini Omni Flash é a interface multimodal de geração de vídeo do Google que aceita qualquer combinação de texto, imagens, áudio e vídeo como entrada e gera clipes de vídeo cinematográficos. Ela suporta durações de 4 a 10 segundos, resoluções de 720p a 4K e orientações paisagem e retrato. Acesse-a via Atlas Cloud sem um processo de aprovação separado do Google.

Quanto custa a API do Gemini Omni Flash?

Na Atlas Cloud, o Gemini Omni Flash é cobrado a USD0.20 de base mais USD0.10 por segundo para saída 720p e 1080p. Um clipe padrão de 8 segundos em 1080p custa USD1.00. Para saída 4K, a taxa base é de USD1.00 mais USD0.10 por segundo, tornando um clipe 4K de 8 segundos USD1.80. Toda a cobrança é pay-as-you-go sem gasto mínimo (preços da Atlas Cloud, 02/06/2026).

Qual é a diferença entre o Google AI Studio e a Atlas Cloud para acesso à API do Gemini Omni Flash?

O Google AI Studio oferece acesso direto aos modelos Gemini, mas requer uma conta Google e está sujeito a cotas de uso individuais que podem ser atingidas rapidamente. A Atlas Cloud oferece o mesmo modelo Gemini Omni Flash através de um endpoint de API unificado com cobrança transparente por segundo, sem fila de aprovação e com acesso a mais de 300 outros modelos de vídeo e imagem sob a mesma chave de API. Para uso em produção, a API unificada da Atlas Cloud elimina a necessidade de gerenciar credenciais separadas por provedor de modelo.

Quanto tempo o Gemini Omni Flash leva para gerar um vídeo?

O tempo de geração típico para um vídeo de 8 segundos em 1080p é de 30 segundos a 3 minutos, dependendo da carga do servidor. A API é assíncrona: seu script envia um trabalho e recebe um prediction_id imediatamente, então consulta o endpoint de status até que o vídeo esteja pronto. Defina seu tratamento de timeout com um limite superior de 6 minutos para considerar períodos de pico de carga.

Posso usar a API do Gemini Omni Flash gratuitamente?

A Atlas Cloud oferece créditos gratuitos para novas contas, que você pode aplicar na geração do Gemini Omni Flash. Após o esgotamento dos créditos gratuitos, a cobrança é pay-as-you-go, sem necessidade de assinatura. Inscreva-se em atlascloud.ai para começar.

VOLTAR À LISTA

Como usar a API do Gemini Omni: Passo a passo (2026)

Pré-requisitos da API do Gemini Omni Flash

O que estamos construindo com a API do Gemini Omni

Passo 1: Obtenha sua chave de API para o Gemini Omni Flash

Passo 2: Faça sua primeira solicitação à API do Gemini Omni Flash

Passo 3: Consultar o resultado do vídeo no Gemini Omni Flash

Passo 4: Image-to-Video com a API do Gemini Omni Flash

Passo 5: Troque de modelo com uma mudança de parâmetro

Solução de problemas da API do Gemini Omni Flash

Próximos passos

Perguntas Frequentes

O que é a API do Gemini Omni Flash?

Quanto custa a API do Gemini Omni Flash?

Qual é a diferença entre o Google AI Studio e a Atlas Cloud para acesso à API do Gemini Omni Flash?

Quanto tempo o Gemini Omni Flash leva para gerar um vídeo?

Posso usar a API do Gemini Omni Flash gratuitamente?

Modelos recentes

MiniMax H3 Text-to-Video

MiniMax H3 Image-to-Video

MiniMax H3 Reference-to-Video

Reve 2.1 Remix

Uma API para toda a IA de mídia.