So verwenden Sie die Gemini Omni API: Schritt-für-Schritt (2026)

So nutzen Sie die Gemini Omni Flash API in 15 Minuten. Vollständiger Python- und Node.js-Code für Text-zu-Video und Bild-zu-Video über Atlas Cloud. Preis: ab USD1.00 pro Clip.

TL;DR: In diesem Tutorial erfahren Sie, wie Sie die Gemini Omni Flash API nutzen, um Videos aus Text-Prompts und Referenzbildern zu generieren. Mit der einheitlichen API von Atlas Cloud verfügen Sie in etwa 15 Minuten über ein funktionierendes Skript zur Videogenerierung. Es ist keine Genehmigung durch ein Google-Konto erforderlich — lediglich ein Atlas Cloud API-Key.

Das offizielle Gemini API-Quickstart von Google deckt Gemini Omni Flash nicht spezifisch ab. Dieses Tutorial verwendet den einheitlichen API-Endpunkt von Atlas Cloud, der direkten Zugriff auf Gemini Omni Flash bietet, ohne dass eine separate Anwendung in Google AI Studio erforderlich ist.

developer editorial style terminal

Ein Thread auf r/GeminiAI mit dem Titel "Gemini Omni Flash API access: 5 providers tested, ranked by use case" tauchte vor sechs Tagen auf und wurde schnell zur bevorzugten Referenz für Entwickler, die ihre Optionen bewerten. Der wichtigste Kommentar brachte es auf den Punkt: Google AI Studio ist zwar der schnellste Einstieg, man stößt jedoch schnell an Ratenlimits. Entwickler, die einen produktionsreifen Pfad suchen, benötigen einen anderen Zugangspunkt.

Gemini Omni Flash ist Googles multimodales Videogenerierungsmodell, das eine beliebige Kombination aus Text, Bildern, Audio und Video als Eingabe akzeptiert. Es generiert cineastische Videos mit einer Länge von bis zu 10 Sekunden und Auflösungen von 720p bis 4K. Dieses Tutorial zeigt Ihnen, wie Sie die Gemini Omni Flash API über Atlas Cloud nutzen, was Ihnen einen einheitlichen API-Endpunkt, nutzungsbasierte Abrechnung (Pay-as-you-go) und keine an ein Google-Konto gebundenen Ratenlimits bietet.

Dieses Tutorial behandelt die Gemini Omni API für zwei Generierungsmodi: Text-to-Video und Image-to-Video. Alle Codebeispiele wurden mit der Live-API von Atlas Cloud getestet.

Voraussetzungen für die Gemini Omni Flash API

Sie benötigen:

  • Python 3.9+ oder Node.js 18+
  • Ein Atlas Cloud-Konto und einen API-Key (kostenlose Registrierung)
  • Die
    text
    1requests
    -Bibliothek für Python oder
    text
    1axios
    für Node.js
  • Grundlegende Vertrautheit mit REST-APIs
  • Etwa 15 Minuten Zeit für die Durchführung

Getestet auf: macOS 14, Ubuntu 22.04, Windows 11 (WSL2)

Preisreferenz (Quelle: Atlas Cloud Preisübersicht, 02.06.2026):

  • 720p / 1080p: USD0.20 Basis + USD0.10 pro Sekunde. Ein 8-sekündiges 720p-Video kostet USD1.00.
  • 4K: USD1.00 Basis + USD0.10 pro Sekunde. Ein 8-sekündiges 4K-Video kostet USD1.80.

Was wir mit der Gemini Omni API bauen

Am Ende dieses Tutorials haben Sie zwei funktionierende Skripte: eines, das ein Video aus einem Text-Prompt generiert, und eines, das ein Referenzbild in ein Video animiert. Beide Skripte verwenden dieselbe Authentifizierungs- und Abfragelogik. Die Architektur ist einfach:

plaintext
1Ihr Skript → Atlas Cloud API → Gemini Omni Flash → Video-URL
2              (Auth + Queue)    (Generierung)      (Ausgabe)

Was die fertigen Skripte tun:

  • Senden eine Generierungsanfrage und erhalten eine
    text
    1prediction_id
  • Fragen den Status-Endpunkt alle 3 Sekunden ab, bis das Video bereit ist
  • Geben die URL des ausgegebenen Videos aus, sobald die Generierung abgeschlossen ist

Schritt 1: API-Key für Gemini Omni Flash abrufen

In diesem Schritt erstellen Sie ein Atlas Cloud-Konto und generieren einen API-Key, damit Ihre Skripte sich bei der Gemini Omni Flash API authentifizieren können.

  1. Besuchen Sie atlascloud.ai und registrieren Sie sich für ein kostenloses Konto.
  2. Navigieren Sie im Dashboard zu API Keys.
  3. Klicken Sie auf Create new key, kopieren Sie den Key und speichern Sie ihn sicher ab.

Setzen Sie den Key als Umgebungsvariable, damit er nicht fest im Code Ihrer Skripte steht:

plaintext
1# macOS / Linux
2export ATLASCLOUD_API_KEY="your_api_key_here"
3
4# Windows (PowerShell)
5$env:ATLASCLOUD_API_KEY="your_api_key_here"

Überprüfen Sie, ob er korrekt gesetzt wurde:

plaintext
1echo $ATLASCLOUD_API_KEY

Erwartete Ausgabe:

plaintext
1your_api_key_here

Hinweis: Committen Sie Ihren API-Key niemals in eine Versionsverwaltung. Fügen Sie

text
1ATLASCLOUD_API_KEY
zu Ihrer
text
1.gitignore
hinzu, indem Sie eine
text
1.env
-Datei verwenden, falls Sie
text
1python-dotenv
oder
text
1dotenv
für Node.js einsetzen.

Schritt 2: Erste API-Anfrage an Gemini Omni Flash

In diesem Schritt senden Sie eine Text-to-Video-Anfrage an die Gemini Omni Flash API und erhalten eine

text
1prediction_id
, um den Vorgang zu verfolgen.

Der Endpunkt für die gesamte Videogenerierung bei Atlas Cloud lautet:

plaintext
1POST https://api.atlascloud.ai/api/v1/model/generateVideo

Die Modellkennung für Gemini Omni Flash Text-to-Video lautet:

plaintext
1google/gemini-omni-flash/text-to-video-developer

Python

plaintext
1# gemini_omni_t2v.py
2import requests
3import os
4
5API_KEY = os.environ["ATLASCLOUD_API_KEY"]
6BASE_URL = "https://api.atlascloud.ai/api/v1/model"
7
8headers = {
9    "Content-Type": "application/json",
10    "Authorization": f"Bearer {API_KEY}"
11}
12
13payload = {
14    "model": "google/gemini-omni-flash/text-to-video-developer",
15    "prompt": "A young woman walks slowly through a rainy Tokyo street at night, neon reflections on wet pavement, cinematic slow motion, realistic lighting, 4K, film grain",
16    "duration": 8,          # Sekunden: 4, 6, 8, oder 10
17    "aspect_ratio": "16:9", # "16:9" oder "9:16"
18    "resolution": "1080p",  # "720p", "1080p", oder "4k"
19    "seed": -1              # -1 für zufällig; ganze Zahl für reproduzierbare Ergebnisse
20}
21
22response = requests.post(f"{BASE_URL}/generateVideo", headers=headers, json=payload)
23response.raise_for_status()
24
25prediction_id = response.json()["data"]["id"]
26print(f"Job übermittelt. Prediction ID: {prediction_id}")

Node.js

plaintext
1// geminiOmniT2V.js
2const axios = require("axios");
3
4const API_KEY = process.env.ATLASCLOUD_API_KEY;
5const BASE_URL = "https://api.atlascloud.ai/api/v1/model";
6
7const headers = {
8  "Content-Type": "application/json",
9  Authorization: `Bearer ${API_KEY}`,
10};
11
12const payload = {
13  model: "google/gemini-omni-flash/text-to-video-developer",
14  prompt:
15    "A young woman walks slowly through a rainy Tokyo street at night, neon reflections on wet pavement, cinematic slow motion, realistic lighting, 4K, film grain",
16  duration: 8,
17  aspect_ratio: "16:9",
18  resolution: "1080p",
19  seed: -1,
20};
21
22axios
23  .post(`${BASE_URL}/generateVideo`, payload, { headers })
24  .then((res) => {
25    const predictionId = res.data.data.id;
26    console.log(`Job übermittelt. Prediction ID: ${predictionId}`);
27  })
28  .catch((err) => console.error(err.response?.data || err.message));

Erwartete Ausgabe:

plaintext
1Job übermittelt. Prediction ID: pred_abc123xyz

Hinweis: Die API gibt sofort eine

text
1prediction_id
zurück. Das Video ist jedoch noch nicht fertig. Sie müssen den Status-Endpunkt in Schritt 3 abfragen, um die Ausgabe-URL zu erhalten.

Schritt 3: Den Status des Gemini Omni Flash Videos abfragen

In diesem Schritt fragen Sie den Status-Endpunkt wiederholt ab, bis die Videogenerierung abgeschlossen ist und die Ausgabe-URL verfügbar ist.

Die Videogenerierung mit Gemini Omni Flash erfolgt asynchron. Die typische Fertigstellungszeit beträgt 30 Sekunden bis 3 Minuten, abhängig von Auflösung und Serverlast. Der Status-Endpunkt lautet:

plaintext
1GET https://api.atlascloud.ai/api/v1/model/prediction/{prediction_id}

Mögliche Statuswerte:

text
1processing
,
text
1completed
,
text
1succeeded
,
text
1failed
.

Python

plaintext
1# poll_result.py
2import requests
3import time
4import os
5
6API_KEY = os.environ["ATLASCLOUD_API_KEY"]
7BASE_URL = "https://api.atlascloud.ai/api/v1/model"
8
9headers = {
10    "Authorization": f"Bearer {API_KEY}"
11}
12
13def poll_video(prediction_id: str, timeout: int = 360) -> str:
14    """Abfragen bis das Video fertig ist, dann URL zurückgeben."""
15    elapsed = 0
16    while elapsed < timeout:
17        response = requests.get(
18            f"{BASE_URL}/prediction/{prediction_id}",
19            headers=headers
20        )
21        response.raise_for_status()
22        data = response.json()["data"]
23        status = data["status"]
24
25        if status in ("completed", "succeeded"):
26            video_url = data["outputs"][0]
27            print(f"Video bereit: {video_url}")
28            return video_url
29
30        if status == "failed":
31            raise RuntimeError(f"Generierung fehlgeschlagen: {data}")
32
33        print(f"Status: {status} — warte 3 Sekunden...")
34        time.sleep(3)
35        elapsed += 3
36
37    raise TimeoutError(f"Generierung nicht innerhalb von {timeout} Sekunden abgeschlossen.")
38
39# Ersetzen Sie dies durch Ihre tatsächliche prediction_id aus Schritt 2
40video_url = poll_video("pred_abc123xyz")

Node.js

plaintext
1// pollResult.js
2const axios = require("axios");
3
4const API_KEY = process.env.ATLASCLOUD_API_KEY;
5const BASE_URL = "https://api.atlascloud.ai/api/v1/model";
6const headers = { Authorization: `Bearer ${API_KEY}` };
7
8async function pollVideo(predictionId, timeoutMs = 360000) {
9  const start = Date.now();
10  while (Date.now() - start < timeoutMs) {
11    const res = await axios.get(`${BASE_URL}/prediction/${predictionId}`, { headers });
12    const data = res.data.data;
13
14    if (data.status === "completed" || data.status === "succeeded") {
15      console.log("Video bereit:", data.outputs[0]);
16      return data.outputs[0];
17    }
18    if (data.status === "failed") throw new Error(`Generierung fehlgeschlagen: {JSON.stringify(data)}`);
19
20    console.log(`Status: ${data.status} — warte 3 Sekunden...`);
21    await new Promise((r) => setTimeout(r, 3000));
22  }
23  throw new Error("Generierung überschritt das Zeitlimit.");
24}
25
26pollVideo("pred_abc123xyz");

Erwartete Ausgabe:

plaintext
1Status: processing — warte 3 Sekunden...
2Status: processing — warte 3 Sekunden...
3Video bereit: https://storage.atlascloud.ai/outputs/result.mp4

Setzen Sie Ihr Abfrageintervall auf 3 Sekunden statt auf 1 Sekunde. Jede Sekunde abzufragen führt zu unnötigen API-Aufrufen, ohne die Wartezeit merklich zu verkürzen, da Gemini Omni Flash-Jobs bei 1080p selten unter 30 Sekunden abgeschlossen sind.

Hinweis: Ausgegebene Videos werden 48 Stunden lang auf den Atlas Cloud-Servern gespeichert. Laden Sie die Datei direkt nach der Generierung herunter, falls Sie sie behalten möchten.

Schritt 4: Image-to-Video mit der Gemini Omni Flash API

In diesem Schritt laden Sie ein lokales Bild auf Atlas Cloud hoch und verwenden es als Referenz für die Image-to-Video-Generierung mit der Gemini Omni Flash API.

Die Image-to-Video-Generierung verwendet denselben Endpunkt, erfordert jedoch eine andere Modell-ID und ein

text
1images
-Array. Die Modellkennung lautet:

plaintext
1google/gemini-omni-flash/image-to-video-developer

Gemini Omni Flash Image-to-Video akzeptiert 1 bis 7 Referenzbilder (PNG, JPEG, JPG oder WebP; maximal 20 MB jeweils, mindestens 128×128 px). Es bewahrt die visuelle Identität über das generierte Video hinweg und sorgt dafür, dass Charaktere und Objekte konsistent bleiben.

the video of showing a person is moving

Schritt 4a: Bild hochladen

plaintext
1# upload_image.py
2import requests
3import os
4
5API_KEY = os.environ["ATLASCLOUD_API_KEY"]
6UPLOAD_URL = "https://api.atlascloud.ai/api/v1/model/uploadMedia"
7
8headers = {"Authorization": f"Bearer {API_KEY}"}
9
10with open("reference.jpg", "rb") as f:
11    response = requests.post(UPLOAD_URL, headers=headers, files={"file": f})
12
13response.raise_for_status()
14image_url = response.json()["data"]["url"]
15print(f"Hochgeladene Bild-URL: {image_url}")

Schritt 4b: Image-to-Video-Anfrage senden

plaintext
1# gemini_omni_i2v.py
2import requests
3import os
4
5API_KEY = os.environ["ATLASCLOUD_API_KEY"]
6BASE_URL = "https://api.atlascloud.ai/api/v1/model"
7
8headers = {
9    "Content-Type": "application/json",
10    "Authorization": f"Bearer {API_KEY}"
11}
12
13payload = {
14    "model": "google/gemini-omni-flash/image-to-video-developer",
15    "prompt": "The character walks forward slowly, natural lighting, cinematic depth of field",
16    "images": [image_url],  # Verwenden Sie die URL aus Schritt 4a
17    "duration": 8,
18    "aspect_ratio": "16:9",
19    "resolution": "1080p",
20    "seed": -1
21}
22
23response = requests.post(f"{BASE_URL}/generateVideo", headers=headers, json=payload)
24response.raise_for_status()
25
26prediction_id = response.json()["data"]["id"]
27print(f"Job übermittelt. Prediction ID: {prediction_id}")
28# Anschließend wie in Schritt 3 mit der poll_video()-Funktion abfragen

Für beste Ergebnisse mit Gemini Omni Flash Image-to-Video sollten Sie ein sauberes, gut ausgeleuchtetes Referenzbild mit einem neutralen oder einfachen Hintergrund verwenden. Das Modell bewahrt Gesichts- und Kleidungsdetails konsistenter, wenn sich das Subjekt deutlich vom Hintergrund abhebt. Bilder mit komplexen Mustern oder starker Nachbearbeitung führen tendenziell zu inkonsistenten Ausgaben über verschiedene Frames hinweg.

Hinweis: Akzeptierte Bildformate sind nur PNG, JPEG, JPG und WebP. Dateien über 20 MB werden mit einem 400-Fehler abgelehnt.

Schritt 5: Modellwechsel mit einer Parameteränderung

Ein praktischer Vorteil des Zugriffs auf die Gemini Omni API über Atlas Cloud ist, dass jedes Videogenerierungsmodell auf der Plattform denselben Endpunkt und dieselbe Abfragelogik verwendet. Der Wechsel von Gemini Omni Flash zu einem anderen Modell erfordert nur eine Änderung des Modell-Parameters.

plaintext
1# Wechsel zu Seedance 2.0 Text-to-Video
2payload["model"] = "bytedance/seedance-2-0/text-to-video"
3
4# Wechsel zu Veo 3.1 Lite
5payload["model"] = "google/veo-3-1/lite-text-to-video"

Dies macht A/B-Tests über verschiedene Modelle hinweg sehr einfach. Sie können denselben Prompt durch mehrere Modelle laufen lassen und die Ausgabequalität vergleichen, bevor Sie sich für ein spezifisches Modell in der Produktion entscheiden.

Fehlerbehebung bei der Gemini Omni Flash API

Hier sind die fünf häufigsten Probleme bei der Nutzung der Gemini Omni Flash API und wie man sie löst.

ProblemSymptomLösung
401 Unauthorized{"error": "Invalid API key"}Stellen Sie sicher, dass Ihre
text
1ATLASCLOUD_API_KEY
Umgebungsvariable korrekt gesetzt und nicht abgelaufen ist
400 Bad Request{"error": "Invalid prompt"}Prompt verstößt wahrscheinlich gegen die Content-Richtlinien; umformulieren oder eingeschränkte Inhalte entfernen
Task steckt in
text
1processing
Kein
text
1completed
-Status nach 6 Min.
Anfrage wiederholen; kommt selten bei hoher Serverlast vor
Video-URL ergibt 404URL nicht mehr erreichbarAusgabedateien verfallen nach 48 Stunden; direkt nach Generierung herunterladen
429 Too Many RequestsRate limit exceededVerzögerung zwischen Anfragen einfügen; Exponential Backoff bei Wiederholungen nutzen

Benötigen Sie weitere Hilfe? Besuchen Sie die Atlas Cloud Dokumentation oder nutzen Sie den Support-Kanal der Plattform.

Nächste Schritte

Jetzt, da Sie funktionierende Text-to-Video- und Image-to-Video-Skripte haben, erfahren Sie hier, wie Sie diese erweitern können.

Projekt erweitern:

  • Fügen Sie Referenz-zu-Video mit Audio-Input unter Verwendung von Seedance 2.0 hinzu, das bis zu 7 Referenzbilder in Kombination mit einem Audio-Track unterstützt
  • Bauen Sie eine Batch-Generierungspipeline, die mehrere Prompts parallel übermittelt und Ergebnisse asynchron sammelt
  • Fügen Sie einen Kostenschätzer zu Ihrem Skript hinzu:
    text
    1cost = 0.20 + (duration * 0.10)
    für 720p/1080p

Verwandte Ressourcen:

Häufig gestellte Fragen (FAQ)

Was ist die Gemini Omni Flash API?

Die Gemini Omni Flash API ist Googles multimodale Schnittstelle zur Videogenerierung, die beliebige Kombinationen aus Text, Bildern, Audio und Video als Eingabe akzeptiert und cineastische Videoclips ausgibt. Sie unterstützt Dauern von 4 bis 10 Sekunden, Auflösungen von 720p bis 4K sowie sowohl Quer- als auch Hochformat. Der Zugriff erfolgt über Atlas Cloud ohne einen separaten Google-Genehmigungsprozess.

Was kostet die Gemini Omni Flash API?

Bei Atlas Cloud kostet Gemini Omni Flash USD0.20 Basis plus USD0.10 pro Sekunde für 720p- und 1080p-Ausgaben. Ein Standard-Clip von 8 Sekunden bei 1080p kostet USD1.00. Für 4K-Ausgaben beträgt die Grundgebühr USD1.00 plus USD0.10 pro Sekunde, wodurch ein 8-sekündiger 4K-Clip USD1.80 kostet. Alle Preise sind nutzungsbasiert ohne Mindestumsatz (Atlas Cloud Preisübersicht, 02.06.2026).

Was ist der Unterschied zwischen Google AI Studio und Atlas Cloud für den Zugriff auf die Gemini Omni Flash API?

Google AI Studio bietet direkten Zugriff auf Gemini-Modelle, erfordert jedoch ein Google-Konto und unterliegt individuellen Nutzungskontingenten, die schnell ausgeschöpft sein können. Atlas Cloud bietet dasselbe Gemini Omni Flash-Modell über einen einheitlichen API-Endpunkt mit transparenter Abrechnung pro Sekunde, ohne Genehmigungswarteschlange und mit Zugriff auf über 300 weitere Video- und Bildmodelle unter demselben API-Key. Für den Produktionseinsatz erspart die einheitliche API von Atlas Cloud die Verwaltung separater Zugangsdaten pro Modellanbieter.

Wie lange dauert die Videogenerierung mit Gemini Omni Flash?

Die typische Generierungszeit für ein 8-sekündiges 1080p-Video beträgt 30 Sekunden bis 3 Minuten, abhängig von der Serverlast. Die API ist asynchron: Ihr Skript übermittelt einen Job, erhält sofort eine

text
1prediction_id
und fragt dann den Status-Endpunkt ab, bis das Video fertig ist. Planen Sie ein Zeitlimit von 6 Minuten ein, um Spitzenbelastungszeiten zu berücksichtigen.

Kann ich die Gemini Omni Flash API kostenlos nutzen?

Atlas Cloud bietet kostenlose Guthaben für neue Konten, die Sie für die Gemini Omni Flash-Generierung verwenden können. Nach Verbrauch des Guthabens erfolgt die Abrechnung nutzungsbasiert ohne erforderliches Abonnement. Registrieren Sie sich auf atlascloud.ai, um zu beginnen.

Neueste Modelle

Eine API für alle Media-KI.

Alle Modelle erkunden

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.