Am 19. Mai 2026 stellte DeepMind auf der Google I/O Gemini Omni vor. Am selben Tag wurde der Gemini Omni-Prompt-Leitfaden auf der Dokumentationsseite von DeepMind veröffentlicht, platziert zwischen der Modellkarte für Omni Flash und den API-Hinweisen. Die meisten Leute sahen sich die Keynote-Demos an; die Dokumentation blieb weitgehend ungelesen.
Zuerst die Fakten: Gemini Omni ist das neue multimodale Generierungsmodell von DeepMind. Das erste Produkt, Gemini Omni Flash, erstellt bis zu 10-sekündige Videos aus einer beliebigen Kombination von Text-, Bild-, Audio- oder Videoeingaben. Jede Ausgabe ist mit einem SynthID-Wasserzeichen versehen. Abonnenten von AI Plus, AI Pro und AI Ultra erhielten sofortigen Zugriff; Nutzer von YouTube Shorts und der YouTube Create App erhalten ab dieser Einführungswoche kostenlosen Zugriff (Bericht von Gagadget). Der API-Zugriff erfolgt laut Google „in den kommenden Wochen“.
Zurück zum Prompt-Leitfaden: Der Prompt-Leitfaden von Google DeepMind beschreibt den Wandel direkt im Abschnitt „Weltverständnis“:
Bei Veo müssen Sie präzise Anweisungen geben, um die besten Ergebnisse zu erzielen. Bei Gemini Omni müssen Sie jedoch nicht so detailliert vorgehen. Sagen Sie Omni einfach, was Sie erstellen möchten – und beobachten Sie, wie das Schlussfolgerungsvermögen und das Weltwissen des Modells die Details zum Leben erwecken.
Die Übersetzung: Schreiben Sie weniger.
Lesen Sie dies im Vergleich zu den Prompt-Leitfäden, die ByteDance und Kuaishou für ihre eigenen Videomodelle veröffentlichen. Die Rahmenbedingungen unterscheiden sich, deuten aber in die gleiche Richtung.

ByteDance dokumentiert Seedance 2.0 auf seiner internationalen Entwicklerplattform mit dem BytePlus ModelArk-Prompt-Leitfaden. Die empfohlene Struktur: Subjekt + Bewegung (+ Umgebung + Ästhetik + Kamerabewegung/Schnitt + Audio). Nicht jede Komponente ist erforderlich, Sie wählen aus, was zur Aufnahme passt.
Der AI Prompt Weighting-Leitfaden von Kuaishou formuliert dies anhand einer 5W1H-Formel: Wer + Was + Wo + Wann + Warum + Wie. Das „Wer“ – das Subjekt – hat normalerweise die höchste Priorität und steht am Anfang des Prompts, da die Wortposition in Kling 3.0 das Gewicht bestimmt: Was zuerst kommt, erhält die meiste Rechenleistung. Stilistische Entscheidungen wie Medium oder Perspektive funktionieren am besten am Ende und wirken als Filter über der bereits etablierten Szene. Der Leitfaden warnt davor, Elemente blind zu stapeln; zu viele widersprüchliche Schlüsselwörter mindern die Qualität.
Drei Unternehmen kamen unabhängig voneinander zu diesem Rat, was darauf hindeutet, dass ihre Modelle etwa zur gleichen Zeit ein ähnliches Leistungsniveau erreicht haben. Google rät dazu, weniger zu schreiben, ByteDance stuft die meisten Komponenten als optional ein und Kuaishou betont die Wortreihenfolge gegenüber dem bloßen Volumen. Die spezifischen Formulierungen unterscheiden sich, aber alle drei Labore führen die Ersteller zu lockereren, natürlicheren Prompts.
Kommen wir nun dazu, wie sich der Gemini Omni-Prompt-Leitfaden in der Praxis auswirkt.
Gemini Omni Prompt-Struktur: 5 Dimensionen von Google DeepMind
Der Leitfaden beginnt mit einem vollständigen Beispiel:
Eine Weitwinkel-Tracking-Aufnahme gleitet sanft über einen ruhigen See und enthüllt ein kolossales, reflektierendes, chromartiges, bohnenförmiges Objekt, das mühelos darüber schwebt und sich langsam dreht, um die verzerrten Spiegelungen majestätischer Klippen und ein kleineres, ähnliches Objekt freizugeben, das teilweise im klaren azurblauen Wasser darunter versunken ist, während eine strahlende Sonne hinter der schwebenden Anomalie hervorbricht und die gesamte Szene in ein klares, ätherisches Tageslicht mit lebendigen Blau- und Grüntönen taucht, was ein cineastisches und beeindruckendes Ambiente schafft, das von einer majestätischen und außerweltlichen Orchestermusik untermalt wird, die die Weite und das Geheimnis der fremden Landschaft betont, wobei schwache, tiefe Summtöne von dem schwebenden Objekt ausgehen.
Über 90 Wörter. Zerlegt man sie, erhält man 5 Dimensionen.
- Kameraeinstellung und Bewegung. Weitwinkel, Mittelaufnahme oder Nahaufnahme? Soll die Kamera sanft gleiten oder plötzlich rasen? Die beiden Verben führen zu spürbar unterschiedlichen Ergebnissen, daher lohnt sich ein wenig Ausprobieren, wenn Sie nach dem richtigen Bewegungsgefühl suchen.
- Stil. Realistisch, cineastisch, ätherisch, majestätisch? Diese Dimension benötigt keine Details. Sagen Sie dem Modell den emotionalen Ton, das reicht aus.
- Beleuchtung. Woher kommt das Licht? Die Sonne, eine Straßenlaterne, auf der Kamera oder außerhalb des Bildschirms? Soll es sich klar, warm oder ätherisch anfühlen?
- Szene. Ein Satz im Leitfaden ist besonders hervorzuheben: „Sie müssen nicht jedes kleinste Detail beschreiben, da Omni mit Ihrer allgemeinen Intention arbeitet.“ Dies deckt sich mit den offiziellen Dokumenten von Seedance und Kling.
- Aktion und Interaktion. Wer und was befindet sich in der Szene, wie bewegen sie sich, wie interagieren sie?
Gemini Omni Konversationelle Bearbeitung vs. Veo Prompt-Neuschreibung
Omni und Veo erzielen eine vergleichbare Generierungsqualität. Der wirkliche Unterschied liegt darin, was Sie tun können, nachdem das Video generiert wurde.
Früher bedeutete das Ändern eines Details, den gesamten Prompt neu zu schreiben, neu zu generieren und zu hoffen, dass die Konsistenz zwischen den Frames erhalten blieb. Omni ersetzt diesen Schritt durch eine Konversation.
Der offizielle Leitfaden gibt einige Beispiele.
Ein Video im Stop-Motion-Stil eines kleinen Jungen. Erste Bearbeitung: „Ändere den Schmetterling in eine Biene.“ Nächste: „Ändere die Biene in einen kleinen Schwarm Glühwürmchen.“ Ein Element ändert sich pro Schritt; andere Frames bleiben automatisch erhalten.
Die Kamera funktioniert auf die gleiche Weise. Ein Video eines Geigers erhält drei Befehle nacheinander: „Versetze den Geiger in die Bildumgebung“, „Mache die Geige unsichtbar“, „Ändere den Kamerawinkel über die Schulter des Geigers“. Umgebungswechsel, Objektentfernung, Kamerapositionierung – alles durch natürliche Sprache.
Es gibt einen Haken: Drittanbieter-Tester merken an, dass Omni dazu neigt, zu stark zu bearbeiten, wenn Ihre Bearbeitungsanweisung zu vage ist, wodurch Elemente geändert werden, die Sie behalten wollten. Googles Empfehlung: Ändern Sie eine Variable pro Schritt und geben Sie explizit an, was gleich bleiben soll.
Das Beispiel zur cross-modalen Synchronisierung ist interessanter. Nehmen Sie ein nächtliches Video eines Wohnhauses und fügen Sie die Anweisung hinzu: „Die Lichter der Wohnungen beginnen sich im Takt der Musik einzuschalten.“ Das Modell analysiert die Beats im Soundtrack und richtet die Fensterlichter danach aus. Um dies in After Effects zu tun, benötigen Sie eine Zeitleiste, ein Metronom und eine manuelle Keyframe-Animation Bild für Bild.
4 erweiterte Funktionen von Gemini Omni: Weltwissen, Text-Rendering, Aktionsreferenz, Mehrfacheingabe
Die zweite Hälfte des Leitfadens beschreibt 4 Funktionen.
Angewandtes Weltwissen
Beispiel-Prompt: Erkläre den Unterschied zwischen herkömmlichem Computing und Quantencomputing. Visualisiere diesen Satz in einem zeitgenössischen Flat-Media-Stil, der minimalistische Vektorformen mit reichen organischen Texturen verbindet. Die Ästhetik wird durch eine kontrastreiche, „elektrische“ Farbpalette aus Neonpink, Cyan und Limettengrün vor einem tiefen Marineblau definiert. Ein Markenzeichen dieses Stils ist die Verwendung von Punktierungsschattierungen und körnigen Verläufen, die den ansonsten einfachen geometrischen Formen eine haptische, Risograph-ähnliche Qualität verleiht. Durch die Kombination scharfer Kanten mit diesen weicheren, gesprenkelten Übergängen erhält die Illustration ein spielerisches, redaktionelles Flair.
Das Modell weiß bereits, was Quantensuperposition ist und wie man sie durch eine vergleichende Reihe von Aufnahmen vermittelt. Der Nutzer muss keine Quantenmechanik erklären, sondern nur den visuellen Ton.
Dies funktioniert, weil Omni auf einem hochmodernen Reasoning-Modell basiert, was reine Videogenerierungsmodelle nicht leisten können. Demis Hassabis bezeichnete Omni in einem Semafor-Interview nach der I/O als einen Schritt auf dem Weg zur Entwicklung einer KI, die die reale Welt besser versteht. Er wies darauf hin, dass Waymo, die Abteilung für autonomes Fahren von Alphabet, bereits ähnliche Weltmodelle testet, um autonomen Autos eine Art „Vorstellungskraft“ für den Umgang mit unvorhersehbaren Situationen zu geben. Videogenerierung ist nur die sichtbarste Anwendung dieser Architektur.
Text-Rendering
Beispiel-Prompt: Wort für Wort, ein Wort nach dem anderen auf dem Bildschirm, jedes Wort in einem anderen animierten Stil, perfektes Tempo zum Rhythmus, Sizzle-Reel.
Komplexe Aktionsreferenz
Beispiel-Prompt: Bearbeite dies, wobei alles andere gleich bleibt, und füge animierte Bewegungseffekte hinzu, die vom Skateboard ausgehen.
Mehrfacheingabereferenz
Beispiel-Prompt: Die Vögel aus dem Video bilden lose die unvollkommene Form eines Vogels basierend auf dem Bild. Sie bewegen sich zur Musik aus dem Audio und lösen sich auf, während sie fliegen.
Stiltransfer
Beispiel-Prompt: Erstelle eine vierteilige stilistische Entwicklung der Videoreferenz, beginnend mit einer lebendigen Buntstift-Ästhetik, mit reichen, wachsartigen, texturierten Strichen und verspielten, handgezeichneten Charakterdesigns vor dem Hintergrund von stark granuliertem Papier. Gehe nahtlos in eine Graphitstift-Skizze auf strukturiertem Papier über, wobei Kreuzschraffuren, unterschiedliche Linienstärken und ein 12fps „Line-Boiling“-Effekt verwendet werden, um ein handgezeichnetes Gefühl zu betonen. Wechsle dann in einen hyperrealistischen 3D-Stil aus durchscheinendem Glas, der durch komplexe Lichtbrechungen, kaustische Muster und weiche innere Leuchteffekte in einer minimalistischen Studio-Umgebung charakterisiert ist. Schließe die Sequenz mit einem haptischen Risograph-Druck-Look ab, wobei eine limitierte Drei-Farben-Palette, körnige Halbtontexturen und beabsichtigte Passerdifferenzen für ein retro-mechanisches Finish sorgen.
Storyboard-Referenz
Prompt: Zeige mir diese Geschichte. Folge der Geschichte exakt in der Reihenfolge beginnend oben links. Die gesamte Geschichte in 10 Sekunden. Cineastisch.
Cross-Shot-Konsistenz
Warum die Prompt-Empfehlungen von Gemini Omni, ByteDance Seedance und Kuaishou Kling konvergieren
Zurück zur Beobachtung vom Anfang. Die Ähnlichkeit der Prompt-Ratschläge von Seedance, Kling und Omni ist kein Ergebnis gegenseitiger Beeinflussung. Es ist wahrscheinlicher, dass diese Modellgeneration aus eigener Kraft ein ähnliches Leistungsniveau erreicht hat.
Sobald ein Modell natürliche Sprache auf Szenenebene verarbeiten, Details mit Weltwissen ergänzen und ableiten kann, was der Nutzer eigentlich meint, wird eine zu detaillierte Vorgabe zum Flaschenhals. Die drei Labore sind sich uneinig darüber, wie viel Struktur wieder hinzugefügt werden sollte, sind sich aber einig, dass die Lösung nicht darin besteht, immer mehr zu schreiben.
Dies ist das Ergebnis von zwei Jahren Diffusionsmodell-Training, das gemeinsam mit großen Sprachmodellen durchgeführt wurde. Omni treibt das Ergebnis in einen relativ vollständigen Zustand.
Gemini Omni über Atlas Cloud nutzen: Einheitliche API für Seedance, Kling, Veo
Gemini Omni kommt zu Atlas Cloud. Atlas Cloud aggregiert über 300 KI-Modelle für Text, Bild, Video und Audio. Die wichtigsten Videomodelle laufen bereits auf der Plattform: Seedance 2.0, Kling 3.0, Wan 2.7, Veo und andere. Für einen direkten Vergleich siehe den Deep-Dive von Atlas Cloud: Wan 2.7 vs. Seedance 2.0 vs. Kling 3.0: Welche Video-API sollten Entwickler wählen?
Ein Konto steuert die gesamte Pipeline. Sie müssen sich nicht registrieren, bezahlen oder API-Schlüssel über mehrere regionale Plattformen hinweg verwalten. Der Playground unterstützt interaktives Debugging. Eine einheitliche, OpenAI-kompatible API lässt sich in bestehende Workflows integrieren.
Die Prompt-Bibliothek von Atlas Cloud bietet über zwanzig Kategorien von sofort einsatzbereiten Prompts für Anime, Sci-Fi, Mystery, Essen und Vlogs. Jeder Prompt enthält ein Beispielvideo und Parameter-Hinweise. Kopieren, ein paar Wörter austauschen, ausführen.







