Praxistest von Gemini Omni: Beeindruckend, aber noch nicht ganz ausgereift

Nach wochenlangen Leaks und Spekulationen gab Gemini Omni heute in den frühen Morgenstunden auf der Google I/O 2026 endlich sein offizielles Debüt.

Es handelt sich dabei weder um das dedizierte Videogenerierungsmodell, das Gerüchte vermuten ließen, noch um ein „Veo 4“, das die Namenslinie von Veo 3 fortsetzt. Demis Hassabis, CEO von Google DeepMind, betrat persönlich die Bühne, um die Ankündigung zu machen:

„Wir machen den nächsten wichtigen Schritt – Gemini Omni, ein brandneues Modell, das aus jedem beliebigen Input alles erschaffen kann.“

Gemini Omni I/O 2026 Videobearbeitungs-Demo

Mit anderen Worten: Gemini Omni ist ein wirklich „omni-fähiges“ großes Modell, das jede Form von Input akzeptiert und jede Art von Inhalt generiert – wobei die Videogenerierung nur ein Teil des Puzzles ist.

Gemini Omni ist ab sofort in allen Google-Produkten verfügbar. Nutzer mit den Abo-Plänen AI Plus, Pro und Ultra können über die Gemini-App oder Googles KI-Videoerstellungsplattform Flow darauf zugreifen.

Wir haben sofort das Ultra-Abonnement von Google abgeschlossen, um Gemini Omni in einem Praxistest auf Herz und Nieren zu prüfen.

Das Fazit vorab: Es ist eher enttäuschend.

Konsistenz bei Gemini Omni im Test: Meist solide

Eine der am stärksten beworbenen Funktionen von Omni ist die Fähigkeit, visuelle Konsistenz über mehrere Runden natürlicher Sprachbefehle hinweg aufrechtzuerhalten.

In der offiziellen Demo von Google zeigt das Ausgangsmaterial einen Geiger, der in einem Innenraum spielt. Nachdem die Hintergrundumgebung geändert, die Kamerawinkel gewechselt und sogar die Geige vollständig entfernt wurde, blieben die Gesichtsausdrücke, Bewegungen, die Beleuchtung und sogar die subtile Positionierung der Hände des Künstlers perfekt an die neue Umgebung angepasst – und das synchron zur Musik.

Sowohl die Präzision der Bearbeitungen als auch die Konsistenz des Hauptdarstellers wirkten beeindruckend.

Also haben wir es selbst getestet, beginnend mit einem Wechsel von Umgebung und Atmosphäre.

Unser erster Prompt: eine Vogelperspektive von zwei Autos, die an einer Kreuzung kollidieren, eines davon ein blauer Sportwagen, mit einer angespannten und aufregenden Atmosphäre.

Anschließend haben wir eine detailliertere Bearbeitung vorgenommen. Der Prompt: Wechsel zu einem goldenen Sonnenuntergang, das blaue Auto soll rot werden, und beim Aufprall sollen die beiden Autos in Konfetti und Luftballons zerplatzen – leicht, verträumt und skurril im Ton.

Die Farbe der Autos und die Beleuchtung änderten sich wie angewiesen, und die Gesamtstruktur sowie die Bewegung der Szene blieben weitgehend stimmig, ohne Bildfehler oder visuelle Verzerrungen.

Es gab jedoch ein subtiles, aber verräterisches Problem: Omni kam mit dem eigentlichen Moment des Zusammenpralls nicht besonders gut zurecht. In beiden Videos schienen die Autos fast absichtlich aufeinander zuzufahren – sie wurden sogar kurz vor dem Aufprall langsamer und passten ihre Winkel an.

Es wirkte, kurz gesagt, inszeniert. Als ob man die unsichtbare Hand von Omni sehen könnte, die die Autos in Position schiebt, um den Prompt zu erfüllen.

Als nächstes testeten wir, ob Omni die Konsistenz bei dynamischen Bewegungen beibehalten kann. Der Maßstab: ein Charakter, der zwischen mehreren Kamerawinkeln wechselt, wobei Gesichtszüge, Kleidung, Requisiten und sogar die Frisur stabil bleiben – ohne Fehler wie „gleiches Outfit, aber andere Farbe aus einem anderen Winkel“.

Unser Prompt: eine mittlere Kamerafahrt einer Tänzerin in einem roten Kleid, die in einem alten Bahnhof modernen Tanz aufführt, mit einem Schnitt auf eine weite, feste Einstellung nach einem Sprung, wobei das rote Kleid und der Hintergrund des Bahnhofs durchgehend konsistent bleiben.

Das Ergebnis war ziemlich gut. Die Bewegungen der Tänzerin waren flüssig und kontinuierlich, die Physik des roten Seidenkleids sah überzeugend aus, und der Schnitt von der mittleren Kamerafahrt zur weiten festen Einstellung war relativ nahtlos.

Omni fügte automatisch Hintergrundmusik hinzu – nichts besonders Ausdrucksstarkes oder Atmosphärisches, aber es passte gut genug zur Stimmung des Tanzes.

Wir nahmen dann eine kleine Verfeinerung vor: „Entferne die Hintergrundmusik und behalte nur Umgebungsgeräusche bei – Schritte synchron zu den Tanzbewegungen und das sanfte Rascheln des Kleids.“

Hier wurde es etwas chaotisch. Die erste Hälfte des Videos nahm zwar die leisen Geräusche des Kleids und der auf dem Boden landenden Füße auf, doch in der zweiten Hälfte schlich sich unerklärlicherweise wieder die Hintergrundmusik ein.

Danach testeten wir die Fähigkeit, komplexe Charakterbeziehungen und räumliche Positionen zu verstehen.

Der Maßstab: Wenn mehrere Charaktere mit unterschiedlichem Aussehen und unterschiedlicher Kleidung miteinander interagieren, sollten ihre individuellen Merkmale bei Kamerawinkelwechseln nicht vermischt oder vertauscht werden.

Unser Prompt: eine Schulteraufnahme von vier bis fünf Wissenschaftlern, von denen jeder ein deutlich anderes Aussehen hat, die in einem Labor über eine holografische Projektion diskutieren, während die Kamera langsam rotiert – alle Aussehen und Outfits der Charaktere sollen durchgehend unverändert bleiben.

Vielleicht in dem Bemühen, der Anforderung nach Wissenschaftlern, die alle unterschiedlich aussehen, getreu nachzukommen, hat Omni vier Charaktere mit unterschiedlichem Alter, Geschlecht und ethnischer Herkunft gewählt. Während der rotierenden Aufnahme blieben Aussehen, Outfits, Stimmen und die relativen Positionen der Charaktere weitgehend konsistent.

Der eine bedauerliche Fehler: Gegen Ende des Videos gab es einen spürbar harten und abrupten Schnitt, der den Fluss komplett unterbrach.

Feinsteuerung? Braucht noch Arbeit

Bearbeitung und Verfeinerung waren ein weiteres Feature, das Google in seiner offiziellen Präsentation in den Mittelpunkt stellte.

Wir haben uns direkt an die Arbeit gemacht – wir nahmen ein vor Kurzem virales, KI-generiertes Video von Baseball-Zuschauern, das in den sozialen Medien in Korea für Aufsehen gesorgt hatte, fütterten Omni mit einem Anime-Charakterbild (aus Googles eigenem Demo-Material) und baten es, die Person im ursprünglichen Video durch den Charakter aus dem Bild zu ersetzen.

Das Ergebnis? Um es vorsichtig auszudrücken: enttäuschend.

Der ersetzte Charakter behielt zwar in etwa die gleiche Position wie das Original bei, aber die subtilen Ausdrücke – das Lippenbeißen, der huschende Blick, das kleine Lächeln beim Bemerken der Kamera – gingen bei der Übersetzung fast vollständig verloren.

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

Dieser Kampf mit feinen Details war kein Einzelfall.

Wir forderten Omni auf, ein Video eines Mannes mittleren Alters zu generieren, der in einem schwach beleuchteten Raum steht und leise zu seinem Spiegelbild spricht: „Ich weiß, dass du es warst. Hör auf so zu tun.“

Das anfängliche Ergebnis war eigentlich anständig – abgesehen von einem leicht unnatürlichen Akzent war die Lippensynchronisation bei jedem Wort ziemlich präzise. Ob es echte menschliche Emotionen vermittelte, ist Interpretationssache.

Aber als wir versuchten, den Dialog des Mannes zu ändern, schienen Omnis Schaltkreise komplett durchzubrennen.

Der Prompt: ein Mann mittleren Alters in einem schwach beleuchteten Raum, der leise zu seinem Spiegel sagt: „Der 20. Mai ist wieder da – alles Gute zum Jahrestag.“

Zuerst verstand es das Konzept „Dialog ändern“ überhaupt nicht und klatschte einfach die neue Zeile als Untertitel an den unteren Bildschirmrand. Dann versuchte es einen Mittelweg – lieferte die Hälfte der ursprünglichen Zeile und die Hälfte der neuen. Beim letzten Versuch war es völlig aus der Spur geraten.

Die Beleuchtung wurde etwas heller und der Ausdruck wechselte zu einem Lächeln – aber jetzt hatten wir einen Mann, der warmherzig grinste, während er sagte „Ich weiß, dass du es warst. Hör auf so zu tun“, begleitet von der gleichen unheimlichen Hintergrundmusik wie zuvor. Irgendwie war es gruseliger als das Original.

Kurz gesagt: Wenn es um Feinsteuerung geht, hat Omni noch einen weiten Weg vor sich.

Eine einheitliche API für die professionelle Videogenerierung

Während Google Gemini Omni Flash in der Gemini-App und via Google Flow für Endnutzer ausrollt, benötigen Entwickler und Produktteams, die dieselbe multimodale Video-Engine in ihre eigenen Arbeitsabläufe integrieren wollen, eine stabile, vorhersehbare API-Ebene.

Atlas Cloud stellt Gemini Omni Flash über eine einheitliche, OpenAI-kompatible API bereit, zusammen mit über 300 anderen Bild-, Video- und LLM-Modellen – sodass Sie das native multimodale Modell von Google integrieren können, ohne separate Anbieterkonten, Abrechnungsportale oder SDKs verwalten zu müssen.

Beide Gemini Omni Flash-Varianten sind live auf Atlas Cloud:

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


Variante	Am besten geeignet für	Inputs	Auflösung	Dauer	Startpreis
Gemini Omni Flash Text-to-Video (Developer)	Reine promptgesteuerte filmische Generierung	Text (bis 20.000 Zeichen)	720p / 1080p / 4K	4, 6, 8, 10 s	USD0.2 + USD0.1/sek
Gemini Omni Flash Image-to-Video (Developer)	Konsistente Videos basierend auf echten Vorlagen	Text + bis zu 7 Referenzbilder	720p / 1080p / 4K	4, 6, 8, 10 s	USD0.2 + USD0.1/sek

Quick Start – Generieren Sie ein Gemini Omni Flash-Video in 5 Zeilen:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

Die API gibt sofort eine Prediction-ID zurück – rufen Sie /api/v1/model/prediction/{id} ab, um die gerenderte MP4-URL zu erhalten. Das vollständige Schema, Code-Beispiele in 7 Sprachen und ein No-Code-Playground sind auf den oben verlinkten Modellseiten verfügbar.

Weltwissen: Stark bei Physik und Geschichte, aber noch fehlerhaft

Zuletzt prüften wir Weltwissen und logisches Denken.

Googles offizielle Behauptung ist, dass Omni, basierend auf dem Flaggschiff-Modell Gemini, sein Verständnis physikalischer Gesetze wie Schwerkraft, kinetische Energie und Fluiddynamik sowie Weltgeschichte, Wissenschaft und Mathematik deutlich verbessert habe.

Wir kamen direkt zum Test mit diesem Prompt: Generiere eine Murmel, die schnell entlang einer Kettenreaktionsstrecke rollt.

Das Ergebnis war wirklich beeindruckend. Omni entwarf selbstständig einen ziemlich komplexen Kettenreaktionsparcours unter Einbeziehung von Schwerkraft, Elastizität, Zentrifugalkraft und mehr – alles sah überzeugend realistisch aus.

Allerdings schlich sich gegen Ende ein Fehler ein: Aus dem Nichts teilte sich eine Murmel unerklärlicherweise in zwei.

Wir versuchten es mit einer anderen Aufgabe: Ein Ball, der entlang der Innenwand einer U-förmigen Bahn hin und her rollt und schließlich am tiefsten Punkt zur Ruhe kommt.

Das fühlte sich etwas falsch an.

Der Ball rollte zwar wie angewiesen hin und her und blieb am Boden liegen – aber das Ganze wirkte, als würde es irgendwo anders als auf der Erde stattfinden. Der Ball bewegte sich mit einer seltsam schwerelosen, schwebenden Qualität und schien zeitweise leicht durch die Geometrie der Bahn zu clippen.

Schließlich gaben wir noch einen Prompt ein – kurz, prägnant und mit einem sehr spezifischen kulturellen Bezug zu China: Generiere ein Video von Kaiser Taizong von Tang und seinem älteren Bruder bei einer Konfrontation am Xuanwu-Tor.

Nun – die chinesischen Schriftzeichen für „Xuanwu-Tor“ im Hintergrund waren etwas fehlerhaft, und beide Figuren der Tang-Dynastie sprachen Mandarin mit einem leicht fremden Akzent. Aber Omni verstand den historischen Bezug und lieferte eine angemessen spannende Konfrontation zwischen Li Shimin und Li Yuanji mit gezogenen Schwertern.

Was die Weltgeschichte betrifft, scheint Omni seine Hausaufgaben gemacht zu haben.

Abschließende Gedanken: Warten auf Seedance 2.1

Der Hype um Omni hatte sich lange vor der heutigen Ankündigung aufgebaut.

Alles begann Anfang Mai, als ein Benutzer eine kleine, leicht zu übersehende Textzeile auf der Videogenerierungsseite von Gemini bemerkte: „Powered by Omni.“ Dieses winzige Detail löste weltweit eine Welle von Spekulationen in der Tech-Community aus.

Jeder stellte dieselbe Frage: Was genau ist Omni? Ist es Veo 4, die nächste Generation von Veo 3 von der Google I/O 2025? Oder ein völlig neues multimodales Modell? Deshalb schwankten frühe Berichte immer zwischen „Gemini Omni“ und „Veo 4“.

Dann, am 11. Mai, ging ein internes Testvideo eines „Professors, der Gleichungen an einer Tafel herleitet“, auf X viral und erreichte in wenigen Tagen über 2,4 Millionen Aufrufe.

In nur 10 Sekunden wechselte der Clip zwischen mehreren Winkeln – der Rücken des Professors, ein Seitenprofil, eine Nahaufnahme der Kreide, die Gleichungen schreibt – alles begleitet vom leisen Kratzgeräusch der Kreide auf der Tafel, wobei jede Formel auf der Tafel mathematisch korrekt war. Die Erwartungen stiegen in den Himmel.

Es hieß damals, Omni habe die filmische Sprache und das Instinktgefühl für den Schnitt voll verinnerlicht – inklusive Multikamera-Schnitten und nativer Hintergrundmusik – und könne „ein fertiges Video direkt aus dem Stand produzieren“.

Doch nachdem Gemini Omni nach all der Vorfreude endlich eingetroffen ist, fällt die Resonanz sehr gemischt aus.

Es sieht so aus, als müssten wir weiterhin ein Auge auf Seedance 2.1 haben – wann auch immer das erscheinen mag.

ZURÜCK ZUR LISTE

Praxistest von Google Gemini Omni: Noch nicht ganz am Ziel

Konsistenz bei Gemini Omni im Test: Meist solide

Feinsteuerung? Braucht noch Arbeit

Eine einheitliche API für die professionelle Videogenerierung

Beide Gemini Omni Flash-Varianten sind live auf Atlas Cloud:

Quick Start – Generieren Sie ein Gemini Omni Flash-Video in 5 Zeilen:

Weltwissen: Stark bei Physik und Geschichte, aber noch fehlerhaft

Neueste Modelle

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

Eine API für alle Media-KI.

Join our Discord community