Prise en main de Gemini Omni : impressionnant, mais pas encore tout à fait au point

Après des semaines de fuites et de spéculations, Gemini Omni a enfin fait ses débuts officiels lors de la Google I/O 2026 aux petites heures ce matin.

Il ne s'agit ni du modèle de génération vidéo dédié que les rumeurs suggéraient, ni d'un « Veo 4 » s'inscrivant dans la lignée de Veo 3. Le PDG de Google DeepMind, Demis Hassabis, est monté lui-même sur scène pour faire l'annonce :

« Nous franchissons une nouvelle étape importante : Gemini Omni, un tout nouveau modèle capable de créer n'importe quoi à partir de n'importe quel type d'entrée. »

Démo de montage vidéo de Gemini Omni à la I/O 2026

En d'autres termes, Gemini Omni est un grand modèle véritablement « omni-compétent » — il accepte toute forme d'entrée et génère tout type de contenu, la génération vidéo n'étant qu'une pièce du puzzle.

Gemini Omni est désormais disponible sur tous les produits Google. Les utilisateurs des abonnements AI Plus, Pro et Ultra peuvent y accéder via l'application Gemini ou la plateforme de création vidéo par IA de Google, Flow.

Nous nous sommes immédiatement abonnés à l'offre Ultra, le niveau supérieur de Google, pour tester Gemini Omni en conditions réelles.

Le constat est sans appel : c'est décevant.

Consistance des tests de Gemini Omni : tient globalement la route

L'une des fonctionnalités les plus mises en avant d'Omni est sa capacité à maintenir une cohérence visuelle au fil de multiples séries de modifications en langage naturel.

Dans la démo officielle de Google, les images sources montrent un violoniste jouant en intérieur. Après avoir modifié l'environnement, changé les angles de caméra et même supprimé le violon, les expressions, les mouvements, l'éclairage et le positionnement subtil des mains de l'interprète restaient parfaitement adaptés à chaque nouveau cadre — musique comprise.

La précision des modifications et la cohérence du sujet principal semblaient réellement impressionnantes.

Nous l'avons donc mis à l'épreuve, en commençant par un changement d'environnement et d'atmosphère.

Notre premier prompt : une vue plongeante de deux voitures entrant en collision à une intersection, l'une d'elles étant une voiture de sport bleue, dans une atmosphère tendue et palpitante.

Nous avons ensuite procédé à une modification plus détaillée. Le prompt : changer pour un coucher de soleil doré, changer la voiture bleue en rouge, et faire en sorte que les deux voitures explosent en confettis et en ballons lors de l'impact — un ton léger, onirique et fantaisiste.

La couleur des voitures et l'éclairage ont bien changé comme demandé, et la structure globale ainsi que le mouvement de la scène sont restés cohérents, sans déchirure ni distorsion visuelle majeure.

Cependant, un problème subtil mais révélateur est apparu : Omni n'a pas très bien géré le moment de la collision. Dans les deux vidéos, les voitures semblaient se diriger l'une vers l'autre presque délibérément, ralentissant même légèrement et ajustant leurs angles juste avant l'impact.

En un mot, cela semblait mis en scène. Comme si l'on pouvait voir la main invisible d'Omni pousser les voitures en position pour répondre au prompt.

Ensuite, nous avons testé si Omni pouvait maintenir sa cohérence lors de mouvements dynamiques. Le test : un personnage unique passant par plusieurs angles de caméra, avec des traits du visage, des vêtements, des accessoires et même une coiffure stables — sans bugs du type « même tenue, couleur différente sous un autre angle ».

Notre prompt : un plan moyen en suivi d'une danseuse en robe rouge exécutant une danse contemporaine dans une vieille gare, coupant vers un plan fixe large après un saut, avec la robe rouge et le décor de la gare restant totalement cohérents tout du long.

Ce test a été plutôt réussi. Les mouvements de la danseuse étaient fluides et continus, la physique de la robe en soie rouge semblait réaliste, et la transition entre le plan moyen et le plan fixe large était relativement douce.

Omni a également ajouté automatiquement une musique de fond — rien de très expressif ou d'atmosphérique, mais cela correspondait suffisamment à l'ambiance générale de la danse.

Nous avons ensuite effectué une légère retouche, demandant : supprimer la musique de fond et ne garder que le son ambiant — les pas synchronisés avec les mouvements de danse et le bruissement doux de la robe.

C'est là que les choses se sont compliquées. La première moitié de la vidéo a bien capté les légers sons du balancement de la robe et des pieds touchant le sol. Mais dans la seconde moitié, la musique de fond est inexplicablement réapparue.

Ensuite, nous avons testé sa capacité à comprendre les relations complexes entre personnages et le positionnement spatial.

Le test : lorsque plusieurs personnages aux apparences et tenues différentes interagissent, leurs traits ne doivent pas se mélanger ou s'échanger lors des changements d'angle.

Notre prompt : un plan par-dessus l'épaule de quatre à cinq scientifiques, chacun avec un look distinct, discutant d'une projection holographique dans un laboratoire, avec une rotation lente de la caméra — toutes les apparences et tenues devant rester inchangées.

Peut-être dans le but de respecter fidèlement le prompt, Omni a judicieusement créé quatre personnages couvrant un éventail d'âges, de genres et d'ethnies. Tout au long de la rotation, les apparences, tenues, voix et positions relatives sont restées largement cohérentes.

Le seul défaut malheureux : vers la seconde moitié de la vidéo, une coupure visiblement brutale et maladroite a cassé la fluidité.

Contrôle granulaire ? Encore du travail à faire

L'édition et la retouche étaient une autre fonctionnalité mise en avant par Google dans sa présentation officielle.

Nous sommes donc passés à l'action : nous avons pris une vidéo virale de spectateurs de baseball qui circulait sur les réseaux sociaux coréens et avons fourni à Omni une image de personnage de style anime (issue des démos de Google), lui demandant de remplacer la personne dans la vidéo originale par ce personnage.

Le résultat ? Décevant, pour être poli.

Le personnage de remplacement a conservé à peu près la même position que l'original, mais les expressions subtiles — le mordillage des lèvres, le regard fuyant, le petit sourire en remarquant la caméra — ont été presque totalement perdues lors de la traduction.

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

Cette difficulté avec les détails fins n'était pas un cas isolé.

Nous avons demandé à Omni de générer une vidéo d'un homme d'âge moyen debout dans une pièce sombre, parlant doucement à son reflet dans un miroir : « Je sais que c'était toi. Arrête de faire semblant. »

Le résultat initial était correct — mis à part un accent chinois légèrement étrange, la synchronisation labiale correspondait assez fidèlement à chaque mot. Quant à savoir si cela transmettait une émotion vraiment humaine, c'est une question d'interprétation.

Mais lorsque nous avons essayé de changer le dialogue de l'homme, les circuits d'Omni ont semblé court-circuiter complètement.

Le prompt : un homme d'âge moyen dans une pièce sombre, disant doucement à son miroir : « Le 20 mai est de retour — joyeux anniversaire. »

D'abord, il n'a pas du tout saisi le concept de « changer le dialogue » et a simplement plaqué la nouvelle ligne en sous-titre au bas de l'écran. Ensuite, il a fait un compromis — délivrant la moitié de la ligne originale et la moitié de la nouvelle. À la dernière tentative, il a complètement déraillé.

L'éclairage est devenu un peu plus brillant et l'expression est passée à un sourire — mais maintenant, nous avions un homme souriant chaleureusement tout en disant « Je sais que c'était toi. Arrête de faire semblant », avec la même musique de fond étrange. D'une certaine manière, c'était encore plus effrayant qu'à l'origine.

En bref, en ce qui concerne le contrôle granulaire, Omni a encore un long chemin à parcourir.

Une API unifiée pour la génération vidéo de production

Alors que Google déploie Gemini Omni Flash dans l'application Gemini et Google Flow pour les utilisateurs finaux, les développeurs et les équipes produit qui souhaitent intégrer ce même moteur vidéo multimodal dans leurs propres flux de travail ont besoin d'une couche API stable et prévisible.

Atlas Cloud propose Gemini Omni Flash via une API unifiée et compatible OpenAI, aux côtés de plus de 300 autres modèles d'image, de vidéo et de LLM — vous pouvez donc intégrer le modèle multimodal natif de Google sans jongler avec des comptes fournisseurs, des portails de facturation ou des SDK distincts.

Les deux variantes de Gemini Omni Flash sont disponibles sur Atlas Cloud :

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


Variante	Idéal pour	Entrées	Résolution	Durée	Prix de base
Gemini Omni Flash Text-to-Video (Développeur)	Génération cinématographique pure	Texte (jusqu'à 20 000 car.)	720p / 1080p / 4K	4, 6, 8, 10 s	USD0.2 + USD0.1/s
Gemini Omni Flash Image-to-Video (Développeur)	Vidéo cohérente à partir de références	Texte + jusqu'à 7 images	720p / 1080p / 4K	4, 6, 8, 10 s	USD0.2 + USD0.1/s

Démarrage rapide — Générez une vidéo Gemini Omni Flash en 5 lignes :

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

L'API renvoie immédiatement un ID de prédiction — interrogez /api/v1/model/prediction/{id} pour obtenir l'URL du fichier MP4 généré. Le schéma complet, des exemples de code dans 7 langages et un Playground sans code sont disponibles sur les pages des modèles liées ci-dessus.

Culture générale : Solide sur la physique et l'histoire, mais encore buggé

Enfin, nous avons testé la culture générale et le raisonnement.

Selon l'affirmation officielle de Google, Omni, construit sur le modèle phare Gemini, a considérablement amélioré sa compréhension des lois physiques telles que la gravité, l'énergie cinétique et la dynamique des fluides, ainsi que l'histoire mondiale, la science et les mathématiques.

Nous sommes allés droit au but avec ce prompt : générer une bille roulant rapidement sur un circuit à réaction en chaîne.

Le résultat était réellement impressionnant. Omni a conçu lui-même un parcours de réaction en chaîne assez complexe, intégrant la gravité, l'élasticité, la force centrifuge et plus encore — le tout semblant convaincant et réaliste.

Cela dit, un bug s'est glissé vers la seconde moitié : de nulle part, une bille s'est inexplicablement divisée en deux.

Nous en avons essayé un autre : une balle roulant d'avant en arrière le long de la paroi intérieure d'une piste en U, finissant par s'immobiliser au point le plus bas.

Celui-ci semblait un peu étrange.

La balle a bien roulé d'avant en arrière le long de la piste en U et s'est immobilisée en bas comme demandé — mais l'ensemble donnait l'impression de se dérouler ailleurs que sur Terre. La balle se déplaçait avec une légèreté étrange, comme en apesanteur, et semblait par moments traverser légèrement la géométrie de la piste.

Enfin, nous avons ajouté un dernier prompt — court, percutant et très spécifiquement chinois dans sa référence culturelle : générer une vidéo de l'empereur Taizong des Tang et de son frère aîné s'affrontant à la porte Xuanwu.

Eh bien — les caractères chinois pour « Porte Xuanwu » en arrière-plan étaient un peu brouillés, et les deux figures de la dynastie Tang parlaient mandarin avec un léger accent étranger. Mais Omni a bien saisi la référence historique et a livré une confrontation tendue, épées dégainées, entre Li Shimin et Li Yuanji.

En ce qui concerne l'histoire mondiale, au moins, Omni semble avoir fait ses devoirs.

Réflexions finales : En attente de Seedance 2.1

Le buzz autour d'Omni avait commencé bien avant l'annonce d'aujourd'hui.

Tout a commencé début mai, lorsqu'un utilisateur a repéré une petite ligne de texte facile à manquer sur la page de génération vidéo de Gemini : « Powered by Omni ». Ce détail minuscule a déclenché une vague de spéculations dans toute la communauté technologique mondiale.

Tout le monde se posait la même question : qu'est-ce qu'Omni exactement ? Est-ce Veo 4, la prochaine génération après Veo 3 de la Google I/O 2025 ? Ou s'agit-il d'un tout nouveau modèle multimodal ? C'est pourquoi les premiers rapports ne cessaient d'alterner entre « Gemini Omni » et « Veo 4 ».

Puis, le 11 mai, une vidéo de test interne ayant fuité, montrant un « professeur dérivant des équations sur un tableau noir », est devenue virale sur X, accumulant plus de 2,4 millions de vues en quelques jours.

En seulement 10 secondes, le clip alternait entre plusieurs angles — le dos du professeur, un profil, un gros plan sur la craie écrivant des équations — le tout accompagné du grattement doux de la craie sur le tableau, avec chaque formule mathématiquement correcte. Les attentes ont grimpé en flèche.

La rumeur disait alors qu'Omni avait pleinement intégré le langage cinématographique et les instincts de montage — coupes multi-angles, musique de fond native incluse — et pouvait « produire une vidéo finie directement prête à l'emploi ».

Mais maintenant que Gemini Omni est enfin arrivé après toute cette anticipation, la réception est très mitigée.

Il semble que nous devrons simplement garder un œil sur Seedance 2.1 — quand bien même cela déciderait de se montrer.

RETOUR À LA LISTE

Prise en main de Google Gemini Omni : pas encore tout à fait au point

Consistance des tests de Gemini Omni : tient globalement la route

Contrôle granulaire ? Encore du travail à faire

Une API unifiée pour la génération vidéo de production

Les deux variantes de Gemini Omni Flash sont disponibles sur Atlas Cloud :

Démarrage rapide — Générez une vidéo Gemini Omni Flash en 5 lignes :

Culture générale : Solide sur la physique et l'histoire, mais encore buggé

Modèles récents

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

Une seule API pour toute l'IA multimédia.

Join our Discord community