RSpqXx0wq8Q
Le 19 mai 2026, lors de la conférence Google I/O, DeepMind a lancé Gemini Omni. Le jour même, le guide de prompt pour Gemini Omni a été publié sur le site de documentation de DeepMind, niché entre la fiche technique du modèle Omni Flash et les notes de l'API. La plupart des gens se sont contentés de regarder les démos de la conférence. Le document, lui, est resté largement ignoré.
Commençons par les faits. Gemini Omni est le nouveau modèle de génération multimodale de DeepMind. Le premier produit, Gemini Omni Flash, génère des vidéos allant jusqu'à 10 secondes à partir de n'importe quelle combinaison d'entrées texte, image, audio ou vidéo. Chaque résultat comporte un filigrane SynthID. Les abonnés AI Plus, AI Pro et AI Ultra y ont eu accès immédiatement ; les utilisateurs de YouTube Shorts et de l'application YouTube Create y accèdent gratuitement à partir de cette semaine de lancement (selon Gagadget). L'accès à l'API est prévu « dans les semaines à venir », selon Google.
Revenons au guide de prompt. Le guide de Google DeepMind explique directement ce changement dans la section « Compréhension du monde » (World understanding) :
Avec Veo, vous devez fournir des instructions précises pour obtenir les meilleurs résultats. Mais avec Gemini Omni, vous n'avez pas besoin d'être aussi prescriptif dans votre prompt. Dites simplement à Omni ce que vous voulez créer — et regardez le raisonnement et les connaissances du monde du modèle donner vie aux détails.
En résumé : écrivez moins.
Comparez cela avec les guides de prompt publiés par ByteDance et Kuaishou pour leurs propres modèles vidéo. Les approches diffèrent, mais convergent vers la même conclusion.

ByteDance documente Seedance 2.0 sur sa plateforme internationale pour développeurs avec le guide de prompt BytePlus ModelArk. La structure recommandée est la suivante : sujet + mouvement (+ environnement + esthétique + mouvement de caméra/coupe + audio). Chaque élément n'est pas obligatoire ; vous choisissez ce qui convient au plan.
Le guide de pondération des prompts de Kuaishou structure cette approche via la formule des 5W1H (Qui, Quoi, Où, Quand, Pourquoi, Comment). Le « Qui » — le sujet — a généralement la priorité la plus élevée et doit ouvrir le prompt, car la position des mots détermine le poids dans Kling 3.0 : tout ce qui est placé en début de phrase reçoit une attention computationnelle accrue. Les choix stylistiques (médium, perspective) fonctionnent mieux à la fin, agissant comme un filtre sur la scène déjà établie. Le guide déconseille d'empiler des éléments aveuglément ; trop de mots-clés contradictoires dégradent la qualité.
Trois entreprises sont arrivées à cette conclusion de manière indépendante, ce qui suggère que leurs modèles ont atteint un niveau de capacité similaire à peu près au même moment. Google vous conseille d'écrire moins, ByteDance considère la plupart des composants comme facultatifs et Kuaishou met l'accent sur l'ordre des mots plutôt que sur le volume. Bien que les approches spécifiques varient, les trois laboratoires incitent les créateurs à privilégier des prompts plus fluides et naturels.
Voyons maintenant comment le guide de prompt de Gemini Omni s'applique en pratique.
Structure de prompt pour Gemini Omni : les 5 dimensions de Google DeepMind
Le guide s'ouvre sur un exemple complet :
Un plan de suivi grand angle glisse doucement sur un lac serein, révélant un objet colossal, réfléchissant, en forme de haricot chromé lévitant sans effort au-dessus, tournant lentement pour révéler ses reflets déformés de falaises majestueuses et un objet plus petit et similaire partiellement immergé dans l'eau azur claire en contrebas, alors qu'un soleil brillant se lève derrière l'anomalie flottante, baignant toute la scène dans une lumière du jour vive et éthérée aux tons bleus et verts vibrants, créant une ambiance cinématographique et impressionnante soulignée par une partition orchestrale majestueuse et d'un autre monde qui souligne l'immensité et le mystère du paysage extraterrestre, avec de légers bourdonnements profonds émanant de l'objet en lévitation.
Plus de 90 mots. Si vous les décomposez, vous obtenez 5 dimensions.
- Cadrage et mouvement : Grand angle, plan moyen ou gros plan ? La caméra doit-elle glisser doucement ou avancer brusquement ? Les deux verbes produisent des résultats sensiblement différents ; quelques essais valent donc la peine pour trouver la bonne dynamique.
- Style : Réaliste, cinématographique, éthéré, majestueux ? Cette dimension ne nécessite pas de détails. Indiquez simplement le ton émotionnel au modèle, cela suffit.
- Éclairage : D'où vient la lumière ? Le soleil, un lampadaire, une source présente dans le champ ou hors champ ? L'ambiance doit-elle être nette, chaude ou éthérée ?
- Scène : Une phrase du guide mérite d'être soulignée : « vous n'avez pas besoin de décrire chaque petit détail, car Omni travaillera avec votre intention globale. » C'est exactement ce que disent Seedance et Kling dans leurs documents officiels.
- Action et interaction : Qui et quoi est présent dans la scène, comment ils bougent et comment ils interagissent.
Édition conversationnelle Gemini Omni vs réécriture de prompt Veo
Omni et Veo produisent une qualité de génération comparable. La réelle différence réside dans ce que vous pouvez faire une fois la vidéo générée.
Auparavant, changer un détail signifiait réécrire tout le prompt, régénérer, et espérer que la cohérence entre les images serait maintenue. Omni remplace cette étape par une conversation.
Le guide officiel donne quelques exemples.
Une vidéo en stop-motion d'un petit garçon. Première modification : « remplace le papillon par une abeille ». Ensuite : « transforme l'abeille en un petit essaim de lucioles ». Un élément change à chaque tour ; les autres images sont préservées automatiquement.
La caméra fonctionne de la même manière. Une vidéo d'un violoniste reçoit trois commandes successives : « transporte le violoniste dans l'environnement de l'image », « rend le violon invisible », « change l'angle de la caméra pour qu'il soit au-dessus de l'épaule du violoniste ». Changement d'environnement, suppression d'objet, repositionnement de la caméra : tout se fait via le langage naturel.
Attention toutefois : des testeurs tiers notent que si votre instruction d'édition est trop vague, Omni a tendance à modifier excessivement la scène, altérant des éléments que vous vouliez conserver. Le conseil de Google : modifiez une variable par tour et précisez explicitement ce qui doit rester identique.
L'exemple de synchronisation inter-modale est encore plus intéressant. Prenez une vidéo de nuit d'un immeuble d'habitation et ajoutez l'instruction : « les lumières des appartements commencent à s'allumer en rythme avec la musique ». Le modèle analyse les battements de la bande sonore et aligne les lumières des fenêtres dessus. Faire cela dans After Effects nécessiterait une timeline, un métronome et une animation image par image manuelle.
Les 4 capacités avancées de Gemini Omni : connaissances du monde, rendu de texte, référence d'action, entrées multiples
La seconde moitié du guide détaille 4 capacités clés.
Connaissances du monde appliquées
Exemple de prompt : Explique la différence entre l'informatique classique et l'informatique quantique. Visualise cette phrase en utilisant un style contemporain « flat design » qui mélange des formes vectorielles minimalistes avec des textures organiques riches. L'esthétique est définie par une palette de couleurs « électriques » à fort contraste, composée de roses néon, de cyans et de citrons verts sur fond bleu marine profond. Une caractéristique de ce style est l'utilisation de pointillés et de dégradés granuleux, ajoutant une qualité tactile proche du risographe aux formes géométriques simples. En combinant des bords nets avec ces transitions adoucies et tachetées, l'illustration obtient un rendu éditorial ludique.
Le modèle sait déjà ce qu'est la superposition quantique et comment la transmettre via une série de plans comparatifs. L'utilisateur n'a pas besoin d'expliquer la mécanique quantique, seulement le ton visuel.
Cela fonctionne parce qu'Omni s'appuie sur un modèle de raisonnement de pointe, ce que les modèles de génération vidéo uniquement ne peuvent égaler. Demis Hassabis, dans une interview avec Semafor après l'I/O, a présenté Omni comme une étape dans le projet de construire une IA qui comprend mieux le monde réel. Il a souligné que Waymo, la division de conduite autonome d'Alphabet, teste déjà des modèles du monde similaires pour donner aux voitures autonomes une sorte d'« imagination » pour gérer les situations imprévisibles. La génération vidéo n'est que l'application la plus visible de cette architecture.
Rendu de texte
Exemple de prompt : mot par mot, un mot à la fois à l'écran, chaque mot avec un style animé différent, rythme parfait, sizzle reel.
Référence d'action complexe
Exemple de prompt : édite ceci en gardant tout identique, ajoute des effets de mouvement animés sortant du skateboard.
Référence à entrées multiples
Exemple de prompt : Les oiseaux de la vidéo forment vaguement la forme imparfaite d'un oiseau basé sur l'image. Ils bougent sur la musique de l'audio et se dissipent en s'envolant.
Transfert de style
Exemple de prompt : Crée une progression stylistique en quatre parties de la référence vidéo commençant par une esthétique de crayon de couleur vibrante, avec des traits riches, cireux et texturés et des designs de personnages ludiques dessinés à la main sur un fond de papier fortement granulé. Transition fluide vers un croquis au crayon graphite sur papier texturé, utilisant des hachures, des épaisseurs de trait variées et un effet de « line boiling » à 12 ips pour accentuer l'aspect fait main. Ensuite, transformation vers un style 3D translucide hyper-réaliste, caractérisé par des réfractions de lumière complexes, des motifs caustiques et des lueurs internes douces dans un studio minimaliste. Conclure la séquence avec un aspect d'impression risographe tactile, utilisant une palette limitée de trois couleurs, des textures de demi-teintes granuleuses et des superpositions de repérage intentionnelles pour une finition rétro et mécanique.
Référence de storyboard
Prompt : Montre-moi cette histoire. Suis l'histoire exactement dans l'ordre en commençant en haut à gauche. Toute l'histoire en 10 secondes. Cinématographique.
Cohérence inter-plans
Pourquoi les conseils de prompt pour Gemini Omni, Seedance (ByteDance) et Kling (Kuaishou) convergent-ils ?
Revenons à l'observation initiale. La similitude dans les conseils de prompt entre Seedance, Kling et Omni n'est pas le résultat d'un emprunt mutuel. Il est plus probable que cette génération de modèles ait atteint un niveau de capacité similaire par elle-même.
Une fois qu'un modèle peut gérer le langage naturel au niveau de la scène, compléter les détails avec des connaissances du monde et déduire ce que l'utilisateur veut réellement dire, l'excès de précision devient un goulot d'étranglement. Les trois laboratoires ne sont pas d'accord sur la structure à conserver, mais ils conviennent tous que la solution n'est pas d'écrire davantage.
C'est le résultat de deux ans de modèles de diffusion entraînés conjointement avec de grands modèles de langage. Omni pousse ce résultat vers un état relativement complet.
Appeler Gemini Omni via Atlas Cloud : API unifiée pour Seedance, Kling, Veo
Gemini Omni arrive sur Atlas Cloud. Atlas Cloud regroupe plus de 300 modèles d'IA dans les domaines du texte, de l'image, de la vidéo et de l'audio. Les principaux modèles vidéo sont déjà disponibles sur la plateforme : Seedance 2.0, Kling 3.0, Wan 2.7, Veo, entre autres. Pour une comparaison côte à côte, consultez l'analyse approfondie d'Atlas Cloud : Wan 2.7 vs Seedance 2.0 vs Kling 3.0 : quelle API vidéo choisir pour les développeurs ?
Un seul compte pour gérer tout le pipeline. Pas besoin de s'inscrire, de payer ou de gérer des clés d'API sur plusieurs plateformes régionales. Le Playground permet un débogage interactif. Une API unifiée compatible avec OpenAI s'intègre directement dans vos flux de travail existants.
La bibliothèque de prompts d'Atlas Cloud contient plus de vingt catégories de prompts prêts à l'emploi couvrant l'anime, la science-fiction, le mystère, la cuisine, les formats vlog. Chaque prompt est accompagné d'une vidéo exemple et de notes sur les paramètres. Copiez, modifiez quelques mots et lancez la génération.
Une API unifiée pour la génération vidéo en production
Alors que Google déploie Gemini Omni Flash au sein de l'application Gemini et de Google Flow pour les utilisateurs finaux, les développeurs et les équipes produit qui souhaitent intégrer le même moteur vidéo multimodal dans leurs propres flux de travail ont besoin d'une couche API stable et prévisible.
Atlas Cloud propose Gemini Omni Flash via une API unifiée et compatible OpenAI, aux côtés de plus de 300 autres modèles d'image, vidéo et LLM. Vous pouvez ainsi intégrer le modèle multimodal natif de Google sans jongler avec des comptes fournisseurs, des portails de facturation ou des SDK multiples.
Les deux variantes de Gemini Omni Flash sont disponibles sur Atlas Cloud :
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
| Variante | Idéal pour | Entrées | Résolution | Durée | Prix de départ |
| Gemini Omni Flash Text-to-Video (Développeur) | Génération cinématographique par prompt | Texte (jusqu'à 20 000 car.) | 720p / 1080p / 4K | 4, 6, 8, 10 s | $0.2 + $0.1/sec |
| Gemini Omni Flash Image-to-Video (Développeur) | Vidéo cohérente avec références réelles | Texte + jusqu'à 7 images | 720p / 1080p / 4K | 4, 6, 8, 10 s | $0.2 + $0.1/sec |
Démarrage rapide — Générez une vidéo Gemini Omni Flash en 5 lignes :
plaintext1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \ 2 -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \ 3 -H "Content-Type: application/json" \ 4 -d '{ 5 "model": "google/gemini-omni-flash/text-to-video-developer", 6 "input": { 7 "prompt": "Une forêt brumeuse à l'heure dorée, plan dolly cinématographique", 8 "resolution": "1080p", 9 "duration": 8, 10 "aspect_ratio": "16:9" 11 } 12 }'
L'API renvoie immédiatement un ID de prédiction — interrogez /api/v1/model/prediction/{id} pour obtenir l'URL du MP4 généré. Le schéma complet, des exemples de code dans 7 langages et un Playground sans code sont disponibles sur les pages des modèles liées ci-dessus.







