Guide des prompts Gemini Omni : les 5 dimensions, 4 capacités avancées et le flux de travail de modification conversationnelle de Google DeepMind

Google DeepMind a publié le guide des prompts Gemini Omni lors de la conférence I/O le 19 mai 2026. Analyse des 5 dimensions de prompt, de l'édition conversationnelle, des 4 capacités avancées, et des raisons pour lesquelles les laboratoires d'IA vidéo convergent vers les mêmes recommandations.

Guide des prompts Gemini Omni : les 5 dimensions, 4 capacités avancées et le flux de travail de modification conversationnelle de Google DeepMind

Le 19 mai 2026, lors de la Google I/O, DeepMind a lancé Gemini Omni. Le jour même, le guide de prompt de Gemini Omni a été mis en ligne sur le site de documentation de DeepMind, niché entre la fiche technique du modèle Omni Flash et les notes API. La plupart des gens ont regardé les démonstrations de la keynote. Le document est resté largement ignoré.

Commençons par les faits. Gemini Omni est le nouveau modèle de génération multimodale de DeepMind. Le premier produit, Gemini Omni Flash, génère des vidéos allant jusqu'à 10 secondes à partir de n'importe quelle combinaison d'entrées texte, image, audio ou vidéo. Chaque résultat porte un filigrane SynthID. Les abonnés AI Plus, AI Pro et AI Ultra ont bénéficié d'un accès immédiat ; les utilisateurs de YouTube Shorts et de l'application YouTube Create profitent d'un accès gratuit à partir de cette semaine de lancement (selon Gagadget). L'accès API est "prévu dans les prochaines semaines" selon Google.

Revenons au guide de prompt. Le guide de Google DeepMind explique directement ce changement dans la section "World understanding" (Compréhension du monde) :

Avec Veo, vous devez fournir des instructions précises pour obtenir les meilleurs résultats. Mais avec Gemini Omni, vous n'avez pas besoin d'être aussi prescriptif avec votre prompt. Dites simplement à Omni ce que vous souhaitez créer – et laissez le raisonnement et la connaissance du monde du modèle donner vie aux détails.

En résumé : écrivez moins.

Comparez cela aux guides de prompts publiés par ByteDance et Kuaishou pour leurs propres modèles vidéo. Les cadres diffèrent, mais pointent dans la même direction.

Schéma comparatif des structures de prompt pour les modèles vidéo Seedance 2.0 et Kling 3.0.

ByteDance documente Seedance 2.0 sur sa plateforme internationale pour développeurs avec le guide de prompt BytePlus ModelArk. La structure recommandée : sujet + mouvement (+ environnement + esthétique + mouvement de caméra/coupe + audio). Chaque composant n'est pas obligatoire, vous choisissez ce qui convient au plan.

Le guide de pondération des prompts de Kuaishou formule cela via une équation 5W1H : Qui + Quoi + Où + Quand + Pourquoi + Comment. Le "Qui" — le sujet — a généralement la priorité la plus élevée et ouvre le prompt, car la position du mot détermine le poids dans Kling 3.0 : tout ce qui arrive en premier reçoit le plus d'attention computationnelle. Les choix stylistiques comme le médium ou la perspective fonctionnent mieux à la fin, agissant comme un filtre sur la scène déjà établie. Le guide met en garde contre l'accumulation aveugle d'éléments ; trop de mots-clés contradictoires dégradent la qualité.

Trois entreprises sont parvenues à ces conseils indépendamment, ce qui suggère que leurs modèles ont atteint un niveau de capacité similaire à peu près au même moment. Google vous dit d'écrire moins, ByteDance signale que la plupart des composants sont optionnels, et Kuaishou met l'accent sur l'ordre des mots plutôt que sur le volume pur. Les approches diffèrent, mais les trois laboratoires encouragent les créateurs à adopter des prompts plus libres et naturels.

Voyons maintenant comment le guide de prompt de Gemini Omni se traduit en pratique.

Structure de prompt de Gemini Omni : Les 5 dimensions utilisées par Google DeepMind

Le guide s'ouvre sur un exemple complet :

Un plan large en travelling glisse doucement sur un lac serein, révélant un objet colossal en forme de haricot, chromé et réfléchissant, lévitant sans effort au-dessus, tournant lentement pour révéler les reflets déformés de falaises majestueuses et un objet similaire plus petit partiellement submergé dans l'eau azur claire en contrebas, alors qu'un soleil brillant se lève derrière l'anomalie flottante, baignant toute la scène dans une lumière du jour vive et éthérée avec des tons bleus et verts vibrants, créant une ambiance cinématographique et impressionnante soulignée par une partition orchestrale majestueuse et surnaturelle qui souligne l'immensité et le mystère du paysage extraterrestre, avec des bourdonnements sourds et lointains émanant de l'objet en lévitation.

Plus de 90 mots. Décomposez-le et vous obtenez 5 dimensions.

  • Cadrage et mouvement. Plan large, moyen ou gros plan ? La caméra doit-elle glisser doucement ou se précipiter soudainement ? Les deux verbes produisent des résultats sensiblement différents ; quelques essais valent donc la peine lorsque vous recherchez le bon ressenti de mouvement.
  • Style. Réaliste, cinématographique, éthéré, majestueux ? Cette dimension n'a pas besoin de détails. Indiquez au modèle la tonalité émotionnelle, et cela suffit.
  • Éclairage. D'où vient la lumière ? Le soleil, un lampadaire, à l'intérieur ou hors champ ? Doit-elle être vive, chaude ou éthérée ?
  • Scène. Une phrase du guide mérite d'être soulignée : "vous n'avez pas besoin de décrire chaque petit détail, car Omni travaillera avec votre intention globale." Cela correspond à ce que disent Seedance et Kling dans leurs documents officiels.
  • Action et interaction. Qui et quoi se trouve dans la scène, comment ils bougent, comment ils interagissent.

Édition conversationnelle de Gemini Omni vs Réécriture de prompt avec Veo

Omni et Veo produisent une qualité de génération comparable. La vraie différence réside dans ce que vous pouvez faire après la génération de la vidéo.

Auparavant, changer un détail signifiait réécrire tout le prompt, régénérer et espérer que la cohérence entre les images soit maintenue. Omni remplace cette étape par une conversation.

Le guide officiel donne quelques exemples.

Une vidéo en stop-motion d'un petit garçon. Première édition : "change le papillon en abeille." Ensuite : "change l'abeille en un petit essaim de lucioles." Un élément change à chaque itération ; les autres images sont automatiquement préservées.

La caméra fonctionne de la même manière. Une vidéo d'un violoniste reçoit trois commandes en séquence : "transporte le violoniste dans l'environnement de l'image", "rend le violon invisible", "change l'angle de caméra pour qu'il soit au-dessus de l'épaule du violoniste." Changement d'environnement, suppression d'objet, repositionnement de caméra, le tout via le langage naturel.

Il y a un piège à noter. Des examinateurs tiers signalent que si votre instruction d'édition est trop vague, Omni a tendance à trop modifier, changeant des éléments que vous vouliez conserver. La recommandation de Google : changez une variable par itération et indiquez explicitement ce qui doit rester identique.

L'exemple de synchronisation inter-modale est plus intéressant. Prenez une vidéo nocturne d'un immeuble d'habitation, ajoutez l'instruction "les lumières des appartements commencent à s'allumer en rythme avec la musique." Le modèle analyse les battements de la bande sonore et aligne les lumières des fenêtres sur ceux-ci. Faire cela dans After Effects nécessite une timeline, un métronome et un séquençage manuel image par image.

Les 4 capacités avancées de Gemini Omni : Connaissance du monde, Rendu de texte, Référence d'action, Entrées multiples

La seconde moitié du guide détaille 4 capacités.

Connaissance du monde appliquée

Exemple de prompt : Explique la différence entre l'informatique classique et l'informatique quantique. Visualise cette phrase en utilisant un style contemporain flat-media qui mélange des formes vectorielles minimalistes avec de riches textures organiques. L'esthétique est définie par une palette de couleurs "électriques" à fort contraste, composée de roses néon, de cyans et de citrons verts sur fond bleu marine profond. Une caractéristique de ce style est l'utilisation d'ombrages en pointillés et de dégradés granuleux, qui ajoutent une qualité tactile, proche du risographe, aux formes géométriques par ailleurs simples. En combinant des bords nets avec ces transitions douces et tachetées, l'illustration atteint une sensation ludique et éditoriale.

Le modèle sait déjà ce qu'est la superposition quantique et comment la transmettre à travers une série de plans comparatifs. L'utilisateur n'a pas besoin d'expliquer la mécanique quantique, seulement le ton visuel.

Cela fonctionne parce qu'Omni repose sur un modèle de raisonnement de pointe, ce que les modèles de génération vidéo uniquement ne peuvent égaler. Demis Hassabis, dans une interview accordée à Semafor après l'I/O, a présenté Omni comme une étape du projet consistant à construire une IA qui comprenne mieux le monde réel. Il a souligné que Waymo, la division de conduite autonome d'Alphabet, teste déjà des modèles mondiaux similaires pour donner aux voitures autonomes une sorte d'"imagination" pour gérer les situations imprévisibles. La génération vidéo n'est que l'application la plus visible de cette architecture.

Rendu de texte

Exemple de prompt : mot par mot, un mot à l'écran à la fois, chaque mot avec un style animé différent, un rythme parfait, sizzle reel.

Référence d'action complexe

Exemple de prompt : édite ceci en gardant tout identique, ajoute des effets de mouvement animés sortant du skateboard.

Référence d'entrées multiples

Exemple de prompt : Les oiseaux de la vidéo forment vaguement la forme imparfaite d'un oiseau basée sur l'image. Ils bougent sur la musique de l'audio et se dissipent en volant.

Transfert de style

Exemple de prompt : Crée une progression stylistique en quatre parties de la vidéo de référence qui commence par une esthétique vibrante aux crayons de couleur, avec des traits riches, cireux et texturés et des designs de personnages ludiques dessinés à la main sur un fond de papier fortement granulé. Transition fluide vers un croquis au crayon graphite sur papier texturé, utilisant des hachures croisées, des épaisseurs de trait variables et un effet de "line boiling" à 12 ips pour souligner une sensation de dessin à la main. Ensuite, transformation vers un style 3D hyper-réaliste en verre translucide, caractérisé par des réfractions lumineuses complexes, des motifs caustiques et des lueurs internes douces dans un cadre de studio minimaliste. Conclure la séquence avec un aspect d'impression risographe tactile, en appliquant une palette limitée de trois couleurs, des textures en demi-teintes granuleuses et des superpositions d'enregistrement intentionnelles pour une finition rétro et mécanique.

Référence de storyboard

Prompt : Montre-moi dans cette histoire. Suis l'histoire exactement dans l'ordre en commençant en haut à gauche. Toute l'histoire en 10 secondes. Cinématographique.

Cohérence entre les plans

Pourquoi les conseils de prompt de Gemini Omni, Seedance de ByteDance et Kling de Kuaishou convergent

Revenons à l'observation précédente. La similitude dans les conseils de prompt de Seedance, Kling et Omni n'est pas le résultat d'emprunts mutuels. Il est plus probable que cette génération de modèles ait atteint un niveau de capacité similaire de manière indépendante.

Une fois qu'un modèle peut gérer le langage naturel au niveau de la scène, compléter les détails avec une connaissance du monde et déduire ce que l'utilisateur veut réellement dire, l'excès de prescription devient le goulot d'étranglement. Les trois laboratoires ne sont pas d'accord sur la quantité de structure à ajouter, mais conviennent que la réponse n'est pas d'écrire davantage.

C'est le résultat de deux années de modèles de diffusion entraînés conjointement avec de grands modèles de langage. Omni pousse le résultat vers un état relativement complet.

Appeler Gemini Omni via Atlas Cloud : API unifiée pour Seedance, Kling, Veo

Gemini Omni arrive sur Atlas Cloud. Atlas Cloud regroupe plus de 300 modèles d'IA en texte, image, vidéo et audio. Les principaux modèles vidéo fonctionnent déjà sur la plateforme : Seedance 2.0, Kling 3.0, Wan 2.7, Veo, entre autres. Pour une comparaison côte à côte, consultez l'analyse détaillée Wan 2.7 vs Seedance 2.0 vs Kling 3.0 d'Atlas Cloud.

Un seul compte gère tout le pipeline. Pas besoin de s'inscrire, de payer ou de maintenir des clés API sur plusieurs plateformes régionales. Le Playground prend en charge le débogage interactif. Une API unifiée compatible avec OpenAI s'intègre aux flux de travail existants.

La bibliothèque de prompts d'Atlas Cloud contient plus de vingt catégories de prompts prêts à l'emploi couvrant les styles anime, science-fiction, mystère, nourriture et formats de vlog. Chaque prompt est accompagné d'une vidéo d'exemple et de notes sur les paramètres. Copiez, changez quelques mots, et lancez.

Modèles récents

Commencez avec Plus de 300 Modèles,

Explorer tous les modèles

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.