El 19 de mayo de 2026, en Google I/O, DeepMind lanzó Gemini Omni. Ese mismo día, la guía de prompts de Gemini Omni apareció en el sitio de documentación de DeepMind, ubicada entre la tarjeta del modelo Omni Flash y las notas de la API. La mayoría de la gente vio las demos de la conferencia principal. La documentación pasó casi desapercibida.
Primero, los datos clave. Gemini Omni es el nuevo modelo de generación multimodal de DeepMind. El primer producto, Gemini Omni Flash, genera vídeos de hasta 10 segundos a partir de cualquier combinación de entradas de texto, imagen, audio o vídeo. Cada resultado lleva una marca de agua SynthID. Los suscriptores de AI Plus, AI Pro y AI Ultra obtuvieron acceso inmediato; los usuarios de YouTube Shorts y la aplicación YouTube Create obtienen acceso gratuito a partir de esta semana de lanzamiento (según reportes de Gagadget). Según Google, el acceso a la API "llegará en unas semanas".
Volviendo a la guía de prompts. La guía de Google DeepMind explica el cambio directamente, bajo la sección "World understanding" (comprensión del mundo):
Con Veo, necesitas compartir instrucciones precisas para obtener los mejores resultados. Pero con Gemini Omni, no tienes que ser tan prescriptivo con tu prompt. En su lugar, dile a Omni lo que quieres crear y observa cómo el razonamiento y el conocimiento del mundo del modelo hacen realidad los detalles.
La traducción: escribe menos.
Lee esto junto con las guías de prompts que ByteDance y Kuaishou publican para sus propios modelos de vídeo. Los enfoques difieren, pero apuntan en la misma dirección.

ByteDance documenta Seedance 2.0 en su plataforma internacional para desarrolladores con la guía de prompts de BytePlus ModelArk. La estructura recomendada: sujeto + movimiento (+ entorno + estética + movimiento de cámara/corte + audio). No se requiere cada componente; eliges lo que se ajuste a la toma.
La guía de ponderación de prompts de IA de Kuaishou lo enmarca mediante una fórmula 5W1H: Quién + Qué + Dónde + Cuándo + Por qué + Cómo. El "Quién" (el sujeto) suele tener la mayor prioridad y lidera el prompt, ya que la posición de la palabra determina el peso en Kling 3.0: lo que aparece primero recibe la mayor atención computacional. Las elecciones estilísticas como el medio o la perspectiva funcionan mejor al final, actuando como un filtro sobre la escena ya establecida. La guía advierte contra la acumulación ciega de elementos; demasiadas palabras clave contradictorias degradan la calidad.
Tres empresas llegaron a este consejo de forma independiente, lo que sugiere que sus modelos alcanzaron un nivel de capacidad similar casi al mismo tiempo. Google te dice que escribas menos, ByteDance marca la mayoría de los componentes como opcionales y Kuaishou enfatiza el orden de las palabras sobre el volumen total. Los encuadres específicos difieren, pero los tres laboratorios orientan a los creadores hacia prompts más libres y naturales.
Ahora, veamos cómo funciona la guía de prompts de Gemini Omni en la práctica.
Estructura de prompts de Gemini Omni: 5 dimensiones que utiliza Google DeepMind
La guía comienza con un ejemplo completo:
Una toma de gran angular con seguimiento se desliza suavemente a través de un lago sereno, revelando un objeto colosal, reflectante y en forma de frijol cromado que levita sin esfuerzo arriba, girando lentamente para revelar sus reflejos distorsionados de acantilados majestuosos y un objeto similar más pequeño parcialmente sumergido en el agua azul clara debajo, mientras un sol brillante sale detrás de la anomalía flotante, bañando toda la escena con una luz diurna nítida y etérea con tonos azules y verdes vibrantes, creando un ambiente cinematográfico e impresionante subrayado por una partitura orquestal majestuosa y de otro mundo que enfatiza la inmensidad y el misterio del paisaje alienígena, con zumbidos tenues y profundos que emanan del objeto levitante.
Más de 90 palabras. Desglósalo y obtendrás 5 dimensiones.
- Encuadre y movimiento de cámara. ¿Gran angular, plano medio o primer plano? ¿Debería la cámara deslizarse suavemente o moverse repentinamente? Los dos verbos producen resultados notablemente diferentes, por lo que vale la pena hacer algunas rondas de prueba cuando buscas la sensación de movimiento correcta.
- Estilo. ¿Realista, cinematográfico, etéreo, majestuoso? Esta dimensión no necesita detalles. Dile al modelo el tono emocional y es suficiente.
- Iluminación. ¿De dónde viene la luz? ¿El sol, una farola, dentro o fuera de la cámara? ¿Debería sentirse nítida, cálida o etérea?
- Escena. Vale la pena destacar una línea de la guía: "no necesitas describir cada pequeño detalle, ya que Omni trabajará con tu intención general". Esto coincide con lo que dicen Seedance y Kling en sus documentos oficiales.
- Acción e interacción. Quién y qué hay en la escena, cómo se mueven, cómo interactúan.
Edición conversacional de Gemini Omni frente a la reescritura de prompts de Veo
Omni y Veo producen una calidad de generación comparable. La verdadera diferencia es lo que puedes hacer después de generar el vídeo.
Anteriormente, cambiar un detalle significaba reescribir todo el prompt, regenerar y esperar que se mantuviera la consistencia entre fotogramas. Omni reemplaza este paso con una conversación.
La guía oficial ofrece algunos ejemplos.
Un vídeo al estilo stop-motion de un niño pequeño. Primera edición: "cambia la mariposa por una abeja". Siguiente: "cambia la abeja por un pequeño enjambre de luciérnagas". Un elemento cambia por turno; los demás fotogramas se conservan automáticamente.
La cámara funciona de la misma manera. Un vídeo de un violinista recibe tres comandos en secuencia: "transporta al violinista al entorno de la imagen", "haz invisible el violín", "cambia el ángulo de la cámara para que esté sobre el hombro del violinista". Intercambio de entorno, eliminación de objetos, reposicionamiento de cámara, todo a través del lenguaje natural.
Hay un detalle importante. Revisores externos señalan que si tu instrucción de edición es demasiado vaga, Omni tiende a editar en exceso, cambiando elementos que querías mantener. La recomendación de Google: cambia una variable por turno y declara explícitamente qué debe permanecer igual.
El ejemplo de sincronización intermodal es más interesante. Toma un vídeo nocturno de un edificio de apartamentos y añade la instrucción "las luces de los apartamentos comienzan a encenderse en sincronía con la música". El modelo analiza los ritmos de la banda sonora y alinea las luces de las ventanas con ellos. Hacer esto en After Effects requiere una línea de tiempo, un metrónomo y fotogramas clave manuales.
4 capacidades avanzadas de Gemini Omni: conocimiento del mundo, renderizado de texto, referencia de acción y entrada múltiple
La segunda mitad de la guía desglosa 4 capacidades.
Conocimiento del mundo aplicado
El ejemplo de prompt: Explica la diferencia entre la computación regular y la computación cuántica. Visualiza esta frase usando un estilo contemporáneo de medios planos que combina formas vectoriales minimalistas con ricas texturas orgánicas. La estética se define por una paleta de colores "eléctricos" de alto contraste de rosas neón, cianes y limas sobre un fondo azul marino profundo. Un sello distintivo de este estilo es el uso de sombreado punteado y degradados granulados, que añade una cualidad táctil, similar a una risografía, a las formas geométricas simples. Al combinar bordes afilados con estas transiciones suaves y moteadas, la ilustración logra una sensación editorial y lúdica.
El modelo ya sabe qué es la superposición cuántica y cómo transmitirla a través de un conjunto comparativo de tomas. El usuario no tiene que explicar la mecánica cuántica, solo el tono visual.
Esto funciona porque Omni se ejecuta en un modelo de razonamiento de frontera, algo que los modelos de vídeo exclusivos de generación no pueden igualar. Demis Hassabis, en una entrevista con Semafor tras el I/O, definió a Omni como un paso en el proyecto de construir una IA que comprenda mejor el mundo real. Señaló que Waymo, la división de conducción autónoma de Alphabet, ya está probando modelos mundiales similares para dar a los coches autónomos una especie de "imaginación" para manejar situaciones impredecibles. La generación de vídeo es solo la aplicación más visible de esa arquitectura.
Renderizado de texto
El ejemplo de prompt: palabra por palabra, una palabra en la pantalla a la vez, cada palabra con un estilo animado diferente, ritmo perfecto con la música, sizzle reel.
Referencia de acción compleja
Ejemplo de prompt: edita esto manteniendo todo igual, añade efectos de movimiento animados que salgan del monopatín.
Referencia de entrada múltiple
Ejemplo de prompt: Los pájaros del vídeo forman vagamente la forma imperfecta de un pájaro basado en la imagen. Se mueven con la música del audio y se disipan mientras vuelan.
Transferencia de estilo
Ejemplo de prompt: Crea una progresión estilística de cuatro partes de la referencia de vídeo que comience con una estética vibrante de crayones de colores, con trazos ricos, cerosos y texturizados y diseños de personajes juguetones dibujados a mano sobre un fondo de papel muy granulado. Transiciona perfectamente a un boceto a lápiz de grafito sobre papel texturizado, utilizando sombreado cruzado, grosores de línea variables y un efecto de "línea hirviendo" de 12 fps para enfatizar una sensación dibujada a mano. Luego, transfórmate en un estilo de vidrio translúcido 3D hiperrealista, caracterizado por complejas refracciones de luz, patrones cáusticos y suaves brillos internos dentro de un entorno de estudio minimalista. Concluye la secuencia con un aspecto de impresión risográfica táctil, aplicando una paleta limitada de tres colores, texturas de semitonos granulados y superposiciones de registro intencionales para un acabado retro y mecánico.
Referencia de guion gráfico
Prompt: Muéstrame en esta historia. Sigue la historia exactamente en orden comenzando arriba a la izquierda. Toda la historia en 10 segundos. Cinematográfico
Consistencia entre tomas
Por qué los consejos de prompts de Gemini Omni, Seedance de ByteDance y Kling de Kuaishou están convergiendo
Volviendo a la observación anterior. La similitud en los consejos de prompts de Seedance, Kling y Omni no es el resultado de un préstamo mutuo. Es más plausible que esta generación de modelos alcanzara un nivel de capacidad similar por sí misma.
Una vez que un modelo puede manejar el lenguaje natural a nivel de escena, complementar los detalles con el conocimiento del mundo e inferir lo que el usuario realmente quiere decir, la prescripción excesiva se convierte en el cuello de botella. Los tres laboratorios no están de acuerdo sobre cuánta estructura volver a añadir, pero coinciden en que la respuesta no es seguir escribiendo más.
Este es el resultado de dos años de modelos de difusión entrenados conjuntamente con modelos de lenguaje extensos. Omni lleva el resultado a un estado relativamente completo.
Llamando a Gemini Omni a través de Atlas Cloud: API unificada para Seedance, Kling, Veo
Gemini Omni llegará a Atlas Cloud. Atlas Cloud agrega más de 300 modelos de IA en texto, imagen, vídeo y audio. Los principales modelos de vídeo ya se ejecutan en la plataforma: Seedance 2.0, Kling 3.0, Wan 2.7, Veo, entre otros. Para una comparación lado a lado, consulta el análisis profundo de Wan 2.7 vs Seedance 2.0 vs Kling 3.0 de Atlas Cloud.
Una cuenta ejecuta todo el flujo de trabajo. No es necesario registrarse, pagar o mantener claves de API en múltiples plataformas regionales. El Playground admite depuración interactiva. Una API unificada compatible con OpenAI se conecta a los flujos de trabajo existentes.
La biblioteca de prompts de Atlas Cloud tiene más de veinte categorías de prompts listos para usar que cubren formatos de anime, ciencia ficción, misterio, comida y vlogs. Cada prompt viene con un vídeo de ejemplo y notas de parámetros. Copia, cambia unas pocas palabras y ejecuta.







