El 19 de mayo de 2026, en el Google I/O, DeepMind presentó Gemini Omni. Ese mismo día, la guía de prompts de Gemini Omni se publicó en el sitio de documentación de DeepMind, ubicada entre la tarjeta del modelo Omni Flash y las notas de la API. La mayoría de la gente vio las demos de la keynote. La documentación pasó casi desapercibida.
Empecemos con datos rápidos. Gemini Omni es el nuevo modelo de generación multimodal de DeepMind. El primer producto, Gemini Omni Flash, genera videos de hasta 10 segundos a partir de cualquier combinación de entradas de texto, imagen, audio o video. Cada salida incluye una marca de agua SynthID. Los suscriptores de AI Plus, AI Pro y AI Ultra obtuvieron acceso inmediato; los usuarios de YouTube Shorts y la aplicación YouTube Create obtienen acceso gratuito a partir de esta semana de lanzamiento (según reportó Gagadget). El acceso a la API llegará "en unas semanas", según Google.
Volviendo a la guía de prompts. La guía de Google DeepMind explica el cambio directamente, bajo la sección "World understanding" (Comprensión del mundo):
Con Veo, necesitas compartir instrucciones precisas para obtener los mejores resultados. Pero con Gemini Omni, no tienes que ser tan prescriptivo con tu prompt. En su lugar, dile a Omni lo que quieres crear y observa cómo el razonamiento y el conocimiento del mundo del modelo dan vida a los detalles.
La traducción: escribe menos.
Lee esto junto a las guías de prompts que ByteDance y Kuaishou publican para sus propios modelos de video. Los marcos difieren, pero apuntan en la misma dirección.

ByteDance documenta Seedance 2.0 en su plataforma internacional para desarrolladores con la guía de prompts de BytePlus ModelArk. La estructura recomendada: sujeto + movimiento (+ entorno + estética + movimiento de cámara/corte + audio). No se requiere cada componente; eliges lo que se ajuste a la toma.
La guía de ponderación de prompts de IA de Kuaishou lo enmarca a través de una fórmula 5W1H: Quién + Qué + Dónde + Cuándo + Por qué + Cómo. El "Quién" (el sujeto) suele tener la mayor prioridad y encabeza el prompt, ya que la posición de las palabras determina el peso en Kling 3.0: lo que aparece primero recibe la mayor atención computacional. Las opciones estilísticas como el medio o la perspectiva funcionan mejor al final, actuando como un filtro sobre la escena ya establecida. La guía advierte contra el apilamiento ciego de elementos; demasiadas palabras clave contradictorias degradan la calidad.
Tres empresas llegaron a este consejo de forma independiente, lo que sugiere que sus modelos alcanzaron un nivel de capacidad similar casi al mismo tiempo. Google te dice que escribas menos, ByteDance marca la mayoría de los componentes como opcionales y Kuaishou enfatiza el orden de las palabras sobre el volumen total. Los encuadres específicos difieren, pero los tres laboratorios orientan a los creadores hacia prompts más libres y naturales.
Ahora, veamos cómo funciona la guía de prompts de Gemini Omni en la práctica.
Estructura de prompts de Gemini Omni: 5 dimensiones que usa Google DeepMind
La guía comienza con un ejemplo completo:
Una toma de gran angular con seguimiento se desliza suavemente a través de un lago sereno, revelando un objeto colosal, reflectante, similar al cromo y con forma de frijol que levita sin esfuerzo arriba, girando lentamente para mostrar sus reflejos distorsionados de acantilados majestuosos y un objeto similar más pequeño parcialmente sumergido en el agua azul clara debajo, mientras un sol brillante corona detrás de la anomalía flotante, bañando toda la escena con una luz diurna nítida y etérea con tonos azules y verdes vibrantes, creando un ambiente cinematográfico e inspirador subrayado por una partitura orquestal majestuosa y de otro mundo que enfatiza la inmensidad y el misterio del paisaje alienígena, con tenues y profundos zumbidos que emanan del objeto levitante.
Más de 90 palabras. Divídela y obtendrás 5 dimensiones.
- Encuadre de toma y movimiento. ¿Gran angular, plano medio o primer plano? ¿Debería la cámara deslizarse suavemente o avanzar de repente? Los dos verbos producen resultados notablemente diferentes, por lo que unas pocas rondas de prueba valen la pena cuando buscas la sensación de movimiento adecuada.
- Estilo. ¿Realista, cinematográfico, etéreo, majestuoso? Esta dimensión no necesita detalles. Dile al modelo el tono emocional y es suficiente.
- Iluminación. ¿De dónde viene la luz? ¿El sol, una farola, en cámara o fuera de pantalla? ¿Debería sentirse nítida, cálida o etérea?
- Escena. Vale la pena resaltar una línea de la guía: "no necesitas describir cada detalle minúsculo, ya que Omni trabajará con tu intención general". Esto coincide con lo que dicen Seedance y Kling en sus documentos oficiales.
- Acción e interacción. Quién y qué hay en la escena, cómo se mueven, cómo interactúan.
Edición conversacional de Gemini Omni frente a la reescritura de prompts de Veo
Omni y Veo producen una calidad de generación comparable. La verdadera diferencia es lo que puedes hacer después de generar el video.
Anteriormente, cambiar un detalle significaba reescribir todo el prompt, regenerar y esperar que la consistencia entre cuadros se mantuviera. Omni reemplaza este paso con una conversación.
La guía oficial da algunos ejemplos.
Un video estilo stop-motion de un niño pequeño. Primera edición: "cambia la mariposa por una abeja". Siguiente: "cambia la abeja por un pequeño enjambre de luciérnagas". Un elemento cambia por turno; los otros cuadros se conservan automáticamente.
La cámara funciona de la misma manera. Un video de un violinista recibe tres comandos en secuencia: "transporta al violinista al entorno de la imagen", "haz que el violín sea invisible", "cambia el ángulo de la cámara para que esté sobre el hombro del violinista". Intercambio de entorno, eliminación de objetos, reposicionamiento de cámara, todo a través del lenguaje natural.
Hay un punto importante a señalar. Los revisores externos notan que si tu instrucción de edición es demasiado vaga, Omni tiende a editar en exceso, cambiando elementos que querías conservar. La recomendación de Google: cambia una variable por turno y declara explícitamente qué debe permanecer igual.
El ejemplo de sincronización cross-modal es más interesante. Toma un video nocturno de un edificio de apartamentos y añade la instrucción "las luces de los apartamentos comienzan a encenderse en sincronía con la música". El modelo analiza los ritmos de la banda sonora y alinea las luces de las ventanas con ellos. Hacer esto en After Effects requiere una línea de tiempo, un metrónomo y fotogramas clave manuales cuadro por cuadro.
Las 4 capacidades avanzadas de Gemini Omni: Conocimiento del mundo, renderizado de texto, referencia de acción, entrada múltiple
La segunda mitad de la guía desglosa 4 capacidades.
Conocimiento del mundo aplicado
El prompt de ejemplo: Explica la diferencia entre la computación regular y la computación cuántica. Visualiza esta oración usando un estilo contemporáneo de medios planos que combina formas vectoriales minimalistas con ricas texturas orgánicas. La estética se define por una paleta de colores "eléctricos" de alto contraste de neones rosas, cianes y limas sobre un fondo azul marino profundo. Un sello distintivo de este estilo es el uso de sombreado punteado y degradados granulosos, lo que añade una calidad táctil, similar a una risografía, a formas geométricas por lo demás simples. Al combinar bordes afilados con estas transiciones suavizadas y moteadas, la ilustración logra una sensación editorial y lúdica.
El modelo ya sabe qué es la superposición cuántica y cómo transmitirla a través de una serie comparativa de tomas. El usuario no tiene que explicar la mecánica cuántica, solo el tono visual.
Esto funciona porque Omni se ejecuta en un modelo de razonamiento de frontera, algo que los modelos de video solo de generación no pueden igualar. Demis Hassabis, en una entrevista con Semafor tras el I/O, enmarcó a Omni como un paso en el proyecto de construir una IA que comprenda mejor el mundo real. Señaló que Waymo, la división de conducción autónoma de Alphabet, ya está probando modelos mundiales similares para dar a los coches autónomos una especie de "imaginación" para manejar situaciones impredecibles. La generación de video es solo la aplicación más visible de esa arquitectura.
Renderizado de texto
El prompt de ejemplo: palabra por palabra, una palabra en la pantalla a la vez, cada palabra con un estilo animado diferente, ritmo perfecto al compás, sizzle reel.
Referencia de acción compleja
Ejemplo de prompt: edita esto manteniendo todo igual, añade efectos de movimiento animados que salgan de la patineta.
Referencia de entrada múltiple
Ejemplo de prompt: Las aves del video forman vagamente la forma imperfecta de un pájaro basado en la imagen. Se mueven al ritmo de la música del audio y se disipan mientras vuelan.
Transferencia de estilo
Ejemplo de prompt: Crea una progresión estilística de cuatro partes del video de referencia que comience con una estética vibrante de crayones de colores, con trazos ricos, cerosos y texturizados y diseños de personajes lúdicos dibujados a mano sobre un fondo de papel muy granulado. Transición perfecta a un boceto a lápiz de grafito sobre papel texturizado, utilizando sombreado cruzado, grosores de línea variables y un efecto de "line boiling" de 12 fps para enfatizar una sensación dibujada a mano. Luego, transfórmate en un estilo de vidrio translúcido 3D hiperrealista, caracterizado por complejas refracciones de luz, patrones cáusticos y suaves brillos internos dentro de un entorno de estudio minimalista. Concluye la secuencia con un aspecto de impresión risográfica táctil, aplicando una paleta limitada de tres colores, texturas de medios tonos granulosas y superposiciones de registro intencionales para un acabado retro y mecánico.
Referencia de guion gráfico
Prompt: Muéstrame en esta historia. Sigue la historia exactamente en orden comenzando arriba a la izquierda. Historia completa en 10 segundos. Cinematográfico.
Consistencia entre tomas
Por qué convergen los consejos de prompts de Gemini Omni, Seedance de ByteDance y Kling de Kuaishou
Volviendo a la observación anterior. La similitud en los consejos de prompts de Seedance, Kling y Omni no es resultado de un préstamo mutuo. Es más plausible que esta generación de modelos alcanzara un nivel de capacidad similar por cuenta propia.
Una vez que un modelo puede manejar el lenguaje natural a nivel de escena, complementar los detalles con conocimiento del mundo e inferir lo que el usuario realmente quiere decir, prescribir demasiado se convierte en el cuello de botella. Los tres laboratorios no están de acuerdo en cuánto debe añadirse de estructura, pero sí coinciden en que la respuesta no es seguir escribiendo más.
Este es el resultado de dos años de modelos de difusión entrenados conjuntamente con grandes modelos de lenguaje. Omni lleva el resultado a un estado relativamente completo.
Llamar a Gemini Omni a través de Atlas Cloud: API unificada para Seedance, Kling, Veo
Gemini Omni llega a Atlas Cloud. Atlas Cloud agrega más de 300 modelos de IA en texto, imagen, video y audio. Los principales modelos de video ya se ejecutan en la plataforma: Seedance 2.0, Kling 3.0, Wan 2.7, Veo, entre otros. Para una comparación lado a lado, consulta el análisis profundo de Wan 2.7 vs Seedance 2.0 vs Kling 3.0 de Atlas Cloud.
Una cuenta ejecuta todo el proceso. No es necesario registrarse, pagar o mantener claves de API en múltiples plataformas regionales. El Playground admite depuración interactiva. Una API unificada compatible con OpenAI se conecta a los flujos de trabajo existentes.
La biblioteca de prompts de Atlas Cloud tiene más de veinte categorías de prompts listos para usar que cubren anime, ciencia ficción, misterio, comida y formatos de vlog. Cada prompt viene con un video de ejemplo y notas de parámetros. Copia, cambia algunas palabras y ejecuta.
Una API unificada para la generación de video de producción
Mientras Google lanza Gemini Omni Flash dentro de la aplicación Gemini y Google Flow para usuarios finales, los desarrolladores y equipos de producto que desean integrar el mismo motor de video multimodal en sus propios flujos de trabajo necesitan una capa de API estable y predecible.
Atlas Cloud sirve Gemini Omni Flash a través de una API unificada compatible con OpenAI, junto con más de 300 otros modelos de imagen, video y LLM, para que puedas integrar el modelo multimodal nativo de Google sin tener que hacer malabares con cuentas de proveedores, portales de facturación o SDKs separados.
Ambas variantes de Gemini Omni Flash están disponibles en Atlas Cloud:
| Variante | Ideal para | Entradas | Resolución | Duración | Precio inicial |
|---|---|---|---|---|---|
| Gemini Omni Flash Text-to-Video (Developer) | Generación cinematográfica impulsada por prompts | Texto (hasta 20,000 caracteres) | 720p / 1080p / 4K | 4, 6, 8, 10 s | USD0.2 + USD0.1/seg |
| Gemini Omni Flash Image-to-Video (Developer) | Video consistente con referencias reales | Texto + hasta 7 imágenes de referencia | 720p / 1080p / 4K | 4, 6, 8, 10 s | USD0.2 + USD0.1/seg |
Inicio rápido — Genera un video de Gemini Omni Flash en 5 líneas:
plaintext1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \ 2 -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \ 3 -H "Content-Type: application/json" \ 4 -d '{ 5 "model": "google/gemini-omni-flash/text-to-video-developer", 6 "input": { 7 "prompt": "A misty forest at golden hour, cinematic dolly shot", 8 "resolution": "1080p", 9 "duration": 8, 10 "aspect_ratio": "16:9" 11 } 12 }'
La API devuelve un ID de predicción inmediatamente: consulta /api/v1/model/prediction/{id} para obtener la URL del MP4 renderizado. El esquema completo, ejemplos de código en 7 idiomas y un Playground sin código están disponibles en las páginas del modelo enlazadas arriba.







