Prueba práctica con Gemini Omni: impresionante, pero aún le falta un poco

Tras semanas de filtraciones y especulaciones, Gemini Omni finalmente hizo su debut oficial en el Google I/O 2026 a primera hora de esta mañana.

No es el modelo dedicado a la generación de video que sugerían los rumores, ni un "Veo 4" que continúe la línea sucesoria de Veo 3. El CEO de Google DeepMind, Demis Hassabis, subió al escenario para hacer el anuncio:

“Estamos dando el siguiente paso importante: Gemini Omni, un modelo totalmente nuevo capaz de crear cualquier cosa a partir de cualquier entrada”.

Demostración de edición de video de Gemini Omni en el I/O 2026

En otras palabras, Gemini Omni es un modelo grande verdaderamente "omnicapaz": acepta cualquier forma de entrada y genera cualquier tipo de contenido, siendo la generación de video solo una pieza del rompecabezas.

Gemini Omni ya está disponible en todos los productos de Google. Los usuarios con planes de suscripción AI Plus, Pro y Ultra pueden acceder a él a través de la aplicación Gemini o de la plataforma de creación de video por IA de Google, Flow.

Nos suscribimos de inmediato al nivel Ultra de Google para poner a prueba Gemini Omni con tests de primera mano.

La conclusión directa: es decepcionante.

Consistencia en las pruebas de Gemini Omni: Se mantiene en gran medida

Una de las funciones más promocionadas de Omni es su capacidad para mantener la consistencia visual a lo largo de varias rondas de ediciones en lenguaje natural.

En la demostración oficial de Google, el metraje original muestra a un violinista actuando en interiores. Tras cambiar el entorno del fondo, alternar ángulos de cámara e incluso eliminar el violín por completo, las expresiones del artista, sus movimientos, la iluminación e incluso la sutil posición de sus manos permanecieron perfectamente adaptadas a cada nuevo entorno, junto con la música.

Tanto la precisión de las ediciones como la consistencia del sujeto principal resultaron genuinamente impresionantes.

Así que lo pusimos a prueba nosotros mismos, comenzando con un cambio de entorno y atmósfera.

Nuestro primer prompt: una vista aérea de dos coches chocando en una intersección, uno de ellos un deportivo azul, con una atmósfera tensa y emocionante.

Después, realizamos una edición y refinamiento más detallados. El prompt: cambiar a un atardecer dorado, cambiar el coche azul a rojo y hacer que los dos coches estallen en confeti y globos al impactar, con un tono ligero, fantástico y caprichoso.

El color de los coches y la iluminación cambiaron según las instrucciones, y la estructura y el movimiento general de la escena permanecieron mayormente coherentes, sin desgarros ni distorsión visual.

Sin embargo, hubo un problema sutil pero revelador: Omni no manejó especialmente bien el momento del impacto real. En ambos videos, los dos coches parecían conducirse el uno hacia el otro de forma casi deliberada, incluso reduciendo la velocidad ligeramente y ajustando sus ángulos justo antes del choque.

Fue, en una palabra, forzado. Como si se pudiera ver la mano invisible de Omni empujando los coches a su posición para cumplir con el prompt.

A continuación, probamos si Omni podía mantener la consistencia a través de movimientos dinámicos. El parámetro: un solo personaje cambiando entre varios ángulos de cámara, con rasgos faciales, ropa, accesorios e incluso peinado estables; sin errores del tipo "mismo atuendo, diferente color desde otro ángulo".

Nuestro prompt: un plano medio de seguimiento de una bailarina con un vestido rojo interpretando danza contemporánea en una vieja estación de tren, cortando a un plano fijo general tras un salto, manteniendo el vestido rojo y el fondo de la estación de tren completamente consistentes durante todo el tiempo.

Este salió razonablemente bien. Los movimientos de la bailarina fueron fluidos y continuos, la física del vestido de seda rojo se veía convincentemente real y el corte del plano de seguimiento al plano fijo general fue relativamente suave.

Omni también añadió automáticamente una pista de música de fondo; nada especialmente expresivo o atmosférico, pero encajaba lo suficientemente bien con el estado de ánimo general de la danza.

Luego hicimos un pequeño ajuste, pidiendo: eliminar la música de fondo y dejar solo el sonido ambiental: pasos sincronizados con los movimientos de baile y el suave susurro del vestido.

Aquí es donde las cosas se pusieron un poco desordenadas. La primera mitad del video sí captó los sonidos tenues del vestido balanceándose y los pies aterrizando en el suelo. Pero en la segunda mitad, la música de fondo volvió a aparecer inexplicablemente.

Luego, probamos su capacidad para entender relaciones complejas entre personajes y posicionamiento espacial.

El parámetro: cuando varios personajes con diferentes apariencias y atuendos interactúan entre sí, sus rasgos individuales no deben mezclarse o intercambiarse durante los cambios de ángulo de cámara.

Nuestro prompt: un plano por encima del hombro de cuatro a cinco científicos, cada uno con un aspecto claramente diferente, discutiendo una proyección holográfica en un laboratorio, con la cámara rotando lentamente; manteniendo la apariencia y atuendos de todos los personajes sin cambios durante todo el proceso.

Quizás en un esfuerzo por cumplir fielmente con el requisito de científicos que se ven diferentes, Omni eligió cuidadosamente a cuatro personajes que cubren un rango de edades, géneros y etnias. A lo largo del plano rotativo, las apariencias, atuendos, voces y posiciones relativas de los personajes permanecieron mayormente consistentes.

El único fallo desafortunado: hacia la segunda mitad del video, hubo un corte notablemente discordante y abrupto que rompió el flujo por completo.

¿Control preciso? Necesita más trabajo

La edición y el refinamiento fueron otras funciones que Google puso en el centro de su presentación oficial.

Así que fuimos directos al grano: tomamos un video generado por IA de alguien viendo béisbol que se había vuelto viral en las redes sociales coreanas, le enviamos a Omni una imagen de un personaje estilo anime (extraída de los propios materiales de demostración de Google) y le pedimos que reemplazara a la persona del video original por el personaje de la imagen.

¿El resultado? Decepcionante, siendo generosos.

El personaje de reemplazo mantuvo aproximadamente la misma posición que el original, pero las expresiones sutiles —el mordisco al labio, la mirada evasiva, la pequeña sonrisa al notar la cámara— se perdieron casi por completo en la traducción.

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

Esta lucha con los detalles finos no fue un caso aislado.

Le pedimos a Omni que generara un video de un hombre de mediana edad de pie en una habitación poco iluminada, hablando en voz baja a su reflejo en un espejo: "Sé que fuiste tú. Deja de fingir".

El resultado inicial fue bastante decente; aparte de un acento chino ligeramente extraño, la sincronización labial coincidió con bastante precisión con cada palabra. Si transmitía una emoción genuinamente humana es cuestión de interpretación personal.

Pero cuando intentamos cambiar el diálogo del hombre, los circuitos de Omni parecieron cortocircuitarse por completo.

El prompt: un hombre de mediana edad en una habitación poco iluminada, diciendo en voz baja a su espejo: "El 20 de mayo está aquí de nuevo, feliz aniversario".

Primero, no pudo captar el concepto de "cambiar el diálogo" en absoluto y simplemente puso la nueva frase como subtítulo en la parte inferior de la pantalla. Luego intentó un punto medio: diciendo la mitad de la frase original y la mitad de la nueva. Para el intento final, se había descarrilado por completo.

La iluminación se volvió un poco más brillante y la expresión cambió a una sonrisa, pero ahora teníamos a un hombre sonriendo cálidamente mientras decía "Sé que fuiste tú. Deja de fingir", con la misma música de fondo inquietante que antes. De alguna manera, fue más espeluznante que el original.

En resumen, cuando se trata de un control preciso, a Omni todavía le queda un largo camino por recorrer.

Una API unificada para la generación de video de producción

Mientras Google despliega Gemini Omni Flash dentro de la aplicación Gemini y Google Flow para usuarios finales, los desarrolladores y equipos de producto que desean integrar el mismo motor de video multimodal en sus propios flujos de trabajo necesitan una capa de API estable y predecible.

Atlas Cloud ofrece Gemini Omni Flash a través de una API unificada y compatible con OpenAI, junto con más de 300 modelos de imagen, video y LLM, para que puedas integrar el modelo multimodal nativo de Google sin tener que gestionar cuentas, portales de facturación o SDKs por separado.

Ambas variantes de Gemini Omni Flash están disponibles en Atlas Cloud:

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


Variante	Ideal para	Entradas	Resolución	Duración	Precio inicial
Gemini Omni Flash Text-to-Video (Desarrollador)	Generación cinemática pura por prompt	Texto (hasta 20,000 caracteres)	720p / 1080p / 4K	4, 6, 8, 10 s	USD0.2 + USD0.1/seg
Gemini Omni Flash Image-to-Video (Desarrollador)	Video consistente con referencias reales	Texto + hasta 7 imágenes de referencia	720p / 1080p / 4K	4, 6, 8, 10 s	USD0.2 + USD0.1/seg

Inicio rápido: Genera un video de Gemini Omni Flash en 5 líneas:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

La API devuelve un ID de predicción de inmediato; puedes consultar el estado en /api/v1/model/prediction/{id} para obtener la URL del MP4 renderizado. El esquema completo, ejemplos de código en 7 lenguajes y un Playground sin código están disponibles en las páginas de los modelos enlazadas arriba.

Conocimiento mundial: Sólido en física e historia, pero aún con errores

Por último, probamos el conocimiento mundial y el razonamiento.

La afirmación oficial de Google es que Omni, construido sobre el modelo insignia Gemini, ha mejorado significativamente su comprensión de las leyes físicas como la gravedad, la energía cinética y la dinámica de fluidos, así como de la historia mundial, la ciencia y las matemáticas.

Fuimos directos al grano con este prompt: genera una canica rodando rápidamente a lo largo de una pista de reacción en cadena.

El resultado fue genuinamente impresionante. Omni diseñó por sí mismo un curso de reacción en cadena bastante complejo, incorporando gravedad, elasticidad, fuerza centrífuga y más, todo lo cual parecía convincentemente realista.

Dicho esto, apareció un error hacia la segunda mitad: de la nada, una canica se dividió inexplicablemente en dos.

Probamos otra: una bola rodando de un lado a otro a lo largo de la pared interior de una pista en forma de U, deteniéndose finalmente en el punto más bajo.

Esta se sintió un poco rara.

La bola rodó de un lado a otro por la pista en forma de U y se detuvo en el fondo como se pidió, pero todo parecía estar ocurriendo en un lugar que no era la Tierra. La bola se movía con una cualidad extrañamente ingrávida y flotante, y por momentos parecía atravesar ligeramente la geometría de la pista.

Finalmente, lanzamos un prompt más: corto, contundente y con una referencia cultural muy específicamente china: generar un video del Emperador Taizong de Tang y su hermano mayor enfrentándose en la Puerta Xuanwu.

Bueno, los caracteres chinos para "Puerta Xuanwu" en el fondo estaban un poco distorsionados, y ambas figuras de la dinastía Tang hablaban mandarín con un acento ligeramente extranjero. Pero Omni sí captó la referencia histórica y ofreció una confrontación adecuadamente tensa y con espadas desenvainadas entre Li Shimin y Li Yuanji.

Al menos en historia mundial, Omni parece haber hecho sus deberes.

Reflexiones finales: Esperando a Seedance 2.1

El entusiasmo por Omni se había estado construyendo mucho antes del anuncio de hoy.

Todo comenzó a principios de mayo, cuando un usuario detectó una pequeña línea de texto fácil de pasar por alto en la página de generación de video de Gemini: "Powered by Omni". Ese pequeño detalle desencadenó una ola de especulaciones en toda la comunidad tecnológica mundial.

Todo el mundo hacía la misma pregunta: ¿qué es exactamente Omni? ¿Es Veo 4, la próxima generación de Veo 3 del Google I/O 2025? ¿O es un modelo multimodal completamente nuevo? Es por eso que los informes iniciales seguían oscilando entre "Gemini Omni" y "Veo 4".

Luego, el 11 de mayo, un video de prueba interno filtrado de un "profesor deduciendo ecuaciones en una pizarra" se hizo viral en X, acumulando más de 2.4 millones de visitas en solo unos días.

En solo 10 segundos, el clip cortaba entre múltiples ángulos (la espalda del profesor, un perfil lateral, un primer plano de la tiza escribiendo ecuaciones), todo acompañado por el suave sonido de la tiza sobre la pizarra, con cada fórmula en la pizarra matemáticamente correcta. Las expectativas se dispararon.

Se decía en ese momento que Omni había interiorizado completamente el lenguaje cinematográfico y los instintos de edición (cortes multiángulo, música de fondo nativa incluida) y podía "producir un video terminado directamente desde el primer momento".

Pero ahora que Gemini Omni finalmente ha llegado después de tanta anticipación, la recepción ha sido decididamente mixta.

Parece que tendremos que seguir atentos a Seedance 2.1, cuando sea que decida aparecer.

VOLVER A LA LISTA

Pruebas prácticas con Google Gemini Omni: todavía no está a la altura

Consistencia en las pruebas de Gemini Omni: Se mantiene en gran medida

¿Control preciso? Necesita más trabajo

Una API unificada para la generación de video de producción

Ambas variantes de Gemini Omni Flash están disponibles en Atlas Cloud:

Inicio rápido: Genera un video de Gemini Omni Flash en 5 líneas:

Conocimiento mundial: Sólido en física e historia, pero aún con errores

Modelos recientes

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

Una sola API para toda la IA multimedia.

Join our Discord community