Kling Video O3 en Atlas Cloud: IA de vídeo omni multimodal (2026)

Kling Video O3 es la variante omni multimodal de Kuaishou de la familia de generación de vídeo Kling. Mientras que el estándar Kling 3.0 se centra en los flujos de trabajo de texto a vídeo e imagen a vídeo, Kling Video O3 amplía la paleta de entradas para incluir la transformación de vídeo a vídeo (V2V) y la generación de referencia a vídeo (Ref2V). Estas no son características incrementales: representan un paradigma creativo fundamentalmente diferente. En lugar de generar vídeo desde cero basado en descripciones de texto, V2V y Ref2V permiten a los creadores transformar imágenes existentes y utilizar materiales de referencia como anclas creativas.

Las implicaciones prácticas son significativas. Un vídeo de producto puede cambiar su estilo para adaptarse a la estética de una marca sin necesidad de volver a grabar. Las imágenes existentes pueden transformarse en estilos visuales completamente diferentes (de acción real a anime, del día a la noche, del verano al invierno), preservando al mismo tiempo el movimiento, el tiempo y la composición originales. Las imágenes de referencia pueden guiar la apariencia de los personajes, el diseño ambiental y la dirección artística en los vídeos generados. Kling Video O3 está disponible a través de la API de Atlas Cloud a 0,15 USD por segundo.

*Última actualización: 28 de febrero de 2026*

Mira Kling Video O3 en acción:

Kling Video O3 de un vistazo


Característica	Detalle
Desarrollador	Kuaishou
ID del modelo	`kwaivgi/kling-video-o3-pro/text-to-video`
Precio	0,15 USD/segundo
Resolución máx.	1080p a 4K
Duración máx.	Hasta 10 segundos
Modos de entrada	Texto a vídeo, Imagen a vídeo, Vídeo a vídeo (V2V), Referencia a vídeo (Ref2V)
Características clave	Transformación V2V, generación Ref2V, transferencia de estilo, entrada multimodal
Punto final de API	`/model/generateVideo` (asíncrono)

Lo que hace diferente a Kling Video O3

Transformación de vídeo a vídeo (V2V)

Vídeo a vídeo es la capacidad estrella. V2V toma un vídeo existente como entrada y lo transforma según las indicaciones de texto, preservando al mismo tiempo el movimiento, el tiempo y la composición espacial originales. Esto es fundamentalmente diferente a generar un vídeo nuevo desde cero: el vídeo de origen proporciona el esqueleto del movimiento y el modelo vuelve a renderizar el contenido visual.

Las aplicaciones prácticas de V2V incluyen:

Transferencia de estilo: Transformar imágenes de acción real en animación, pintura al óleo, estética cyberpunk, película vintage o cualquier otro estilo visual
Cambios de estación y hora: Convertir una escena callejera diurna a nocturna, del verano al invierno, de un clima despejado a lluvia
Transformación ambiental: Cambiar el entorno manteniendo el mismo movimiento de cámara y movimiento del sujeto
Rediseño de marca: Aplicar un lenguaje visual de marca coherente a diversas imágenes de origen
Reutilización de contenido: Transformar un único vídeo de origen en múltiples variantes visuales para diferentes plataformas o audiencias

La ventaja clave de V2V sobre texto a vídeo es el control. Al generar a partir de texto, el modelo decide sobre el movimiento, el tiempo, el movimiento de la cámara y la composición espacial. Con V2V, todo eso proviene del vídeo de origen. El creador conserva el control directivo sobre los fundamentos mientras el modelo maneja la transformación visual.

Generación de referencia a vídeo (Ref2V)

La generación de referencia a vídeo utiliza una o más imágenes de referencia para guiar las características visuales del vídeo generado. A diferencia de la simple imagen a vídeo (que anima una sola imagen), Ref2V utiliza el material de referencia como un ancla creativa (influyendo en el estilo, la apariencia de los personajes, la paleta de colores y el diseño ambiental) mientras genera un movimiento y una composición completamente nuevos.

Las aplicaciones prácticas de Ref2V incluyen:

Consistencia de personajes: Proporcionar una imagen de referencia de un personaje y generar múltiples vídeos con ese personaje en diferentes escenarios
Consistencia visual de marca: Utilizar imágenes de marca como referencia para garantizar que los vídeos generados coincidan con las directrices visuales establecidas
Visualización de conceptos: Utilizar arte conceptual o imágenes de mood board como referencia para guiar la generación de vídeo hacia una estética específica
Integración de productos: Hacer referencia a imágenes de productos para generar vídeos contextuales que representen el producto con precisión

Procesamiento de entrada multimodal

La designación "omni" de Kling Video O3 refleja su capacidad para procesar múltiples tipos de entrada simultáneamente. Una sola solicitud de generación puede combinar:

Indicaciones de texto que describan la salida deseada
Vídeo de origen para la transformación V2V
Imágenes de referencia para orientación de estilo y contenido

Este enfoque multimodal brinda a los creadores un nivel de especificación que los modelos solo de texto no pueden igualar. En lugar de intentar describir un estilo visual con palabras (lo cual es inherentemente impreciso), los creadores pueden mostrar al modelo exactamente lo que quieren a través de materiales de referencia.

Características clave en detalle

Transferencia de estilo

La transferencia de estilo es una de las aplicaciones más útiles e inmediatas de V2V. El proceso funciona alimentando el modelo con un vídeo de origen y una descripción de estilo (o una imagen de referencia de estilo), que luego vuelve a renderizar el vídeo en el estilo objetivo mientras preserva el movimiento y la composición.

Casos de uso comunes de transferencia de estilo:

De acción real a anime/dibujos animados: Los equipos de marketing pueden crear versiones animadas de vídeos de productos o testimonios
De fotorrealista a pictórico: Transformar imágenes en estilos de pintura al óleo, acuarela o ilustración para contenido editorial
De moderno a vintage: Aplicar grano de película, gradación de color y características estéticas de épocas cinematográficas específicas
De día a noche / cambios climáticos: Transformaciones ambientales que serían imposibles o costosas de volver a filmar

La calidad de la transferencia de estilo depende de la complejidad de las imágenes de origen y el estilo objetivo. Las escenas simples con sujetos claros se transfieren limpiamente. Las escenas complejas con muchos elementos, movimiento rápido o detalles intrincados pueden mostrar artefactos en los límites entre los elementos transformados.

Resolución y calidad

Kling Video O3 admite resoluciones desde 1080p hasta 4K, situándolo en el nivel superior de los modelos de generación de vídeo por calidad de salida. A 1080p, el modelo produce una salida lista para transmisión, adecuada para redes sociales, contenido web y distribución digital estándar. A 4K, la salida es viable para pantallas de gran tamaño, flujos de trabajo de producción que requieren material de origen de alta resolución y distribución de contenido premium.

La elección de la resolución afecta tanto el tiempo de generación como el coste. Un clip de 10 segundos a 1080p cuesta 1,50 USD (0,15 USD/segundo x 10 segundos). Una resolución más alta aumenta el tiempo de procesamiento proporcionalmente.

Duración y tiempo

Kling Video O3 admite la generación de vídeo de hasta 10 segundos. Si bien esto puede parecer breve en comparación con los 15 segundos de Seedance 2.0, las capacidades V2V y Ref2V cambian la ecuación. Una transformación V2V de 10 segundos de imágenes existentes suele ser más valiosa que una generación de texto a vídeo de 15 segundos, porque la calidad del movimiento y la composición se basan en imágenes reales en lugar de sintetizarse desde cero.

Para contenido más largo, se pueden generar y ensamblar varios clips de 10 segundos en la posproducción. Al usar V2V, los vídeos de origen más largos pueden procesarse en segmentos para mantener la coherencia.

Precios y análisis de costes

Precios por segundo


Duración	Coste
5 segundos	0,75 USD
8 segundos	1,20 USD
10 segundos	1,50 USD

Comparación con otros modelos de vídeo


Modelo	Precio/segundo	Duración máx.	Resolución máx.	Soporte V2V
Kling Video O3	0,15 USD/seg	10s	4K	Sí
Kling 3.0 Standard	0,126 USD/seg	10s	Ultra HD	No
Seedance 2.0	0,022 USD/seg	15s	HD	No
Sora 2	0,15 USD/seg	12s	HD	No
Veo 3.1	0,03 USD/seg	8s	Cinematográfico	No

Kling Video O3 tiene un precio superior en relación con los modelos estándar de texto a vídeo, lo que refleja sus capacidades ampliadas. Las características V2V y Ref2V ofrecen un valor que los modelos de texto a vídeo simplemente no pueden replicar. Para los equipos que necesitan transformación de vídeo, transferencia de estilo o generación guiada por referencia, el precio de 0,15 USD/segundo incluye capacidades que, de otro modo, requerirían múltiples herramientas o trabajo de posproducción manual.

Coste a escala

10 clips/semana (10s cada uno): 15 USD/semana, 60 USD/mes
50 clips/semana (mixtos de 5-10s): 56 USD/semana, 225 USD/mes
Pipeline de producción (200 clips/mes, 8s de media): 240 USD/mes

Para los equipos que comparan el coste de la transformación de vídeo por IA frente a la producción de vídeo tradicional o la posproducción manual, la economía es muy favorable. Una sola hora de edición de vídeo profesional para lograr un efecto de transferencia de estilo cuesta entre 50 y 200 USD. Kling Video O3 logra un resultado comparable por 0,75-1,50 USD por clip.

Cómo utilizar Kling Video O3 a través de la API de Atlas Cloud

Paso 1: Obtén tu clave API

Regístrate en Atlas Cloud y crea una clave API desde la consola.

Paso 2: Generación de texto a vídeo

plaintext
1```python
2import requests
3import time
4
5API_KEY = "tu-clave-api-de-atlas-cloud"
6BASE_URL = "https://api.atlascloud.ai/api/v1"
7HEADERS = {
8    "Authorization": f"Bearer {API_KEY}",
9    "Content-Type": "application/json"
10}
11
12# Generar vídeo con Kling Video O3
13response = requests.post(
14    f"{BASE_URL}/model/generateVideo",
15    headers=HEADERS,
16    json={
17        "model": "kwaivgi/kling-video-o3-pro/text-to-video",
18        "prompt": "Un artista de cerámica moldeando un jarrón en un torno de alfarero, primer plano de manos cubiertas de arcilla húmeda, iluminación cálida de estudio, poca profundidad de campo, estilo documental",
19        "duration": 10,
20        "resolution": "1080p"
21    }
22)
23
24result = response.json()
25request_id = result["request_id"]
26
27# Consultar resultados
28while True:
29    status = requests.get(
30        f"{BASE_URL}/model/prediction/{request_id}/get",
31        headers={"Authorization": f"Bearer {API_KEY}"}
32    ).json()
33
34    if status["status"] == "completed":
35        print(f"URL del vídeo: {status['output']['video_url']}")
36        break
37    elif status["status"] == "failed":
38        print(f"La generación falló: {status.get('error', 'Error desconocido')}")
39        break
40
41    time.sleep(5)
42```

Paso 3: Transformación de vídeo a vídeo (V2V)

plaintext
1```python
2# Transformar vídeo existente con transferencia de estilo
3response = requests.post(
4    f"{BASE_URL}/model/generateVideo",
5    headers=HEADERS,
6    json={
7        "model": "kwaivgi/kling-video-o3-pro/text-to-video",
8        "prompt": "Transformar a estilo anime de Studio Ghibli, colores vibrantes, estética dibujada a mano, fondos de acuarela suaves, atmósfera caprichosa",
9        "video_url": "https://example.com/your-source-video.mp4",
10        "duration": 10,
11        "resolution": "1080p"
12    }
13)
14
15result = response.json()
16request_id = result["request_id"]
17
18# Consultar resultados
19while True:
20    status = requests.get(
21        f"{BASE_URL}/model/prediction/{request_id}/get",
22        headers={"Authorization": f"Bearer {API_KEY}"}
23    ).json()
24
25    if status["status"] == "completed":
26        print(f"Vídeo transformado: {status['output']['video_url']}")
27        break
28    elif status["status"] == "failed":
29        print(f"La transformación falló: {status.get('error', 'Error desconocido')}")
30        break
31
32    time.sleep(5)
33```

Paso 4: Generación de referencia a vídeo (Ref2V)

plaintext
1```python
2# Generar vídeo guiado por imágenes de referencia
3response = requests.post(
4    f"{BASE_URL}/model/generateVideo",
5    headers=HEADERS,
6    json={
7        "model": "kwaivgi/kling-video-o3-pro/text-to-video",
8        "prompt": "Una mujer caminando por una ciudad futurista de noche, luces de neón reflejándose en calles mojadas, atmósfera cinematográfica, toma de seguimiento lenta",
9        "image_url": "https://example.com/character-reference.jpg",
10        "duration": 10,
11        "resolution": "1080p"
12    }
13)
14
15result = response.json()
16request_id = result["request_id"]
17
18# Consultar resultados
19while True:
20    status = requests.get(
21        f"{BASE_URL}/model/prediction/{request_id}/get",
22        headers={"Authorization": f"Bearer {API_KEY}"}
23    ).json()
24
25    if status["status"] == "completed":
26        print(f"Vídeo Ref2V: {status['output']['video_url']}")
27        break
28    elif status["status"] == "failed":
29        print(f"La generación falló: {status.get('error', 'Error desconocido')}")
30        break
31
32    time.sleep(5)
33```

Paso 5: Pipeline de transferencia de estilo por lotes

plaintext
1```python
2# Procesar múltiples vídeos con la misma transformación de estilo
3source_videos = [
4    "https://example.com/product-demo-1.mp4",
5    "https://example.com/product-demo-2.mp4",
6    "https://example.com/product-demo-3.mp4"
7]
8
9style_prompt = "Transformar a estilo cinematográfico con gradación de color azul y naranja, destello de lente anamórfico, poca profundidad de campo, aspecto comercial premium"
10
11request_ids = []
12
13# Enviar todas las transformaciones
14for video_url in source_videos:
15    response = requests.post(
16        f"{BASE_URL}/model/generateVideo",
17        headers=HEADERS,
18        json={
19            "model": "kwaivgi/kling-video-o3-pro/text-to-video",
20            "prompt": style_prompt,
21            "video_url": video_url,
22            "duration": 10,
23            "resolution": "1080p"
24        }
25    )
26    result = response.json()
27    request_ids.append(result["request_id"])
28    print(f"Enviado: {video_url}")
29
30# Consultar todos los resultados
31for i, request_id in enumerate(request_ids):
32    while True:
33        status = requests.get(
34            f"{BASE_URL}/model/prediction/{request_id}/get",
35            headers={"Authorization": f"Bearer {API_KEY}"}
36        ).json()
37
38        if status["status"] == "completed":
39            print(f"Vídeo {i+1} completado: {status['output']['video_url']}")
40            break
41        elif status["status"] == "failed":
42            print(f"Vídeo {i+1} falló: {status.get('error', 'Error desconocido')}")
43            break
44
45        time.sleep(5)
46```

Casos de uso prácticos

Rediseño de contenido de marca

Los equipos de marketing a menudo necesitan adaptar el contenido de vídeo existente para diferentes campañas, estaciones o renovaciones de marca. Los enfoques tradicionales requieren volver a grabar o una extensa posproducción. Con la capacidad V2V de Kling Video O3, un solo vídeo de origen puede transformarse en múltiples variantes visuales:

Versiones navideñas con estilo festivo/de invierno
Gradación de color y tratamientos visuales específicos de la campaña
Adaptaciones estéticas específicas de la plataforma (LinkedIn profesional frente a TikTok creativo)
Adaptaciones de mercado regional con estilos visuales culturalmente apropiados

Variaciones de vídeos de productos

Los equipos de comercio electrónico pueden tomar un solo vídeo de producto y crear múltiples tratamientos visuales:

Diferentes entornos de fondo (estudio, al aire libre, entornos de estilo de vida)
Variaciones estacionales (frescura de primavera, vitalidad de verano, calidez de otoño, elegancia de invierno)
Estilos artísticos para diferentes canales de marketing
Variaciones de estado de ánimo (enérgico, tranquilo, lujoso, divertido)

Flujos de trabajo de creadores de contenido

Los creadores independientes y los pequeños estudios pueden aprovechar V2V para destacar en calidad de producción:

Transformar metraje de smartphone en contenido de aspecto cinematográfico
Aplicar estilos visuales coherentes en una serie de contenido sin costosas herramientas de gradación de color
Crear versiones animadas o estilizadas de contenido de acción real para mayor variedad
Experimentar con la estética visual de forma rápida y económica antes de comprometerse con un enfoque de producción

Publicidad y redes sociales

Los equipos de publicidad pueden usar Ref2V para mantener la coherencia de los personajes y la marca en múltiples variantes de anuncios mientras prueban diferentes escenarios, entornos y narrativas. La imagen de referencia ancla la identidad visual mientras que el indicador de texto controla la dirección creativa de cada variante.

Previsualización de cine y animación

Los cineastas y animadores pueden usar V2V para visualizar rápidamente cómo se verían las imágenes existentes con diferentes tratamientos visuales. Esto es valioso durante la planificación de la preproducción y la posproducción, lo que permite a los directores explorar opciones creativas antes de comprometerse con costosos procesos de posproducción.

Kling Video O3 frente a Kling 3.0 Standard


Característica	Kling Video O3	Kling 3.0 Standard
Precio	0,15 USD/seg	0,126 USD/seg
Texto a vídeo	Sí	Sí
Imagen a vídeo	Sí	Sí
Vídeo a vídeo	Sí	No
Referencia a vídeo	Sí	No
Transferencia de estilo	Sí	No
Resolución máx.	4K	Ultra HD
Duración máx.	10s	10s
Ideal para	Transformación, rediseño	Generación original

La elección entre Kling Video O3 y Kling 3.0 Standard depende del flujo de trabajo. Si la necesidad principal es generar vídeos nuevos a partir de texto o imágenes, Kling 3.0 Standard ofrece una gran calidad a un precio menor. Si el flujo de trabajo implica transformar imágenes existentes, mantener la coherencia visual con materiales de referencia o aplicar transferencias de estilo, las capacidades ampliadas de Kling Video O3 justifican el precio superior.

Kling Video O3 frente a otros modelos de vídeo

frente a Seedance 2.0

Seedance 2.0 (0,022 USD/seg) es significativamente más barato y admite duraciones más largas (15s), pero no ofrece verdadera transformación V2V o transferencia de estilo. La fuerza de Seedance 2.0 radica en su entrada de referencia multimodal (hasta 12 archivos) para la generación original. Los equipos que necesitan V2V deben usar Kling Video O3; los equipos que necesitan una generación original rentable deben usar Seedance 2.0.

frente a Sora 2

Sora 2 (0,15 USD/seg) iguala el precio de Kling Video O3 y ofrece una simulación física superior, pero carece de capacidades V2V. Para texto a vídeo con interacciones físicas realistas, Sora 2 es la opción más sólida. Para la transformación de vídeo y la transferencia de estilo, Kling Video O3 es el claro ganador.

frente a Veo 3.1

Veo 3.1 (0,03 USD/seg) destaca por su pulido cinematográfico y su salida de calidad cinematográfica a un precio menor, pero se centra en la generación original en lugar de la transformación. Para texto a vídeo cinematográfico, Veo 3.1 ofrece mejor valor. Para flujos de trabajo V2V y Ref2V, Kling Video O3 es la única opción entre los cuatro.

Consejos de prompt para Kling Video O3

Prompts de texto a vídeo

Sigue los mismos principios que la generación de vídeo estándar: sé específico sobre el movimiento de la cámara, la iluminación, la acción del sujeto y el estado de ánimo:

plaintext
1```
2Toma de dolly lenta a través de un jardín zen japonés al amanecer,
3niebla matutina que se eleva desde un estanque de koi, pétalos de cerezo
4que caen suavemente, pájaros cantando de fondo,
5atmósfera pacífica y meditativa
6```

Prompts de transferencia de estilo V2V

Al usar V2V, el prompt debe describir el estilo objetivo, no el contenido (el contenido proviene del vídeo de origen):

plaintext
1```
2Transformar a estilo anime cyberpunk con iluminación de neón,
3superficies mojadas por la lluvia, anuncios holográficos,
4alto contraste con sombras profundas y reflejos vívidos
5```

plaintext
1```
2Convertir a estética de película Super 8 vintage de los años 70, dominante de color cálido,
3grano de película, ligero viñeteado, atmósfera nostálgica,
4colores desvanecidos con énfasis en tonos naranja y azul
5```

Prompts Ref2V

Al usar imágenes de referencia, el prompt debe describir la acción y el escenario deseados, mientras que la imagen de referencia maneja el estilo visual:

plaintext
1```
2El personaje camina con confianza por un mercado bullicioso,
3examinando artesanías hechas a mano en varios puestos,
4toma de seguimiento dinámica, luz cálida de la tarde
5```

Consejos para obtener los mejores resultados

La calidad de la fuente V2V importa: El vídeo de origen de mayor calidad produce mejores transformaciones. Las imágenes limpias y bien iluminadas con un movimiento de cámara estable se transforman de forma más fiable que el material de origen tembloroso y de baja resolución.
Las descripciones de estilo deben ser específicas: "Estilo anime" es demasiado vago. "Estilo anime de acuarela de Studio Ghibli con bordes suaves, colores pastel y texturas dibujadas a mano" es mucho más eficaz.
Mantén el movimiento V2V simple: Los vídeos de origen con movimiento moderado y predecible se transforman mejor que las imágenes con movimientos rápidos y complejos. Los movimientos suaves de cámara y el movimiento deliberado del sujeto producen los resultados más limpios.
Utiliza imágenes de referencia de alta calidad: Para Ref2V, las imágenes de referencia deben ser claras, estar bien compuestas y ser representativas del estilo visual deseado. Varias imágenes de referencia con la misma estética producen resultados más coherentes.
Ajusta la duración al contenido: No todos los clips necesitan ser de 10 segundos. Las duraciones más cortas (5-8 segundos) a menudo producen mayor calidad por fotograma y cuestan menos.

¿Quién debería usar Kling Video O3?

Elige Kling Video O3 si necesitas:

Transformación de vídeo a vídeo (V2V) para rediseñar, volver a colorear o transformar visualmente el metraje existente mientras preservas el movimiento y la composición originales
Generación de vídeo basada en referencias (Ref2V) para mantener la coherencia de los personajes, la identidad visual de la marca o la dirección de arte conceptual en múltiples clips
Capacidades de transferencia de estilo: convertir acción real en anime, cambiar del día a la noche o aplicar tratamientos visuales específicos de la marca a las imágenes de origen

Considera alternativas si necesitas:

Generación de vídeo económica: Seedance 2.0 (0,022 USD/seg) o Veo 3.1 (0,03 USD/seg) son significativamente más baratos para flujos de trabajo de texto a vídeo estándar
Texto a vídeo simple sin características de transformación: Kling 3.0 Standard (0,126 USD/seg) ofrece una gran generación original a un precio más bajo
Generación de audio nativa: Veo 3.1 o Kling 3.0 Standard incluyen audio sincronizado, que Kling Video O3 no enfatiza

Preguntas frecuentes

¿Cuál es la diferencia entre V2V y I2V?

La imagen a vídeo (I2V) anima una sola imagen estática, creando movimiento a partir de un fotograma fijo. El vídeo a vídeo (V2V) transforma un vídeo completo, renderizando el contenido visual mientras preserva el movimiento, el tiempo y la composición originales. V2V es fundamentalmente una herramienta de transformación; I2V es una herramienta de generación.

¿Qué formatos de vídeo son compatibles con la entrada V2V?

Los formatos de vídeo estándar, incluido MP4, son compatibles con la entrada V2V. Los vídeos de origen deben ser accesibles a través de una URL para las presentaciones de API. Para obtener los mejores resultados, los vídeos de origen deben ser limpios, estar bien iluminados y tener un movimiento estable.

¿Puedo usar V2V para contenido comercial?

Los derechos de uso comercial siguen las mismas políticas que la generación de vídeo estándar de Kling. Atlas Cloud no impone restricciones adicionales más allá de los términos del proveedor del modelo. Asegúrate de que los derechos de tu vídeo de origen permitan obras derivadas si el origen no es tu propio metraje original.

¿Cómo maneja Kling Video O3 las transformaciones V2V complejas?

El modelo funciona mejor con transformaciones de complejidad moderada: cambios de estilo, ajustes ambientales y cambios estéticos. Las transformaciones extremadamente dramáticas (por ejemplo, convertir una cabeza parlante en un personaje completamente diferente) pueden producir resultados inconsistentes. Cuanto más cerca esté el estilo objetivo de un lenguaje visual coherente, mejor será la salida.

¿Está disponible la salida 4K para todos los tipos de generación?

La resolución 4K es compatible con los modos de generación de texto a vídeo, imagen a vídeo, V2V y Ref2V. Una mayor resolución aumenta el tiempo y el coste de procesamiento proporcionalmente.

¿Puedo combinar V2V y Ref2V en una sola solicitud?

Kling Video O3 admite la entrada multimodal, lo que significa que puedes proporcionar un vídeo de origen, imágenes de referencia y prompts de texto en una sola solicitud. Esto permite transformaciones altamente controladas donde el vídeo de origen proporciona movimiento, las imágenes de referencia proporcionan orientación de estilo visual y el prompt de texto proporciona dirección creativa adicional.

Veredicto

Kling Video O3 ya está disponible en Atlas Cloud. Sus capacidades V2V y Ref2V lo hacen especialmente adecuado para flujos de trabajo de transformación de vídeo que ningún otro modelo de su clase admite actualmente.

Página de modelos de Atlas Cloud: Explora las capacidades de Kling Video O3 de forma interactiva
Acceso a la API: Regístrate y obtén tu clave API para comenzar a transformar vídeo con IA

────────────────────────────────────────────────────────────