
Wan 2.6 Spicy Image-to-Video API by Atlas Cloud
AtlasCloud Wan 2.6 Spicy Image-to-Video turns a reference image into a short motion clip with expressive character movement and stable temporal detail.
Wan 2.6Creación profesional de video con IA multi-toma
El último avance de Alibaba en generación de video con IA. Crea videos de hasta 15 segundos en 1080p con narrativa multi-toma, consistencia de personajes guiada por referencias y sincronización audiovisual nativa. El primer modelo que realmente comprende la lógica del storyboard para narrativas cinematográficas.
Avances Revolucionarios
Lo que convierte a Wan 2.6 en un cambio radical para la generación de video con IA
Narración Multi-Toma
El primer modelo que comprende la lógica del storyboard. Genera automáticamente tomas secuenciales con transiciones fluidas, manteniendo la apariencia de los personajes y la consistencia del entorno a lo largo de los cambios de escena: permite arcos narrativos completos en una sola generación de 15 segundos.
Referencia a Video (R2V)
Sube un video de referencia de 2-30 segundos para extraer y preservar la apariencia del personaje, los patrones de movimiento y las características de voz. Crea interpretaciones de personajes coherentes en múltiples videos con una precisión sin precedentes.
Renderizado de Texto Preciso
Capacidades de renderizado de texto líderes en la industria para empaques de productos, señalización y contenido de marca. Genera texto claro y legible dentro de los fotogramas del video: algo esencial para aplicaciones de marketing y comerciales.
Capacidades Principales
Duración Extendida de 15 Segundos
Genera hasta 15 segundos por video con una estructura completa de «tres actos» (planteamiento → acción → desenlace)
Calidad Profesional 1080p
Salida nativa de 1080p a 24fps con calidad cinematográfica y estabilidad visual mejorada
Sincronización de Audio Nativa
Los diálogos coinciden con el movimiento de los labios, la música de fondo se ajusta al ritmo y los efectos de sonido se activan a la perfección
Consistencia de Personajes
Mantén la apariencia, el vestuario y la identidad de los personajes a lo largo de las tomas y en múltiples videos
Control de Cámara Cinematográfico
Movimientos de cámara profesionales, incluyendo paneos, zooms, tomas de seguimiento y travellings
Relaciones de Aspecto Flexibles
16:9 (YouTube), 9:16 (Reels), 1:1 (cuadrado): optimizado para cada plataforma, sin recorte en posproducción
Wan 2.6 vs Wan 2.5: Mejoras Principales
Descubre las novedades de la última versión
Tres Modos de Generación Especializados
Elige el modo adecuado para tu flujo de trabajo creativo
Texto a Video (T2V)
Más PopularGenera videos completos a partir de prompts de texto, con segmentación multi-toma mejorada y un manejo de prompts perfeccionado. Ideal para la narrativa y la exploración creativa.
- Segmentación automática de tomas a partir de un solo prompt
- Comprensión de la interacción entre múltiples personajes
- Movimiento de cámara y señales emocionales
- Preservación de los detalles del entorno
Imagen a Video (I2V)
MejoradoConvierte imágenes estáticas en videos en movimiento con una coherencia de movimiento mejorada. Ideal para mostrar productos, animar fotos y crear narrativas visuales.
- Renderizado de texto preciso para productos
- Consistencia de estilo entre fotogramas
- Movimiento natural a partir de imágenes estáticas
- Optimización visual guiada por la narrativa
Referencia a Video (R2V)
NUEVOSube un video de referencia (2-30 s) para preservar la apariencia del personaje, los patrones de movimiento y la voz. La garantía de consistencia más sólida para contenido protagonizado por personajes.
- Preservación completa de la identidad del personaje
- Extracción de características de voz
- Replicación de patrones de movimiento
- Escenas con interacción entre múltiples personajes
Perfecto Para
Marketing y Publicidad
Demostraciones de productos con renderizado de texto, campañas de marca con consistencia de personajes y videos promocionales
Creación de Contenido
Videos de YouTube, reels para redes sociales, narrativa multi-toma y flujos de trabajo de edición de video
Comercio Electrónico
Exhibiciones de productos con texto preciso, videos tutoriales y recreación de testimonios de clientes
Educación y Capacitación
Contenido didáctico, materiales de cursos y narrativas educativas con múltiples escenas
Entretenimiento
Cortometrajes, historias protagonizadas por personajes, secuencias cinematográficas y experimentos creativos
Previsualización
Desarrollo de conceptos cinematográficos, creación de storyboards y planificación de escenas para producciones
Integración API de Wan 2.6 T2V, I2V y R2V
Suite de API completa para generación de texto a video, imagen a video y referencia a video
API de Texto a Video (T2V API)
Nuestra API de Wan 2.6 T2V convierte prompts de texto en videos cinematográficos multi-toma con segmentación automática de escenas. Genera videos profesionales en 1080p de hasta 15 segundos con sincronización de audio nativa.
API de Imagen a Video (I2V API)
Nuestra API de Wan 2.6 I2V da vida a las imágenes estáticas con un control de movimiento preciso y renderizado de texto. Ideal para videos de productos, animación de fotos y creación de contenido de marca.
API de Referencia a Video (R2V API)
Nuestra API de Wan 2.6 R2V preserva la identidad del personaje a partir de videos de referencia. Sube clips de 2-30 segundos para extraer la apariencia, la voz y los patrones de movimiento, y lograr una generación de personajes coherente.
Suite Completa de API
Los tres modos de API de Wan 2.6 (T2V API, I2V API, R2V API) son compatibles con arquitectura RESTful y cuentan con documentación completa. Empieza rápido con SDKs para Python, Node.js y más. Cada endpoint incluye sincronización audiovisual nativa y plenos derechos de uso comercial.
Cómo Empezar con Wan 2.6
Empieza a crear videos profesionales en cuestión de minutos con dos rutas sencillas
Integración API
Para desarrolladores que crean aplicaciones
Regístrate e Inicia Sesión
Crea tu cuenta de Atlas Cloud o inicia sesión para acceder a la consola
Agrega Método de Pago
Vincula tu tarjeta de crédito en la sección de Facturación para recargar tu cuenta
Genera tu clave API
Ve a Consola → API Keys y crea tu clave de autenticación
Comienza a Construir
Usa los endpoints de API T2V, I2V o R2V para integrar Wan 2.6 en tu aplicación
Experiencia Playground
Para pruebas rápidas y experimentación
Regístrate e Inicia Sesión
Crea tu cuenta de Atlas Cloud o inicia sesión para acceder a la plataforma
Agrega Método de Pago
Vincula tu tarjeta de crédito en la sección de Facturación para comenzar
Usa el Playground
Ve al playground de Wan 2.6, elige el modo T2V/I2V/R2V y genera videos al instante
Preguntas Frecuentes
¿Qué hace única la capacidad multi-toma de Wan 2.6?
Wan 2.6 es el primer modelo que realmente comprende la lógica del storyboard. A diferencia de Wan 2.5, que generaba efectos de «transformación» caóticos, Wan 2.6 puede segmentar automáticamente un solo prompt en múltiples tomas diferenciadas con transiciones coherentes, manteniendo la consistencia de los personajes a lo largo de los cambios de escena.
¿Cómo funciona Referencia a Video (R2V)?
Sube un video de referencia de 2-30 segundos y Wan 2.6 extraerá la apariencia, los patrones de movimiento y las características de voz del personaje. Luego podrás generar nuevos videos protagonizados por el mismo personaje con una identidad coherente: ideal para crear series de contenido protagonizadas por personajes.
¿Qué formatos y duraciones de video se soportan?
Wan 2.6 genera videos en 1080p a 24fps con duraciones de 5 a 15 segundos. Las relaciones de aspecto compatibles incluyen 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) y 1:1 (formato cuadrado), optimizadas para cada plataforma sin necesidad de recorte en posproducción.
¿Puede Wan 2.6 renderizar texto en videos?
¡Sí! Wan 2.6 cuenta con un renderizado de texto líder en la industria para empaques de productos, señalización y contenido de marca. El modelo puede generar texto claro y legible dentro de los fotogramas del video: una función clave de la que carecen Seedance y la mayoría de los competidores.
¿Cuál es la diferencia entre modos T2V, I2V y R2V?
T2V (texto a video) genera a partir de prompts de texto con capacidad multi-toma. I2V (imagen a video) anima imágenes estáticas con renderizado de texto preciso. R2V (referencia a video) usa videos de referencia para preservar la identidad del personaje entre generaciones. Elige según tu tipo de entrada y tus necesidades de consistencia.
¿Tengo derechos comerciales sobre los videos generados?
¡Sí! Cada creación de Wan 2.6 incluye plenos derechos de uso comercial. Los videos están listos para producción y pueden usarse en campañas de marketing, entregables para clientes, contenido de marca y aplicaciones comerciales sin requisitos de licencia adicionales.
¿Por Qué Usar Wan 2.6 en Atlas Cloud?
Aprovecha una infraestructura de nivel empresarial para tus flujos de trabajo profesionales de generación de video
Infraestructura específicamente diseñada
Despliega la generación multi-toma y las capacidades R2V de Wan 2.6 sobre una infraestructura optimizada específicamente para cargas de trabajo de video con IA de alta exigencia. Máximo rendimiento para la generación de 15 segundos en 1080p.
API Unificada para Todos los Modelos
Accede a Wan 2.6 (T2V, I2V, R2V) junto con más de 300 modelos de IA (LLM, imagen, video, audio) a través de una única API unificada. Una sola integración para todas tus necesidades de IA generativa, con autenticación coherente.
Precios Competitivos
Ahorra hasta un 70 % frente a AWS con precios transparentes y de pago por uso. Sin tarifas ocultas ni compromisos: escala del prototipo a la producción sin disparar tus costos.
Seguridad Certificada SOC I & II
Tus videos de referencia y el contenido generado están protegidos con las certificaciones SOC I y II y el cumplimiento de HIPAA. Seguridad de nivel empresarial con transmisión y almacenamiento cifrados.
SLA de 99.9% de Tiempo de Actividad
Fiabilidad de nivel empresarial con una disponibilidad garantizada del 99,9 %. Tu generación de video multi-toma con Wan 2.6 está siempre disponible para campañas de producción y flujos de trabajo de contenido crítico.
Integración Fácil
Integración completa en cuestión de minutos con API REST y SDKs multilenguaje (Python, Node.js, Go). Cambia entre los modos T2V, I2V y R2V sin complicaciones gracias a una estructura de endpoints unificada.
Especificaciones Técnicas
Experimenta la Generación de Video Multi-Toma Profesional
Únete a creadores de contenido, profesionales del marketing y cineastas de todo el mundo que están revolucionando la producción de video con las innovadoras capacidades de narrativa multi-toma y consistencia de personajes de Wan 2.6.
Wan 2.6 Spicy Image-to-Video
Wan 2.6 Spicy Image-to-Video turns a first-frame image into a short motion clip with expressive character movement and stable temporal detail. This AtlasCloud variant uses a dedicated Wan 2.6 image-to-video LoRA deployment for a more stylized motion profile.
Highlights
- First-frame image-to-video: Use one starting image plus a text prompt to control movement and camera direction.
- 720p, 1080p, and SR output: Use native 720p/1080p, or choose 1080p-SR / 1440p-SR for FlashVSR super-resolution from a 720p source.
- Short-form generation: Supports 5s, 10s, and 15s clips.
- Optional audio control: Provide an audio URL to guide motion, or disable generated audio for silent output.
- Negative prompt support: Add optional constraints to reduce blur, distortion, or unwanted artifacts.
Parameters
| Parameter | Required | Description |
|---|---|---|
model | Yes | atlascloud/wan-2.6-spicy/image-to-video |
prompt | Yes | Text prompt describing the desired motion. |
image | Yes | First-frame image URL or Base64 image. |
audio | No | Audio URL to guide the generated motion. |
negative_prompt | No | Text describing what to avoid. |
resolution | Yes | 720p, 1080p, 1080p-sr, or 1440p-sr. SR modes render a 720p source and apply FlashVSR. |
duration | No | 5, 10, or 15 seconds. Defaults to 5. |
enable_prompt_expansion | No | Enable upstream prompt expansion. Defaults to false. |
shot_type | No | single or multi. Multi-shot mode requires prompt expansion. Defaults to single. |
generate_audio | No | Whether to include generated audio. Defaults to true; set false for silent output. |
seed | No | Random seed. -1 means random. |
How To Use
curl -X POST "https://api.atlascloud.ai/api/v1/model/generateVideo" \ -H "Authorization: Bearer $AIP_API_KEY" \ -H "Content-Type: application/json" \ --data-raw '{ "model": "atlascloud/wan-2.6-spicy/image-to-video", "prompt": "The woman turns toward the camera with a confident smile, hair moving naturally as the camera slowly pushes in.", "image": "https://static.atlascloud.ai/media/images/db548fe3bd5cafa4ef7e0141d69c8566.jpeg", "negative_prompt": "blurry, low quality, distorted hands, extra limbs", "duration": 5, "resolution": "720p", "generate_audio": true, "seed": -1 }'
Pricing
Pricing uses Wan 2.6 Image-to-Video native-resolution multipliers before account or environment discounts. SR tiers are priced at 80% of the equivalent native-resolution price.
| Resolution | Multiplier | 5s Base Price | 10s Base Price | 15s Base Price |
|---|---|---|---|---|
| 720p | 1.0x | $0.50 | $1.00 | $1.50 |
| 1080p | 1.5x | $0.75 | $1.50 | $2.25 |
| 1080p-sr | 1.2x | $0.60 | $1.20 | $1.80 |
| 1440p-sr | 2.1333x | $1.0667 | $2.1333 | $3.20 |
Formula:
sku_base * max(5, duration) * ( resolution == "1440p-sr" ? 2.1333 : (resolution == "1080p-sr" ? 1.2 : (resolution == "1080p" || resolution == "1080P" ? 1.5 : 1)) )
sku_base = $0.1000/s for 720p. The runtime then applies the model/account discount configured in that environment.
Notes
- This model is allowlist-enabled. Contact AtlasCloud if it is not visible or callable from your account.
- 480p is not exposed for this model.
- This endpoint uses the input image as the first frame of the generated video.
shot_type: "multi"requiresenable_prompt_expansion: true.- Native
720pand1080pcall the underlying deployment directly. SR modes first generate a 720p source, then upscale with FlashVSR. - Generation is asynchronous. Poll
/api/v1/model/prediction/{request_id}for the final video URL.


















