alibaba/wan-2.6/text-to-video

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

TEXT-TO-VIDEOHOTNEW
text-to-video

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Text-to-Video Model

Alibaba WAN 2.6 is an advanced text-to-video model provided by Alibaba Cloud's DashScope platform. This model generates high-quality 480p/720p/1080p videos from text prompts.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
480p$0.2$0.4
720p$0.4$0.8
1080p$0.6$1.2

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

Specifications in Depth

Overview:

Model Provider:QWEN
Model Type:text-to-video
Deployment:Inferencing API; Playground
Pricing:$0.0700/second

Key Specs:

Size Cap:up to width × height (user-configurable)
LoRA Support:No
Seed Options:N/A

Create Your Next Masterpiece

🎬GENERAZIONE VIDEO MULTI-INQUADRATURE

Wan 2.6Creazione Video AI Multi-Inquadrature Professionale

L'ultimo progresso di Alibaba nella generazione video con IA. Crea video 1080p fino a 15 secondi con narrazione multi-inquadrature, coerenza dei personaggi guidata da riferimenti e sincronizzazione audiovisiva nativa. Il primo modello a comprendere veramente la logica dello storyboard per narrative cinematografiche.

Innovazioni Rivoluzionarie

Cosa rende Wan 2.6 il game-changer nella generazione video con IA

Narrazione Multi-Inquadrature

Primo modello a comprendere la logica dello storyboard. Genera automaticamente inquadrature sequenziali con transizioni coerenti, mantenendo l'aspetto del personaggio e la coerenza ambientale attraverso i cambi di scena—consentendo archi narrativi completi in un'unica generazione di 15 secondi.

Riferimento a Video (R2V)

Carica un video di riferimento di 2-30 secondi per estrarre e preservare l'aspetto del personaggio, i pattern di movimento e le caratteristiche vocali. Crea performance di personaggi coerenti su più video con precisione senza precedenti.

Rendering Testo Preciso

Capacità di rendering testo leader del settore per packaging prodotti, segnaletica e contenuti di brand. Genera testo chiaro e leggibile all'interno dei frame video—essenziale per applicazioni marketing e commerciali.

Capacità Principali

Durata Estesa di 15 Secondi

Genera fino a 15 secondi per video con struttura completa in "Tre Atti" (Esposizione → Azione → Risoluzione)

Qualità Professionale 1080p

Output nativo 1080p a 24fps con qualità cinematografica e stabilità visiva migliorata

Sincronizzazione Audio Nativa

Il dialogo corrisponde ai movimenti delle labbra, la musica di sottofondo si allinea al ritmo, gli effetti sonori si attivano perfettamente

Coerenza dei Personaggi

Mantieni aspetto, costumi e identità dei personaggi attraverso inquadrature e più video

Controllo Camera Cinematografico

Movimenti di camera professionali inclusi panoramiche, zoom, riprese di inseguimento e movimenti dolly

Rapporti di Aspetto Flessibili

16:9 (YouTube), 9:16 (Reels), 1:1 (Quadrato) - ottimizzato per le piattaforme senza ritaglio in post-produzione

Wan 2.6 vs Wan 2.5: Miglioramenti Principali

Scopri le novità nell'ultimo rilascio

Durata Video
Fino a 15 secondi
Wan 2.5: Massimo 10 secondi
Capacità Multi-Inquadrature
Comprende la logica dello storyboard
Wan 2.5: Singola inquadratura o morphing disordinato
Supporto Video di Riferimento
Modalità R2V con preservazione completa
Wan 2.5: Solo riferimento immagine
Coerenza dei Personaggi
Eccellente tra le inquadrature
Wan 2.5: Problemi di deriva dei personaggi
Stabilità del Movimento
Riduzione di jitter e artefatti
Wan 2.5: Deriva di frame occasionale
Comprensione dei Prompt
Scene complesse multi-personaggio
Wan 2.5: Generazione scene base

Tre Modalità di Generazione Specializzate

Scegli la modalità giusta per il tuo flusso di lavoro creativo

Testo a Video (T2V)

Più Popolare

Genera video completi da prompt testuali con segmentazione multi-inquadrature migliorata e gestione prompt perfezionata. Perfetto per storytelling ed esplorazione creativa.

  • Segmentazione automatica delle inquadrature da un singolo prompt
  • Comprensione dell'interazione multi-personaggio
  • Movimento della camera e spunti emotivi
  • Preservazione dei dettagli ambientali

Immagine a Video (I2V)

Migliorato

Trasforma immagini statiche in video in movimento con coerenza del movimento migliorata. Ideale per vetrine prodotti, animazione foto e storytelling visivo.

  • Rendering testo preciso per prodotti
  • Coerenza di stile tra i frame
  • Movimento naturale da immagini statiche
  • Ottimizzazione visiva guidata dalla narrativa

Riferimento a Video (R2V)

NUOVO

Carica un video di riferimento (2-30s) per preservare aspetto del personaggio, pattern di movimento e voce. La garanzia di coerenza più forte per contenuti guidati dai personaggi.

  • Preservazione completa dell'identità del personaggio
  • Estrazione caratteristiche vocali
  • Replicazione pattern di movimento
  • Scene di co-recitazione multi-personaggio

Perfetto Per

Marketing e Pubblicità

Demo prodotti con rendering testo, campagne di brand con coerenza personaggi e video promozionali

Creazione Contenuti

Video YouTube, reel social media, storytelling multi-inquadrature e flussi di lavoro editing video

E-commerce

Vetrine prodotti con testo preciso, video tutorial e ricreazione testimonianze clienti

Educazione e Formazione

Contenuti didattici, materiali di corso e narrative educative multi-scena

Intrattenimento

Cortometraggi, storie guidate dai personaggi, sequenze cinematografiche ed esperimenti creativi

Pre-visualizzazione

Sviluppo concetti cinematografici, creazione storyboard e pianificazione scene per produzioni

Integrazione API Wan 2.6 T2V, I2V e R2V

Suite API completa per generazione Testo a Video, Immagine a Video e Riferimento a Video

API Testo a Video (T2V API)

La nostra API Wan 2.6 T2V trasforma prompt testuali in video cinematografici multi-inquadrature con segmentazione automatica delle scene. Genera video professionali 1080p fino a 15 secondi con sincronizzazione audio nativa.

Storytelling multi-inquadrature da un singolo prompt
Durata di 15 secondi con struttura Tre Atti
Comprensione prompt migliorata per scene complesse
Rapporti di aspetto flessibili: 16:9, 9:16, 1:1

API Immagine a Video (I2V API)

La nostra API Wan 2.6 I2V dà vita alle immagini statiche con controllo del movimento preciso e rendering testo. Perfetto per video prodotti, animazione foto e creazione contenuti di brand.

Rendering testo preciso per prodotti e segnaletica
Coerenza di stile nei frame di animazione
Movimento naturale con coerenza migliorata
Output visivo ottimizzato per narrativa

API Riferimento a Video (R2V API)

La nostra API Wan 2.6 R2V preserva l'identità del personaggio da video di riferimento. Carica clip di 2-30 secondi per estrarre aspetto, voce e pattern di movimento per generazione personaggi coerente.

Preservazione aspetto e identità del personaggio
Estrazione e replicazione caratteristiche vocali
Analisi e riproduzione pattern di movimento
Supporto scene multi-personaggio
💡

Suite API Completa

Tutte e tre le modalità API Wan 2.6 (T2V API, I2V API, R2V API) supportano architettura RESTful con documentazione completa. Inizia con SDK per Python, Node.js e altro. Ogni endpoint include sincronizzazione audiovisiva nativa e diritti di uso commerciale completi.

Come Iniziare con Wan 2.6

Inizia a creare video professionali in pochi minuti con due percorsi semplici

Integrazione API

Per sviluppatori che costruiscono applicazioni

1

Registrati e Accedi

Crea il tuo account Atlas Cloud o accedi per accedere alla console

2

Aggiungi Metodo di Pagamento

Collega la tua carta di credito nella sezione Fatturazione per finanziare il tuo account

3

Genera Chiave API

Vai a Console → Chiavi API e crea la tua chiave di autenticazione

4

Inizia a Costruire

Usa gli endpoint API T2V, I2V o R2V per integrare Wan 2.6 nella tua applicazione

Esperienza Playground

Per test rapidi e sperimentazione

1

Registrati e Accedi

Crea il tuo account Atlas Cloud o accedi per accedere alla piattaforma

2

Aggiungi Metodo di Pagamento

Collega la tua carta di credito nella sezione Fatturazione per iniziare

3

Usa il Playground

Vai al playground Wan 2.6, scegli la modalità T2V/I2V/R2V e genera video istantaneamente

💡
Suggerimento Pro: Testa prima diverse modalità di generazione nel Playground per capire quale funziona meglio per il tuo caso d'uso, quindi integra l'API corrispondente per la scala di produzione.

Domande Frequenti

Cosa rende unica la capacità multi-inquadrature di Wan 2.6?

Wan 2.6 è il primo modello a comprendere veramente la logica dello storyboard. A differenza di Wan 2.5 che creava effetti di "morphing" disordinati, Wan 2.6 può segmentare automaticamente un singolo prompt in più inquadrature distinte con transizioni coerenti, mantenendo la coerenza dei personaggi attraverso i cambi di scena.

Come funziona Riferimento a Video (R2V)?

Carica un video di riferimento di 2-30 secondi, e Wan 2.6 estrae l'aspetto del personaggio, i pattern di movimento e le caratteristiche vocali. Puoi quindi generare nuovi video con lo stesso personaggio con identità coerente—ideale per creare serie di contenuti guidati dai personaggi.

Quali formati e durate video sono supportati?

Wan 2.6 genera video 1080p a 24fps con durate da 5 a 15 secondi. I rapporti di aspetto supportati includono 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) e 1:1 (formato quadrato), ottimizzati per ogni piattaforma senza richiedere ritaglio in post-produzione.

Wan 2.6 può renderizzare testo nei video?

Sì! Wan 2.6 dispone di rendering testo leader del settore per packaging prodotti, segnaletica e contenuti di brand. Il modello può generare testo chiaro e leggibile all'interno dei frame video—una caratteristica critica che Seedance e la maggior parte dei concorrenti non hanno.

Qual è la differenza tra le modalità T2V, I2V e R2V?

T2V (Testo a Video) genera da prompt testuali con capacità multi-inquadrature. I2V (Immagine a Video) anima immagini statiche con rendering testo preciso. R2V (Riferimento a Video) usa riferimenti video per preservare l'identità del personaggio tra le generazioni. Scegli in base al tuo tipo di input e alle esigenze di coerenza.

Ho diritti commerciali sui video generati?

Sì! Ogni creazione Wan 2.6 viene fornita con diritti di uso commerciale completi. I video sono pronti per la produzione per campagne marketing, deliverable clienti, contenuti di brand e applicazioni commerciali senza requisiti di licenza aggiuntivi.

Perché Usare Wan 2.6 su Atlas Cloud?

Sfrutta l'infrastruttura di livello enterprise per i tuoi flussi di lavoro professionali di generazione video

Infrastruttura Dedicata

Implementa la generazione multi-inquadrature e le capacità R2V di Wan 2.6 su infrastruttura specificamente ottimizzata per carichi di lavoro video AI impegnativi. Massime prestazioni per generazione 1080p di 15 secondi.

API Unificata per Tutti i Modelli

Accedi a Wan 2.6 (T2V, I2V, R2V) insieme a oltre 300 modelli AI (LLM, immagine, video, audio) tramite un'API unificata. Integrazione singola per tutte le tue esigenze di IA generativa con autenticazione coerente.

Prezzi Competitivi

Risparmia fino al 70% rispetto ad AWS con prezzi trasparenti pay-as-you-go. Nessun costo nascosto, nessun impegno—scala dal prototipo alla produzione senza svuotare il portafoglio.

Sicurezza Certificata SOC I & II

I tuoi video di riferimento e contenuti generati protetti con certificazioni SOC I & II e conformità HIPAA. Sicurezza di livello enterprise con trasmissione e archiviazione crittografate.

SLA Uptime 99,9%

Affidabilità di livello enterprise con garanzia di uptime 99,9%. La tua generazione video multi-inquadrature Wan 2.6 è sempre disponibile per campagne di produzione e flussi di lavoro di contenuti critici.

Integrazione Facile

Integrazione completa in pochi minuti con API REST e SDK multi-linguaggio (Python, Node.js, Go). Passa tra modalità T2V, I2V e R2V senza problemi con struttura endpoint unificata.

99.9%
Uptime
70%
Costo Inferiore vs AWS
300+
Modelli AI Generativi
24/7
Supporto Pro

Specifiche Tecniche

Architecture
Transformer Avanzato con Comprensione Multi-Modale
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 secondi (dipendente dalla modalità)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
Sincronizzazione nativa con lip-sync
Commercial Rights
Uso commerciale completo incluso

Sperimenta la Generazione Video Multi-Inquadrature Professionale

Unisciti a creatori di contenuti, marketer e cineasti in tutto il mondo che stanno rivoluzionando la produzione video con le capacità rivoluzionarie di storytelling multi-inquadrature e coerenza dei personaggi di Wan 2.6.

Inizia con Oltre 300 Modelli,

Solo su Atlas Cloud.