
Wan 2.6 Text-to-Video API by Alibaba
A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.
Wan 2.6प्रोफेशनल मल्टी-शॉट AI वीडियो क्रिएशन
AI वीडियो जनरेशन में Alibaba की नवीनतम सफलता। मल्टी-शॉट स्टोरीटेलिंग, रेफरेंस-ड्रिवेन कैरेक्टर कंसिस्टेंसी और नेटिव ऑडियो-विजुअल सिंक्रोनाइज़ेशन के साथ 15 सेकंड तक के 1080p वीडियो बनाएं। सिनेमैटिक नैरेटिव के लिए स्टोरीबोर्ड लॉजिक को सच्चे अर्थ में समझने वाला पहला मॉडल।
क्रांतिकारी सफलताएं
क्या Wan 2.6 को AI वीडियो जनरेशन में गेम-चेंजर बनाता है
मल्टी-शॉट स्टोरीटेलिंग
स्टोरीबोर्ड लॉजिक को समझने वाला पहला मॉडल। स्वचालित रूप से सुसंगत ट्रांज़िशन के साथ सीक्वेंशियल शॉट्स जनरेट करता है, सीन चेंजेज़ में कैरेक्टर अपीयरेंस और एनवायरनमेंट कंसिस्टेंसी बनाए रखता है—एक सिंगल 15-सेकंड जनरेशन में कम्पलीट स्टोरी आर्क्स को सक्षम बनाता है।
रेफरेंस-टू-वीडियो (R2V)
कैरेक्टर अपीयरेंस, मूवमेंट पैटर्न और वॉइस कैरेक्टरिस्टिक्स को एक्सट्रैक्ट और प्रिज़र्व करने के लिए 2-30 सेकंड का रेफरेंस वीडियो अपलोड करें। अभूतपूर्व सटीकता के साथ मल्टिपल वीडियो में कंसिस्टेंट कैरेक्टर परफॉर्मेंस बनाएं।
सटीक टेक्स्ट रेंडरिंग
प्रोडक्ट पैकेजिंग, साइनेज और ब्रांडेड कंटेंट के लिए इंडस्ट्री-लीडिंग टेक्स्ट रेंडरिंग क्षमताएं। वीडियो फ्रेम्स के भीतर क्लियर, रीडेबल टेक्स्ट जनरेट करें—मार्केटिंग और कमर्शियल एप्लिकेशन के लिए आवश्यक।
कोर कैपेबिलिटीज़
एक्सटेंडेड 15-सेकंड अवधि
हर वीडियो में संपूर्ण "थ्री-एक्ट" संरचना के साथ 15 सेकंड तक जनरेट करें (सेटअप → एक्शन → समाधान)
प्रोफेशनल 1080p क्वालिटी
सिनेमैटिक क्वालिटी और एन्हांस्ड विजुअल स्टेबिलिटी के साथ 24fps पर नेटिव 1080p आउटपुट
नेटिव ऑडियो सिंक
संवाद होंठों की हरकत से मेल खाते हैं, बैकग्राउंड म्यूज़िक गति के साथ तालमेल बिठाता है, और साउंड इफेक्ट बिल्कुल सही समय पर ट्रिगर होते हैं
कैरेक्टर कंसिस्टेंसी
शॉट्स और मल्टिपल वीडियो में कैरेक्टर अपीयरेंस, कॉस्ट्यूम्स और आइडेंटिटी को मेंटेन करें
सिनेमैटिक कैमरा कंट्रोल
पैन, ज़ूम, ट्रैकिंग शॉट और डॉली शॉट सहित प्रोफेशनल कैमरा मूवमेंट
फ्लेक्सिबल आस्पेक्ट रेशियो
16:9 (YouTube), 9:16 (Reels), 1:1 (स्क्वायर) - हर प्लेटफॉर्म के लिए ऑप्टिमाइज़्ड, बिना किसी पोस्ट-प्रोडक्शन क्रॉपिंग के
Wan 2.6 vs Wan 2.5: मेजर इम्प्रूवमेंट्स
नवीनतम रिलीज़ में नया क्या है देखें
तीन स्पेशलाइज़्ड जनरेशन मोड्स
अपने क्रिएटिव वर्कफ्लो के लिए सही मोड चुनें
टेक्स्ट-टू-वीडियो (T2V)
सबसे लोकप्रियएन्हांस्ड मल्टी-शॉट सेगमेंटेशन और इम्प्रूव्ड प्रॉम्प्ट हैंडलिंग के साथ टेक्स्ट प्रॉम्प्ट्स से कम्पलीट वीडियो जनरेट करें। स्टोरीटेलिंग और क्रिएटिव एक्सप्लोरेशन के लिए परफेक्ट।
- सिंगल प्रॉम्प्ट से ऑटोमैटिक शॉट सेगमेंटेशन
- मल्टी-कैरेक्टर इंटरैक्शन अंडरस्टैंडिंग
- कैमरा मूवमेंट और इमोशनल क्यूज़
- एनवायरनमेंटल डिटेल प्रिज़र्वेशन
इमेज-टू-वीडियो (I2V)
एन्हांस्डइम्प्रूव्ड मोशन कोहेरेंस के साथ स्टिल इमेजेज़ को मोशन वीडियो में ट्रांसफॉर्म करें। प्रोडक्ट शोकेसेज़, फोटो एनिमेशन और विजुअल स्टोरीटेलिंग के लिए आदर्श।
- प्रोडक्ट्स के लिए प्रिसाइज़ टेक्स्ट रेंडरिंग
- फ्रेम्स में स्टाइल कंसिस्टेंसी
- स्टैटिक इमेजेज़ से नेचुरल मोशन
- नैरेटिव-ड्रिवेन विजुअल ऑप्टिमाइज़ेशन
रेफरेंस-टू-वीडियो (R2V)
नयाकैरेक्टर अपीयरेंस, मूवमेंट पैटर्न्स और वॉइस को प्रिज़र्व करने के लिए रेफरेंस वीडियो (2-30s) अपलोड करें। कैरेक्टर-ड्रिवेन कंटेंट के लिए स्ट्रॉन्गेस्ट कंसिस्टेंसी गारंटी।
- फुल कैरेक्टर आइडेंटिटी प्रिज़र्वेशन
- वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्शन
- मूवमेंट पैटर्न रेप्लिकेशन
- मल्टी-कैरेक्टर को-एक्टिंग सीन्स
परफेक्ट फॉर
मार्केटिंग और एडवर्टाइज़िंग
टेक्स्ट रेंडरिंग के साथ प्रोडक्ट डेमोज़, कैरेक्टर कंसिस्टेंसी के साथ ब्रांड कैंपेन और प्रोमोशनल वीडियो
कंटेंट क्रिएशन
YouTube वीडियो, सोशल मीडिया रील्स, मल्टी-शॉट स्टोरीटेलिंग और वीडियो एडिटिंग वर्कफ्लोज़
ई-कॉमर्स
एक्यूरेट टेक्स्ट के साथ प्रोडक्ट शोकेसेज़, ट्यूटोरियल वीडियो और कस्टमर टेस्टिमोनियल रीक्रिएशन
एजुकेशन और ट्रेनिंग
इंस्ट्रक्शनल कंटेंट, कोर्स मटेरियल्स और मल्टी-सीन एजुकेशनल नैरेटिव्स
एंटरटेनमेंट
शॉर्ट फिल्म्स, कैरेक्टर-ड्रिवेन स्टोरीज़, सिनेमैटिक सीक्वेंसेज़ और क्रिएटिव एक्सपेरिमेंट्स
प्री-विजुअलाइज़ेशन
फिल्म कॉन्सेप्ट डेवलपमेंट, स्टोरीबोर्ड क्रिएशन और प्रोडक्शन के लिए सीन प्लानिंग
Wan 2.6 T2V, I2V और R2V API इंटीग्रेशन
टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो और रेफरेंस-टू-वीडियो जनरेशन के लिए कम्पलीट API सूट
टेक्स्ट-टू-वीडियो API (T2V API)
हमारा Wan 2.6 T2V API ऑटोमैटिक सीन सेगमेंटेशन के साथ टेक्स्ट प्रॉम्प्ट्स को मल्टी-शॉट सिनेमैटिक वीडियो में ट्रांसफॉर्म करता है। नेटिव ऑडियो सिंक के साथ 15 सेकंड तक के प्रोफेशनल 1080p वीडियो जनरेट करें।
इमेज-टू-वीडियो API (I2V API)
हमारा Wan 2.6 I2V API प्रिसाइज़ मोशन कंट्रोल और टेक्स्ट रेंडरिंग के साथ स्टिल इमेजेज़ को जीवंत करता है। प्रोडक्ट वीडियो, फोटो एनिमेशन और ब्रांडेड कंटेंट क्रिएशन के लिए परफेक्ट।
रेफरेंस-टू-वीडियो API (R2V API)
हमारा Wan 2.6 R2V API रेफरेंस वीडियो से कैरेक्टर आइडेंटिटी को प्रिज़र्व करता है। कंसिस्टेंट कैरेक्टर जनरेशन के लिए अपीयरेंस, वॉइस और मूवमेंट पैटर्न्स एक्सट्रैक्ट करने के लिए 2-30 सेकंड की क्लिप्स अपलोड करें।
कम्पलीट API सूट
सभी तीन Wan 2.6 API मोड्स (T2V API, I2V API, R2V API) कॉम्प्रिहेंसिव डॉक्यूमेंटेशन के साथ RESTful आर्किटेक्चर को सपोर्ट करते हैं। Python, Node.js और अधिक के लिए SDK के साथ शुरुआत करें। प्रत्येक एंडपॉइंट में नेटिव ऑडियो-विजुअल सिंक्रोनाइज़ेशन और फुल कमर्शियल यूसेज राइट्स शामिल हैं।
Wan 2.6 के साथ कैसे शुरुआत करें
दो सरल पथों के साथ मिनटों में प्रोफेशनल वीडियो बनाना शुरू करें
API इंटीग्रेशन
एप्लिकेशन बनाने वाले डेवलपर्स के लिए
साइन अप और लॉगिन करें
कंसोल तक पहुंचने के लिए अपना Atlas Cloud अकाउंट बनाएं या लॉगिन करें
पेमेंट मेथड जोड़ें
अपने अकाउंट को फंड करने के लिए बिलिंग सेक्शन में अपना क्रेडिट कार्ड बाइंड करें
API की जनरेट करें
Console → API Keys पर नेविगेट करें और अपनी ऑथेंटिकेशन की बनाएं
बिल्डिंग शुरू करें
Wan 2.6 को अपने एप्लिकेशन में इंटीग्रेट करने के लिए T2V, I2V या R2V API एंडपॉइंट्स का उपयोग करें
Playground अनुभव
क्विक टेस्टिंग और एक्सपेरिमेंटेशन के लिए
साइन अप और लॉगिन करें
प्लेटफॉर्म तक पहुंचने के लिए अपना Atlas Cloud अकाउंट बनाएं या लॉगिन करें
पेमेंट मेथड जोड़ें
शुरुआत करने के लिए बिलिंग सेक्शन में अपना क्रेडिट कार्ड बाइंड करें
Playground का उपयोग करें
Wan 2.6 playground पर जाएं, T2V/I2V/R2V मोड चुनें और तुरंत वीडियो जनरेट करें
अक्सर पूछे जाने वाले प्रश्न
Wan 2.6 की मल्टी-शॉट क्षमता को क्या यूनीक बनाता है?
Wan 2.6 स्टोरीबोर्ड लॉजिक को सच्चे अर्थ में समझने वाला पहला मॉडल है। Wan 2.5 के विपरीत जो मेसी "मॉर्फिंग" इफेक्ट्स बनाता था, Wan 2.6 ऑटोमैटिकली एक सिंगल प्रॉम्प्ट को सुसंगत ट्रांज़िशन के साथ मल्टिपल डिस्टिंक्ट शॉट्स में सेगमेंट कर सकता है, सीन चेंजेज़ में कैरेक्टर कंसिस्टेंसी बनाए रखता है।
रेफरेंस-टू-वीडियो (R2V) कैसे काम करता है?
2-30 सेकंड का रेफरेंस वीडियो अपलोड करें, और Wan 2.6 कैरेक्टर की अपीयरेंस, मूवमेंट पैटर्न्स और वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्ट करता है। फिर आप कंसिस्टेंट आइडेंटिटी के साथ उसी कैरेक्टर को फीचर करते हुए नए वीडियो जनरेट कर सकते हैं—कैरेक्टर-ड्रिवेन कंटेंट सीरीज़ बनाने के लिए आदर्श।
कौन से वीडियो फॉर्मेट और ड्यूरेशन सपोर्टेड हैं?
Wan 2.6, 5 से 15 सेकंड की अवधि के साथ 24fps पर 1080p वीडियो जनरेट करता है। समर्थित आस्पेक्ट रेशियो में 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) और 1:1 (स्क्वायर फॉर्मेट) शामिल हैं, जो हर प्लेटफॉर्म के लिए ऑप्टिमाइज़्ड हैं और इन्हें किसी पोस्ट-प्रोडक्शन क्रॉपिंग की ज़रूरत नहीं होती।
क्या Wan 2.6 वीडियो में टेक्स्ट रेंडर कर सकता है?
हां! Wan 2.6 में प्रोडक्ट पैकेजिंग, साइनेज और ब्रांडेड कंटेंट के लिए इंडस्ट्री-लीडिंग टेक्स्ट रेंडरिंग है। मॉडल वीडियो फ्रेम्स के भीतर क्लियर, रीडेबल टेक्स्ट जनरेट कर सकता है—एक क्रिटिकल फीचर जो Seedance और ज़्यादातर प्रतियोगियों में नहीं है।
T2V, I2V और R2V मोड्स में क्या अंतर है?
T2V (टेक्स्ट-टू-वीडियो) मल्टी-शॉट क्षमता के साथ टेक्स्ट प्रॉम्प्ट्स से जनरेट करता है। I2V (इमेज-टू-वीडियो) प्रिसाइज़ टेक्स्ट रेंडरिंग के साथ स्टिल इमेजेज़ को एनिमेट करता है। R2V (रेफरेंस-टू-वीडियो) जनरेशन में कैरेक्टर आइडेंटिटी को प्रिज़र्व करने के लिए वीडियो रेफरेंसेज़ का उपयोग करता है। अपने इनपुट टाइप और कंसिस्टेंसी ज़रूरतों के आधार पर चुनें।
क्या मेरे पास जनरेटेड वीडियो पर कमर्शियल राइट्स हैं?
हां! प्रत्येक Wan 2.6 क्रिएशन फुल कमर्शियल यूसेज राइट्स के साथ आता है। वीडियो मार्केटिंग कैंपेन, क्लाइंट डिलीवरेबल्स, ब्रांडेड कंटेंट और कमर्शियल एप्लिकेशन के लिए प्रोडक्शन-रेडी हैं बिना अतिरिक्त लाइसेंसिंग रिक्वायरमेंट्स के।
Atlas Cloud पर Wan 2.6 का उपयोग क्यों करें?
अपने प्रोफेशनल वीडियो जनरेशन वर्कफ्लोज़ के लिए एंटरप्राइज़-ग्रेड इन्फ्रास्ट्रक्चर का लाभ उठाएं
पर्पज़-बिल्ट इन्फ्रास्ट्रक्चर
डिमांडिंग AI वीडियो वर्कलोड्स के लिए विशेष रूप से ऑप्टिमाइज़्ड इन्फ्रास्ट्रक्चर पर Wan 2.6 की मल्टी-शॉट जनरेशन और R2V क्षमताओं को डिप्लॉय करें। 1080p 15-सेकंड जनरेशन के लिए मैक्सिमम परफॉर्मेंस।
सभी मॉडल्स के लिए यूनिफाइड API
एक यूनिफाइड API के माध्यम से 300+ AI मॉडल्स (LLMs, इमेज, वीडियो, ऑडियो) के साथ Wan 2.6 (T2V, I2V, R2V) तक पहुंचें। कंसिस्टेंट ऑथेंटिकेशन के साथ आपकी सभी जेनेरेटिव AI ज़रूरतों के लिए सिंगल इंटीग्रेशन।
कंपीटिटिव प्राइसिंग
पारदर्शी, पे-एज़-यू-गो प्राइसिंग के साथ AWS की तुलना में 70% तक की बचत करें। कोई छिपा शुल्क नहीं, कोई प्रतिबद्धता नहीं—प्रोटोटाइप से प्रोडक्शन तक बिना किसी भारी खर्च के स्केल करें।
SOC I & II सर्टिफाइड सिक्योरिटी
SOC I & II सर्टिफिकेशन और HIPAA कंप्लायंस के साथ आपके रेफरेंस वीडियो और जनरेटेड कंटेंट प्रोटेक्टेड। एन्क्रिप्टेड ट्रांसमिशन और स्टोरेज के साथ एंटरप्राइज़-ग्रेड सिक्योरिटी।
99.9% अपटाइम SLA
गारंटीड 99.9% अपटाइम के साथ एंटरप्राइज़-ग्रेड रिलायबिलिटी। आपकी Wan 2.6 मल्टी-शॉट वीडियो जनरेशन प्रोडक्शन कैंपेन और क्रिटिकल कंटेंट वर्कफ्लोज़ के लिए हमेशा उपलब्ध है।
आसान इंटीग्रेशन
REST API और मल्टी-लैंग्वेज SDK (Python, Node.js, Go) के साथ मिनटों में कम्पलीट इंटीग्रेशन। यूनिफाइड एंडपॉइंट स्ट्रक्चर के साथ T2V, I2V और R2V मोड्स के बीच सीमलेसली स्विच करें।
तकनीकी विनिर्देश
प्रोफेशनल मल्टी-शॉट वीडियो जनरेशन का अनुभव करें
दुनिया भर के कंटेंट क्रिएटर्स, मार्केटर्स और फिल्ममेकर्स में शामिल हों जो Wan 2.6 की ग्राउंडब्रेकिंग मल्टी-शॉट स्टोरीटेलिंग और कैरेक्टर कंसिस्टेंसी क्षमताओं के साथ वीडियो प्रोडक्शन में क्रांति ला रहे हैं।
Alibaba WAN 2.6 Text-to-Video Model
Alibaba WAN 2.6 is an advanced text-to-video model provided by Alibaba Cloud's DashScope platform. This model generates high-quality 480p/720p/1080p videos from text prompts.
What makes it stand out?
-
More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.
-
One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.
-
Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.
-
Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.
-
Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.
-
Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.
-
15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.
Designed For
-
Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.
-
Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.
-
Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.
-
Corporate training teams: HD videos over docs—clearer key points, better communication.
Pricing
The table below lists prices for easy comparsion.
| Output Resolution | Duration (5s) | Duration (10s) |
|---|---|---|
| 480p | $0.2 | $0.4 |
| 720p | $0.4 | $0.8 |
| 1080p | $0.6 | $1.2 |
Billing Rules
-
Minimum charge: 5 seconds
-
Per-second rate = (price per 5 seconds) ÷ 5
-
Billed duration = video length in seconds (rounded up), with a 5-second minimum
-
Total cost = billed duration × per-second rate (by output resolution)
How to Use
-
Write your prompt.
-
Upload an audio file (optional) for voice/music.
-
Choose the video size (resolution/aspect).
-
Select the video duration (e.g., 5s / 10s).
-
Submit and wait for processing.
-
Preview and download the result.


















