alibaba/wan-2.6/text-to-video

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

TEXT-TO-VIDEOHOTNEW
टेक्स्ट-से-वीडियो

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Text-to-Video Model

Alibaba WAN 2.6 is an advanced text-to-video model provided by Alibaba Cloud's DashScope platform. This model generates high-quality 480p/720p/1080p videos from text prompts.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
480p$0.2$0.4
720p$0.4$0.8
1080p$0.6$1.2

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

विस्तृत विनिर्देश

अवलोकन:

मॉडल प्रदाता:QWEN
मॉडल प्रकार:text-to-video
डिप्लॉयमेंट:इंफरेंसिंग API; प्लेग्राउंड
मूल्य निर्धारण:$0.0700/second

मुख्य विनिर्देश:

साइज़ सीमा:चौड़ाई × ऊंचाई तक (उपयोगकर्ता द्वारा कॉन्फ़िगर करने योग्य)
LoRA समर्थन:नहीं
सीड विकल्प:N/A

अपनी अगली उत्कृष्ट कृति बनाएं

🎬मल्टी-शॉट वीडियो जनरेशन

Wan 2.6प्रोफेशनल मल्टी-शॉट AI वीडियो क्रिएशन

AI वीडियो जनरेशन में Alibaba की नवीनतम सफलता। मल्टी-शॉट स्टोरीटेलिंग, रेफरेंस-ड्रिवेन कैरेक्टर कंसिस्टेंसी और नेटिव ऑडियो-विजुअल सिंक्रोनाइज़ेशन के साथ 15 सेकंड तक के 1080p वीडियो बनाएं। सिनेमैटिक नैरेटिव के लिए स्टोरीबोर्ड लॉजिक को सच्चे अर्थ में समझने वाला पहला मॉडल।

क्रांतिकारी सफलताएं

क्या Wan 2.6 को AI वीडियो जनरेशन में गेम-चेंजर बनाता है

मल्टी-शॉट स्टोरीटेलिंग

स्टोरीबोर्ड लॉजिक को समझने वाला पहला मॉडल। स्वचालित रूप से सुसंगत ट्रांज़िशन के साथ सीक्वेंशियल शॉट्स जनरेट करता है, सीन चेंजेज़ में कैरेक्टर अपीयरेंस और एनवायरनमेंट कंसिस्टेंसी बनाए रखता है—एक सिंगल 15-सेकंड जनरेशन में कम्पलीट स्टोरी आर्क्स को सक्षम बनाता है।

रेफरेंस-टू-वीडियो (R2V)

कैरेक्टर अपीयरेंस, मूवमेंट पैटर्न और वॉइस कैरेक्टरिस्टिक्स को एक्सट्रैक्ट और प्रिज़र्व करने के लिए 2-30 सेकंड का रेफरेंस वीडियो अपलोड करें। अभूतपूर्व सटीकता के साथ मल्टिपल वीडियो में कंसिस्टेंट कैरेक्टर परफॉर्मेंस बनाएं।

सटीक टेक्स्ट रेंडरिंग

प्रोडक्ट पैकेजिंग, साइनेज और ब्रांडेड कंटेंट के लिए इंडस्ट्री-लीडिंग टेक्स्ट रेंडरिंग क्षमताएं। वीडियो फ्रेम्स के भीतर क्लियर, रीडेबल टेक्स्ट जनरेट करें—मार्केटिंग और कमर्शियल एप्लिकेशन के लिए आवश्यक।

कोर कैपेबिलिटीज़

एक्सटेंडेड 15-सेकंड अवधि

कम्पलीट "थ्री एक्ट" स्ट्रक्चर के साथ प्रति वीडियो 15 सेकंड तक जनरेट करें (सेटअप → एक्शन → रिज़ॉल्यूशन)

प्रोफेशनल 1080p क्वालिटी

सिनेमैटिक क्वालिटी और एन्हांस्ड विजुअल स्टेबिलिटी के साथ 24fps पर नेटिव 1080p आउटपुट

नेटिव ऑडियो सिंक

डायलॉग लिप मूवमेंट्स से मैच करता है, बैकग्राउंड म्यूज़िक पेसिंग के साथ अलाइन होता है, साउंड इफेक्ट्स परफेक्टली ट्रिगर होते हैं

कैरेक्टर कंसिस्टेंसी

शॉट्स और मल्टिपल वीडियो में कैरेक्टर अपीयरेंस, कॉस्ट्यूम्स और आइडेंटिटी को मेंटेन करें

सिनेमैटिक कैमरा कंट्रोल

पैन, ज़ूम, ट्रैकिंग शॉट्स और डॉली मूवमेंट्स सहित प्रोफेशनल कैमरा मूवमेंट्स

फ्लेक्सिबल आस्पेक्ट रेशियो

16:9 (YouTube), 9:16 (Reels), 1:1 (Square) - पोस्ट-प्रोडक्शन क्रॉपिंग के बिना प्लेटफॉर्म-ऑप्टिमाइज़्ड

Wan 2.6 vs Wan 2.5: मेजर इम्प्रूवमेंट्स

नवीनतम रिलीज़ में नया क्या है देखें

वीडियो अवधि
15 सेकंड तक
Wan 2.5: अधिकतम 10 सेकंड
मल्टी-शॉट क्षमता
स्टोरीबोर्ड लॉजिक समझता है
Wan 2.5: सिंगल शॉट या मेसी मॉर्फिंग
रेफरेंस वीडियो सपोर्ट
फुल प्रिज़र्वेशन के साथ R2V मोड
Wan 2.5: केवल इमेज रेफरेंस
कैरेक्टर कंसिस्टेंसी
शॉट्स में एक्सीलेंट
Wan 2.5: कैरेक्टर ड्रिफ्ट इश्यूज़
मोशन स्टेबिलिटी
रिड्यूस्ड जिटर और आर्टिफैक्ट्स
Wan 2.5: ओकेज़नल फ्रेम ड्रिफ्ट
प्रॉम्प्ट अंडरस्टैंडिंग
कॉम्प्लेक्स मल्टी-कैरेक्टर सीन्स
Wan 2.5: बेसिक सीन जनरेशन

तीन स्पेशलाइज़्ड जनरेशन मोड्स

अपने क्रिएटिव वर्कफ्लो के लिए सही मोड चुनें

टेक्स्ट-टू-वीडियो (T2V)

सबसे लोकप्रिय

एन्हांस्ड मल्टी-शॉट सेगमेंटेशन और इम्प्रूव्ड प्रॉम्प्ट हैंडलिंग के साथ टेक्स्ट प्रॉम्प्ट्स से कम्पलीट वीडियो जनरेट करें। स्टोरीटेलिंग और क्रिएटिव एक्सप्लोरेशन के लिए परफेक्ट।

  • सिंगल प्रॉम्प्ट से ऑटोमैटिक शॉट सेगमेंटेशन
  • मल्टी-कैरेक्टर इंटरैक्शन अंडरस्टैंडिंग
  • कैमरा मूवमेंट और इमोशनल क्यूज़
  • एनवायरनमेंटल डिटेल प्रिज़र्वेशन

इमेज-टू-वीडियो (I2V)

एन्हांस्ड

इम्प्रूव्ड मोशन कोहेरेंस के साथ स्टिल इमेजेज़ को मोशन वीडियो में ट्रांसफॉर्म करें। प्रोडक्ट शोकेसेज़, फोटो एनिमेशन और विजुअल स्टोरीटेलिंग के लिए आदर्श।

  • प्रोडक्ट्स के लिए प्रिसाइज़ टेक्स्ट रेंडरिंग
  • फ्रेम्स में स्टाइल कंसिस्टेंसी
  • स्टैटिक इमेजेज़ से नेचुरल मोशन
  • नैरेटिव-ड्रिवेन विजुअल ऑप्टिमाइज़ेशन

रेफरेंस-टू-वीडियो (R2V)

नया

कैरेक्टर अपीयरेंस, मूवमेंट पैटर्न्स और वॉइस को प्रिज़र्व करने के लिए रेफरेंस वीडियो (2-30s) अपलोड करें। कैरेक्टर-ड्रिवेन कंटेंट के लिए स्ट्रॉन्गेस्ट कंसिस्टेंसी गारंटी।

  • फुल कैरेक्टर आइडेंटिटी प्रिज़र्वेशन
  • वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्शन
  • मूवमेंट पैटर्न रेप्लिकेशन
  • मल्टी-कैरेक्टर को-एक्टिंग सीन्स

परफेक्ट फॉर

मार्केटिंग और एडवर्टाइज़िंग

टेक्स्ट रेंडरिंग के साथ प्रोडक्ट डेमोज़, कैरेक्टर कंसिस्टेंसी के साथ ब्रांड कैंपेन और प्रोमोशनल वीडियो

कंटेंट क्रिएशन

YouTube वीडियो, सोशल मीडिया रील्स, मल्टी-शॉट स्टोरीटेलिंग और वीडियो एडिटिंग वर्कफ्लोज़

ई-कॉमर्स

एक्यूरेट टेक्स्ट के साथ प्रोडक्ट शोकेसेज़, ट्यूटोरियल वीडियो और कस्टमर टेस्टिमोनियल रीक्रिएशन

एजुकेशन और ट्रेनिंग

इंस्ट्रक्शनल कंटेंट, कोर्स मटेरियल्स और मल्टी-सीन एजुकेशनल नैरेटिव्स

एंटरटेनमेंट

शॉर्ट फिल्म्स, कैरेक्टर-ड्रिवेन स्टोरीज़, सिनेमैटिक सीक्वेंसेज़ और क्रिएटिव एक्सपेरिमेंट्स

प्री-विजुअलाइज़ेशन

फिल्म कॉन्सेप्ट डेवलपमेंट, स्टोरीबोर्ड क्रिएशन और प्रोडक्शन के लिए सीन प्लानिंग

Wan 2.6 T2V, I2V और R2V API इंटीग्रेशन

टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो और रेफरेंस-टू-वीडियो जनरेशन के लिए कम्पलीट API सूट

टेक्स्ट-टू-वीडियो API (T2V API)

हमारा Wan 2.6 T2V API ऑटोमैटिक सीन सेगमेंटेशन के साथ टेक्स्ट प्रॉम्प्ट्स को मल्टी-शॉट सिनेमैटिक वीडियो में ट्रांसफॉर्म करता है। नेटिव ऑडियो सिंक के साथ 15 सेकंड तक के प्रोफेशनल 1080p वीडियो जनरेट करें।

सिंगल प्रॉम्प्ट से मल्टी-शॉट स्टोरीटेलिंग
थ्री एक्ट स्ट्रक्चर के साथ 15-सेकंड की अवधि
कॉम्प्लेक्स सीन्स के लिए एन्हांस्ड प्रॉम्प्ट अंडरस्टैंडिंग
फ्लेक्सिबल आस्पेक्ट रेशियो: 16:9, 9:16, 1:1

इमेज-टू-वीडियो API (I2V API)

हमारा Wan 2.6 I2V API प्रिसाइज़ मोशन कंट्रोल और टेक्स्ट रेंडरिंग के साथ स्टिल इमेजेज़ को जीवंत करता है। प्रोडक्ट वीडियो, फोटो एनिमेशन और ब्रांडेड कंटेंट क्रिएशन के लिए परफेक्ट।

प्रोडक्ट्स और साइनेज के लिए प्रिसाइज़ टेक्स्ट रेंडरिंग
एनिमेशन फ्रेम्स में स्टाइल कंसिस्टेंसी
इम्प्रूव्ड कोहेरेंस के साथ नेचुरल मोशन
नैरेटिव-ऑप्टिमाइज़्ड विजुअल आउटपुट

रेफरेंस-टू-वीडियो API (R2V API)

हमारा Wan 2.6 R2V API रेफरेंस वीडियो से कैरेक्टर आइडेंटिटी को प्रिज़र्व करता है। कंसिस्टेंट कैरेक्टर जनरेशन के लिए अपीयरेंस, वॉइस और मूवमेंट पैटर्न्स एक्सट्रैक्ट करने के लिए 2-30 सेकंड की क्लिप्स अपलोड करें।

कैरेक्टर अपीयरेंस और आइडेंटिटी प्रिज़र्वेशन
वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्शन और रेप्लिकेशन
मूवमेंट पैटर्न एनालिसिस और रिप्रोडक्शन
मल्टी-कैरेक्टर सीन सपोर्ट
💡

कम्पलीट API सूट

सभी तीन Wan 2.6 API मोड्स (T2V API, I2V API, R2V API) कॉम्प्रिहेंसिव डॉक्यूमेंटेशन के साथ RESTful आर्किटेक्चर को सपोर्ट करते हैं। Python, Node.js और अधिक के लिए SDK के साथ शुरुआत करें। प्रत्येक एंडपॉइंट में नेटिव ऑडियो-विजुअल सिंक्रोनाइज़ेशन और फुल कमर्शियल यूसेज राइट्स शामिल हैं।

Wan 2.6 के साथ कैसे शुरुआत करें

दो सरल पथों के साथ मिनटों में प्रोफेशनल वीडियो बनाना शुरू करें

API इंटीग्रेशन

एप्लिकेशन बनाने वाले डेवलपर्स के लिए

1

साइन अप और लॉगिन करें

कंसोल तक पहुंचने के लिए अपना Atlas Cloud अकाउंट बनाएं या लॉगिन करें

2

पेमेंट मेथड जोड़ें

अपने अकाउंट को फंड करने के लिए बिलिंग सेक्शन में अपना क्रेडिट कार्ड बाइंड करें

3

API की जनरेट करें

Console → API Keys पर नेविगेट करें और अपनी ऑथेंटिकेशन की बनाएं

4

बिल्डिंग शुरू करें

Wan 2.6 को अपने एप्लिकेशन में इंटीग्रेट करने के लिए T2V, I2V या R2V API एंडपॉइंट्स का उपयोग करें

Playground अनुभव

क्विक टेस्टिंग और एक्सपेरिमेंटेशन के लिए

1

साइन अप और लॉगिन करें

प्लेटफॉर्म तक पहुंचने के लिए अपना Atlas Cloud अकाउंट बनाएं या लॉगिन करें

2

पेमेंट मेथड जोड़ें

शुरुआत करने के लिए बिलिंग सेक्शन में अपना क्रेडिट कार्ड बाइंड करें

3

Playground का उपयोग करें

Wan 2.6 playground पर जाएं, T2V/I2V/R2V मोड चुनें और तुरंत वीडियो जनरेट करें

💡
प्रो टिप: पहले Playground में विभिन्न जनरेशन मोड्स टेस्ट करें ताकि यह समझ सकें कि आपके यूज़ केस के लिए कौन सा बेस्ट काम करता है, फिर प्रोडक्शन स्केल के लिए संबंधित API को इंटीग्रेट करें।

अक्सर पूछे जाने वाले प्रश्न

Wan 2.6 की मल्टी-शॉट क्षमता को क्या यूनीक बनाता है?

Wan 2.6 स्टोरीबोर्ड लॉजिक को सच्चे अर्थ में समझने वाला पहला मॉडल है। Wan 2.5 के विपरीत जो मेसी "मॉर्फिंग" इफेक्ट्स बनाता था, Wan 2.6 ऑटोमैटिकली एक सिंगल प्रॉम्प्ट को सुसंगत ट्रांज़िशन के साथ मल्टिपल डिस्टिंक्ट शॉट्स में सेगमेंट कर सकता है, सीन चेंजेज़ में कैरेक्टर कंसिस्टेंसी बनाए रखता है।

रेफरेंस-टू-वीडियो (R2V) कैसे काम करता है?

2-30 सेकंड का रेफरेंस वीडियो अपलोड करें, और Wan 2.6 कैरेक्टर की अपीयरेंस, मूवमेंट पैटर्न्स और वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्ट करता है। फिर आप कंसिस्टेंट आइडेंटिटी के साथ उसी कैरेक्टर को फीचर करते हुए नए वीडियो जनरेट कर सकते हैं—कैरेक्टर-ड्रिवेन कंटेंट सीरीज़ बनाने के लिए आदर्श।

कौन से वीडियो फॉर्मेट और ड्यूरेशन सपोर्टेड हैं?

Wan 2.6, 5 से 15 सेकंड की अवधि के साथ 24fps पर 1080p वीडियो जनरेट करता है। सपोर्टेड आस्पेक्ट रेशियो में 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) और 1:1 (स्क्वायर फॉर्मेट) शामिल हैं, प्रत्येक प्लेटफॉर्म के लिए ऑप्टिमाइज़्ड बिना पोस्ट-प्रोडक्शन क्रॉपिंग की आवश्यकता के।

क्या Wan 2.6 वीडियो में टेक्स्ट रेंडर कर सकता है?

हां! Wan 2.6 में प्रोडक्ट पैकेजिंग, साइनेज और ब्रांडेड कंटेंट के लिए इंडस्ट्री-लीडिंग टेक्स्ट रेंडरिंग है। मॉडल वीडियो फ्रेम्स के भीतर क्लियर, रीडेबल टेक्स्ट जनरेट कर सकता है—एक क्रिटिकल फीचर जो Seedance और ज़्यादातर प्रतियोगियों में नहीं है।

T2V, I2V और R2V मोड्स में क्या अंतर है?

T2V (टेक्स्ट-टू-वीडियो) मल्टी-शॉट क्षमता के साथ टेक्स्ट प्रॉम्प्ट्स से जनरेट करता है। I2V (इमेज-टू-वीडियो) प्रिसाइज़ टेक्स्ट रेंडरिंग के साथ स्टिल इमेजेज़ को एनिमेट करता है। R2V (रेफरेंस-टू-वीडियो) जनरेशन में कैरेक्टर आइडेंटिटी को प्रिज़र्व करने के लिए वीडियो रेफरेंसेज़ का उपयोग करता है। अपने इनपुट टाइप और कंसिस्टेंसी ज़रूरतों के आधार पर चुनें।

क्या मेरे पास जनरेटेड वीडियो पर कमर्शियल राइट्स हैं?

हां! प्रत्येक Wan 2.6 क्रिएशन फुल कमर्शियल यूसेज राइट्स के साथ आता है। वीडियो मार्केटिंग कैंपेन, क्लाइंट डिलीवरेबल्स, ब्रांडेड कंटेंट और कमर्शियल एप्लिकेशन के लिए प्रोडक्शन-रेडी हैं बिना अतिरिक्त लाइसेंसिंग रिक्वायरमेंट्स के।

Atlas Cloud पर Wan 2.6 का उपयोग क्यों करें?

अपने प्रोफेशनल वीडियो जनरेशन वर्कफ्लोज़ के लिए एंटरप्राइज़-ग्रेड इन्फ्रास्ट्रक्चर का लाभ उठाएं

पर्पज़-बिल्ट इन्फ्रास्ट्रक्चर

डिमांडिंग AI वीडियो वर्कलोड्स के लिए विशेष रूप से ऑप्टिमाइज़्ड इन्फ्रास्ट्रक्चर पर Wan 2.6 की मल्टी-शॉट जनरेशन और R2V क्षमताओं को डिप्लॉय करें। 1080p 15-सेकंड जनरेशन के लिए मैक्सिमम परफॉर्मेंस।

सभी मॉडल्स के लिए यूनिफाइड API

एक यूनिफाइड API के माध्यम से 300+ AI मॉडल्स (LLMs, इमेज, वीडियो, ऑडियो) के साथ Wan 2.6 (T2V, I2V, R2V) तक पहुंचें। कंसिस्टेंट ऑथेंटिकेशन के साथ आपकी सभी जेनेरेटिव AI ज़रूरतों के लिए सिंगल इंटीग्रेशन।

कंपीटिटिव प्राइसिंग

ट्रांस्पेरेंट पे-एज़-यू-गो प्राइसिंग के साथ AWS की तुलना में 70% तक की बचत करें। कोई हिडन फीस नहीं, कोई कमिटमेंट नहीं—बैंक तोड़े बिना प्रोटोटाइप से प्रोडक्शन तक स्केल करें।

SOC I & II सर्टिफाइड सिक्योरिटी

SOC I & II सर्टिफिकेशन और HIPAA कंप्लायंस के साथ आपके रेफरेंस वीडियो और जनरेटेड कंटेंट प्रोटेक्टेड। एन्क्रिप्टेड ट्रांसमिशन और स्टोरेज के साथ एंटरप्राइज़-ग्रेड सिक्योरिटी।

99.9% अपटाइम SLA

गारंटीड 99.9% अपटाइम के साथ एंटरप्राइज़-ग्रेड रिलायबिलिटी। आपकी Wan 2.6 मल्टी-शॉट वीडियो जनरेशन प्रोडक्शन कैंपेन और क्रिटिकल कंटेंट वर्कफ्लोज़ के लिए हमेशा उपलब्ध है।

आसान इंटीग्रेशन

REST API और मल्टी-लैंग्वेज SDK (Python, Node.js, Go) के साथ मिनटों में कम्पलीट इंटीग्रेशन। यूनिफाइड एंडपॉइंट स्ट्रक्चर के साथ T2V, I2V और R2V मोड्स के बीच सीमलेसली स्विच करें।

99.9%
अपटाइम
70%
AWS की तुलना में कम लागत
300+
Gen AI मॉडल्स
24/7
प्रो सपोर्ट

तकनीकी विनिर्देश

Architecture
मल्टी-मोडल अंडरस्टैंडिंग के साथ एडवांस्ड ट्रांसफॉर्मर
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 सेकंड (मोड पर निर्भर)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
लिप-सिंक के साथ नेटिव सिंक्रोनाइज़ेशन
Commercial Rights
फुल कमर्शियल यूसेज शामिल

प्रोफेशनल मल्टी-शॉट वीडियो जनरेशन का अनुभव करें

दुनिया भर के कंटेंट क्रिएटर्स, मार्केटर्स और फिल्ममेकर्स में शामिल हों जो Wan 2.6 की ग्राउंडब्रेकिंग मल्टी-शॉट स्टोरीटेलिंग और कैरेक्टर कंसिस्टेंसी क्षमताओं के साथ वीडियो प्रोडक्शन में क्रांति ला रहे हैं।

300+ मॉडल से शुरू करें,

केवल Atlas Cloud पर।