
Wan 2.6 Spicy Image-to-Video API by Atlas Cloud
AtlasCloud Wan 2.6 Spicy Image-to-Video turns a reference image into a short motion clip with expressive character movement and stable temporal detail.
Wan 2.6प्रोफेशनल मल्टी-शॉट AI वीडियो क्रिएशन
AI वीडियो जनरेशन में Alibaba की नवीनतम सफलता। मल्टी-शॉट स्टोरीटेलिंग, रेफरेंस-ड्रिवेन कैरेक्टर कंसिस्टेंसी और नेटिव ऑडियो-विजुअल सिंक्रोनाइज़ेशन के साथ 15 सेकंड तक के 1080p वीडियो बनाएं। सिनेमैटिक नैरेटिव के लिए स्टोरीबोर्ड लॉजिक को सच्चे अर्थ में समझने वाला पहला मॉडल।
क्रांतिकारी सफलताएं
क्या Wan 2.6 को AI वीडियो जनरेशन में गेम-चेंजर बनाता है
मल्टी-शॉट स्टोरीटेलिंग
स्टोरीबोर्ड लॉजिक को समझने वाला पहला मॉडल। स्वचालित रूप से सुसंगत ट्रांज़िशन के साथ सीक्वेंशियल शॉट्स जनरेट करता है, सीन चेंजेज़ में कैरेक्टर अपीयरेंस और एनवायरनमेंट कंसिस्टेंसी बनाए रखता है—एक सिंगल 15-सेकंड जनरेशन में कम्पलीट स्टोरी आर्क्स को सक्षम बनाता है।
रेफरेंस-टू-वीडियो (R2V)
कैरेक्टर अपीयरेंस, मूवमेंट पैटर्न और वॉइस कैरेक्टरिस्टिक्स को एक्सट्रैक्ट और प्रिज़र्व करने के लिए 2-30 सेकंड का रेफरेंस वीडियो अपलोड करें। अभूतपूर्व सटीकता के साथ मल्टिपल वीडियो में कंसिस्टेंट कैरेक्टर परफॉर्मेंस बनाएं।
सटीक टेक्स्ट रेंडरिंग
प्रोडक्ट पैकेजिंग, साइनेज और ब्रांडेड कंटेंट के लिए इंडस्ट्री-लीडिंग टेक्स्ट रेंडरिंग क्षमताएं। वीडियो फ्रेम्स के भीतर क्लियर, रीडेबल टेक्स्ट जनरेट करें—मार्केटिंग और कमर्शियल एप्लिकेशन के लिए आवश्यक।
कोर कैपेबिलिटीज़
एक्सटेंडेड 15-सेकंड अवधि
हर वीडियो में संपूर्ण "थ्री-एक्ट" संरचना के साथ 15 सेकंड तक जनरेट करें (सेटअप → एक्शन → समाधान)
प्रोफेशनल 1080p क्वालिटी
सिनेमैटिक क्वालिटी और एन्हांस्ड विजुअल स्टेबिलिटी के साथ 24fps पर नेटिव 1080p आउटपुट
नेटिव ऑडियो सिंक
संवाद होंठों की हरकत से मेल खाते हैं, बैकग्राउंड म्यूज़िक गति के साथ तालमेल बिठाता है, और साउंड इफेक्ट बिल्कुल सही समय पर ट्रिगर होते हैं
कैरेक्टर कंसिस्टेंसी
शॉट्स और मल्टिपल वीडियो में कैरेक्टर अपीयरेंस, कॉस्ट्यूम्स और आइडेंटिटी को मेंटेन करें
सिनेमैटिक कैमरा कंट्रोल
पैन, ज़ूम, ट्रैकिंग शॉट और डॉली शॉट सहित प्रोफेशनल कैमरा मूवमेंट
फ्लेक्सिबल आस्पेक्ट रेशियो
16:9 (YouTube), 9:16 (Reels), 1:1 (स्क्वायर) - हर प्लेटफॉर्म के लिए ऑप्टिमाइज़्ड, बिना किसी पोस्ट-प्रोडक्शन क्रॉपिंग के
Wan 2.6 vs Wan 2.5: मेजर इम्प्रूवमेंट्स
नवीनतम रिलीज़ में नया क्या है देखें
तीन स्पेशलाइज़्ड जनरेशन मोड्स
अपने क्रिएटिव वर्कफ्लो के लिए सही मोड चुनें
टेक्स्ट-टू-वीडियो (T2V)
सबसे लोकप्रियएन्हांस्ड मल्टी-शॉट सेगमेंटेशन और इम्प्रूव्ड प्रॉम्प्ट हैंडलिंग के साथ टेक्स्ट प्रॉम्प्ट्स से कम्पलीट वीडियो जनरेट करें। स्टोरीटेलिंग और क्रिएटिव एक्सप्लोरेशन के लिए परफेक्ट।
- सिंगल प्रॉम्प्ट से ऑटोमैटिक शॉट सेगमेंटेशन
- मल्टी-कैरेक्टर इंटरैक्शन अंडरस्टैंडिंग
- कैमरा मूवमेंट और इमोशनल क्यूज़
- एनवायरनमेंटल डिटेल प्रिज़र्वेशन
इमेज-टू-वीडियो (I2V)
एन्हांस्डइम्प्रूव्ड मोशन कोहेरेंस के साथ स्टिल इमेजेज़ को मोशन वीडियो में ट्रांसफॉर्म करें। प्रोडक्ट शोकेसेज़, फोटो एनिमेशन और विजुअल स्टोरीटेलिंग के लिए आदर्श।
- प्रोडक्ट्स के लिए प्रिसाइज़ टेक्स्ट रेंडरिंग
- फ्रेम्स में स्टाइल कंसिस्टेंसी
- स्टैटिक इमेजेज़ से नेचुरल मोशन
- नैरेटिव-ड्रिवेन विजुअल ऑप्टिमाइज़ेशन
रेफरेंस-टू-वीडियो (R2V)
नयाकैरेक्टर अपीयरेंस, मूवमेंट पैटर्न्स और वॉइस को प्रिज़र्व करने के लिए रेफरेंस वीडियो (2-30s) अपलोड करें। कैरेक्टर-ड्रिवेन कंटेंट के लिए स्ट्रॉन्गेस्ट कंसिस्टेंसी गारंटी।
- फुल कैरेक्टर आइडेंटिटी प्रिज़र्वेशन
- वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्शन
- मूवमेंट पैटर्न रेप्लिकेशन
- मल्टी-कैरेक्टर को-एक्टिंग सीन्स
परफेक्ट फॉर
मार्केटिंग और एडवर्टाइज़िंग
टेक्स्ट रेंडरिंग के साथ प्रोडक्ट डेमोज़, कैरेक्टर कंसिस्टेंसी के साथ ब्रांड कैंपेन और प्रोमोशनल वीडियो
कंटेंट क्रिएशन
YouTube वीडियो, सोशल मीडिया रील्स, मल्टी-शॉट स्टोरीटेलिंग और वीडियो एडिटिंग वर्कफ्लोज़
ई-कॉमर्स
एक्यूरेट टेक्स्ट के साथ प्रोडक्ट शोकेसेज़, ट्यूटोरियल वीडियो और कस्टमर टेस्टिमोनियल रीक्रिएशन
एजुकेशन और ट्रेनिंग
इंस्ट्रक्शनल कंटेंट, कोर्स मटेरियल्स और मल्टी-सीन एजुकेशनल नैरेटिव्स
एंटरटेनमेंट
शॉर्ट फिल्म्स, कैरेक्टर-ड्रिवेन स्टोरीज़, सिनेमैटिक सीक्वेंसेज़ और क्रिएटिव एक्सपेरिमेंट्स
प्री-विजुअलाइज़ेशन
फिल्म कॉन्सेप्ट डेवलपमेंट, स्टोरीबोर्ड क्रिएशन और प्रोडक्शन के लिए सीन प्लानिंग
Wan 2.6 T2V, I2V और R2V API इंटीग्रेशन
टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो और रेफरेंस-टू-वीडियो जनरेशन के लिए कम्पलीट API सूट
टेक्स्ट-टू-वीडियो API (T2V API)
हमारा Wan 2.6 T2V API ऑटोमैटिक सीन सेगमेंटेशन के साथ टेक्स्ट प्रॉम्प्ट्स को मल्टी-शॉट सिनेमैटिक वीडियो में ट्रांसफॉर्म करता है। नेटिव ऑडियो सिंक के साथ 15 सेकंड तक के प्रोफेशनल 1080p वीडियो जनरेट करें।
इमेज-टू-वीडियो API (I2V API)
हमारा Wan 2.6 I2V API प्रिसाइज़ मोशन कंट्रोल और टेक्स्ट रेंडरिंग के साथ स्टिल इमेजेज़ को जीवंत करता है। प्रोडक्ट वीडियो, फोटो एनिमेशन और ब्रांडेड कंटेंट क्रिएशन के लिए परफेक्ट।
रेफरेंस-टू-वीडियो API (R2V API)
हमारा Wan 2.6 R2V API रेफरेंस वीडियो से कैरेक्टर आइडेंटिटी को प्रिज़र्व करता है। कंसिस्टेंट कैरेक्टर जनरेशन के लिए अपीयरेंस, वॉइस और मूवमेंट पैटर्न्स एक्सट्रैक्ट करने के लिए 2-30 सेकंड की क्लिप्स अपलोड करें।
कम्पलीट API सूट
सभी तीन Wan 2.6 API मोड्स (T2V API, I2V API, R2V API) कॉम्प्रिहेंसिव डॉक्यूमेंटेशन के साथ RESTful आर्किटेक्चर को सपोर्ट करते हैं। Python, Node.js और अधिक के लिए SDK के साथ शुरुआत करें। प्रत्येक एंडपॉइंट में नेटिव ऑडियो-विजुअल सिंक्रोनाइज़ेशन और फुल कमर्शियल यूसेज राइट्स शामिल हैं।
Wan 2.6 के साथ कैसे शुरुआत करें
दो सरल पथों के साथ मिनटों में प्रोफेशनल वीडियो बनाना शुरू करें
API इंटीग्रेशन
एप्लिकेशन बनाने वाले डेवलपर्स के लिए
साइन अप और लॉगिन करें
कंसोल तक पहुंचने के लिए अपना Atlas Cloud अकाउंट बनाएं या लॉगिन करें
पेमेंट मेथड जोड़ें
अपने अकाउंट को फंड करने के लिए बिलिंग सेक्शन में अपना क्रेडिट कार्ड बाइंड करें
API की जनरेट करें
Console → API Keys पर नेविगेट करें और अपनी ऑथेंटिकेशन की बनाएं
बिल्डिंग शुरू करें
Wan 2.6 को अपने एप्लिकेशन में इंटीग्रेट करने के लिए T2V, I2V या R2V API एंडपॉइंट्स का उपयोग करें
Playground अनुभव
क्विक टेस्टिंग और एक्सपेरिमेंटेशन के लिए
साइन अप और लॉगिन करें
प्लेटफॉर्म तक पहुंचने के लिए अपना Atlas Cloud अकाउंट बनाएं या लॉगिन करें
पेमेंट मेथड जोड़ें
शुरुआत करने के लिए बिलिंग सेक्शन में अपना क्रेडिट कार्ड बाइंड करें
Playground का उपयोग करें
Wan 2.6 playground पर जाएं, T2V/I2V/R2V मोड चुनें और तुरंत वीडियो जनरेट करें
अक्सर पूछे जाने वाले प्रश्न
Wan 2.6 की मल्टी-शॉट क्षमता को क्या यूनीक बनाता है?
Wan 2.6 स्टोरीबोर्ड लॉजिक को सच्चे अर्थ में समझने वाला पहला मॉडल है। Wan 2.5 के विपरीत जो मेसी "मॉर्फिंग" इफेक्ट्स बनाता था, Wan 2.6 ऑटोमैटिकली एक सिंगल प्रॉम्प्ट को सुसंगत ट्रांज़िशन के साथ मल्टिपल डिस्टिंक्ट शॉट्स में सेगमेंट कर सकता है, सीन चेंजेज़ में कैरेक्टर कंसिस्टेंसी बनाए रखता है।
रेफरेंस-टू-वीडियो (R2V) कैसे काम करता है?
2-30 सेकंड का रेफरेंस वीडियो अपलोड करें, और Wan 2.6 कैरेक्टर की अपीयरेंस, मूवमेंट पैटर्न्स और वॉइस कैरेक्टरिस्टिक्स एक्सट्रैक्ट करता है। फिर आप कंसिस्टेंट आइडेंटिटी के साथ उसी कैरेक्टर को फीचर करते हुए नए वीडियो जनरेट कर सकते हैं—कैरेक्टर-ड्रिवेन कंटेंट सीरीज़ बनाने के लिए आदर्श।
कौन से वीडियो फॉर्मेट और ड्यूरेशन सपोर्टेड हैं?
Wan 2.6, 5 से 15 सेकंड की अवधि के साथ 24fps पर 1080p वीडियो जनरेट करता है। समर्थित आस्पेक्ट रेशियो में 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) और 1:1 (स्क्वायर फॉर्मेट) शामिल हैं, जो हर प्लेटफॉर्म के लिए ऑप्टिमाइज़्ड हैं और इन्हें किसी पोस्ट-प्रोडक्शन क्रॉपिंग की ज़रूरत नहीं होती।
क्या Wan 2.6 वीडियो में टेक्स्ट रेंडर कर सकता है?
हां! Wan 2.6 में प्रोडक्ट पैकेजिंग, साइनेज और ब्रांडेड कंटेंट के लिए इंडस्ट्री-लीडिंग टेक्स्ट रेंडरिंग है। मॉडल वीडियो फ्रेम्स के भीतर क्लियर, रीडेबल टेक्स्ट जनरेट कर सकता है—एक क्रिटिकल फीचर जो Seedance और ज़्यादातर प्रतियोगियों में नहीं है।
T2V, I2V और R2V मोड्स में क्या अंतर है?
T2V (टेक्स्ट-टू-वीडियो) मल्टी-शॉट क्षमता के साथ टेक्स्ट प्रॉम्प्ट्स से जनरेट करता है। I2V (इमेज-टू-वीडियो) प्रिसाइज़ टेक्स्ट रेंडरिंग के साथ स्टिल इमेजेज़ को एनिमेट करता है। R2V (रेफरेंस-टू-वीडियो) जनरेशन में कैरेक्टर आइडेंटिटी को प्रिज़र्व करने के लिए वीडियो रेफरेंसेज़ का उपयोग करता है। अपने इनपुट टाइप और कंसिस्टेंसी ज़रूरतों के आधार पर चुनें।
क्या मेरे पास जनरेटेड वीडियो पर कमर्शियल राइट्स हैं?
हां! प्रत्येक Wan 2.6 क्रिएशन फुल कमर्शियल यूसेज राइट्स के साथ आता है। वीडियो मार्केटिंग कैंपेन, क्लाइंट डिलीवरेबल्स, ब्रांडेड कंटेंट और कमर्शियल एप्लिकेशन के लिए प्रोडक्शन-रेडी हैं बिना अतिरिक्त लाइसेंसिंग रिक्वायरमेंट्स के।
Atlas Cloud पर Wan 2.6 का उपयोग क्यों करें?
अपने प्रोफेशनल वीडियो जनरेशन वर्कफ्लोज़ के लिए एंटरप्राइज़-ग्रेड इन्फ्रास्ट्रक्चर का लाभ उठाएं
पर्पज़-बिल्ट इन्फ्रास्ट्रक्चर
डिमांडिंग AI वीडियो वर्कलोड्स के लिए विशेष रूप से ऑप्टिमाइज़्ड इन्फ्रास्ट्रक्चर पर Wan 2.6 की मल्टी-शॉट जनरेशन और R2V क्षमताओं को डिप्लॉय करें। 1080p 15-सेकंड जनरेशन के लिए मैक्सिमम परफॉर्मेंस।
सभी मॉडल्स के लिए यूनिफाइड API
एक यूनिफाइड API के माध्यम से 300+ AI मॉडल्स (LLMs, इमेज, वीडियो, ऑडियो) के साथ Wan 2.6 (T2V, I2V, R2V) तक पहुंचें। कंसिस्टेंट ऑथेंटिकेशन के साथ आपकी सभी जेनेरेटिव AI ज़रूरतों के लिए सिंगल इंटीग्रेशन।
कंपीटिटिव प्राइसिंग
पारदर्शी, पे-एज़-यू-गो प्राइसिंग के साथ AWS की तुलना में 70% तक की बचत करें। कोई छिपा शुल्क नहीं, कोई प्रतिबद्धता नहीं—प्रोटोटाइप से प्रोडक्शन तक बिना किसी भारी खर्च के स्केल करें।
SOC I & II सर्टिफाइड सिक्योरिटी
SOC I & II सर्टिफिकेशन और HIPAA कंप्लायंस के साथ आपके रेफरेंस वीडियो और जनरेटेड कंटेंट प्रोटेक्टेड। एन्क्रिप्टेड ट्रांसमिशन और स्टोरेज के साथ एंटरप्राइज़-ग्रेड सिक्योरिटी।
99.9% अपटाइम SLA
गारंटीड 99.9% अपटाइम के साथ एंटरप्राइज़-ग्रेड रिलायबिलिटी। आपकी Wan 2.6 मल्टी-शॉट वीडियो जनरेशन प्रोडक्शन कैंपेन और क्रिटिकल कंटेंट वर्कफ्लोज़ के लिए हमेशा उपलब्ध है।
आसान इंटीग्रेशन
REST API और मल्टी-लैंग्वेज SDK (Python, Node.js, Go) के साथ मिनटों में कम्पलीट इंटीग्रेशन। यूनिफाइड एंडपॉइंट स्ट्रक्चर के साथ T2V, I2V और R2V मोड्स के बीच सीमलेसली स्विच करें।
तकनीकी विनिर्देश
प्रोफेशनल मल्टी-शॉट वीडियो जनरेशन का अनुभव करें
दुनिया भर के कंटेंट क्रिएटर्स, मार्केटर्स और फिल्ममेकर्स में शामिल हों जो Wan 2.6 की ग्राउंडब्रेकिंग मल्टी-शॉट स्टोरीटेलिंग और कैरेक्टर कंसिस्टेंसी क्षमताओं के साथ वीडियो प्रोडक्शन में क्रांति ला रहे हैं।
Wan 2.6 Spicy Image-to-Video
Wan 2.6 Spicy Image-to-Video turns a first-frame image into a short motion clip with expressive character movement and stable temporal detail. This AtlasCloud variant uses a dedicated Wan 2.6 image-to-video LoRA deployment for a more stylized motion profile.
Highlights
- First-frame image-to-video: Use one starting image plus a text prompt to control movement and camera direction.
- 720p, 1080p, and SR output: Use native 720p/1080p, or choose 1080p-SR / 1440p-SR for FlashVSR super-resolution from a 720p source.
- Short-form generation: Supports 5s, 10s, and 15s clips.
- Optional audio control: Provide an audio URL to guide motion, or disable generated audio for silent output.
- Negative prompt support: Add optional constraints to reduce blur, distortion, or unwanted artifacts.
Parameters
| Parameter | Required | Description |
|---|---|---|
model | Yes | atlascloud/wan-2.6-spicy/image-to-video |
prompt | Yes | Text prompt describing the desired motion. |
image | Yes | First-frame image URL or Base64 image. |
audio | No | Audio URL to guide the generated motion. |
negative_prompt | No | Text describing what to avoid. |
resolution | Yes | 720p, 1080p, 1080p-sr, or 1440p-sr. SR modes render a 720p source and apply FlashVSR. |
duration | No | 5, 10, or 15 seconds. Defaults to 5. |
enable_prompt_expansion | No | Enable upstream prompt expansion. Defaults to false. |
shot_type | No | single or multi. Multi-shot mode requires prompt expansion. Defaults to single. |
generate_audio | No | Whether to include generated audio. Defaults to true; set false for silent output. |
seed | No | Random seed. -1 means random. |
How To Use
curl -X POST "https://api.atlascloud.ai/api/v1/model/generateVideo" \ -H "Authorization: Bearer $AIP_API_KEY" \ -H "Content-Type: application/json" \ --data-raw '{ "model": "atlascloud/wan-2.6-spicy/image-to-video", "prompt": "The woman turns toward the camera with a confident smile, hair moving naturally as the camera slowly pushes in.", "image": "https://static.atlascloud.ai/media/images/db548fe3bd5cafa4ef7e0141d69c8566.jpeg", "negative_prompt": "blurry, low quality, distorted hands, extra limbs", "duration": 5, "resolution": "720p", "generate_audio": true, "seed": -1 }'
Pricing
Pricing uses Wan 2.6 Image-to-Video native-resolution multipliers before account or environment discounts. SR tiers are priced at 80% of the equivalent native-resolution price.
| Resolution | Multiplier | 5s Base Price | 10s Base Price | 15s Base Price |
|---|---|---|---|---|
| 720p | 1.0x | $0.50 | $1.00 | $1.50 |
| 1080p | 1.5x | $0.75 | $1.50 | $2.25 |
| 1080p-sr | 1.2x | $0.60 | $1.20 | $1.80 |
| 1440p-sr | 2.1333x | $1.0667 | $2.1333 | $3.20 |
Formula:
sku_base * max(5, duration) * ( resolution == "1440p-sr" ? 2.1333 : (resolution == "1080p-sr" ? 1.2 : (resolution == "1080p" || resolution == "1080P" ? 1.5 : 1)) )
sku_base = $0.1000/s for 720p. The runtime then applies the model/account discount configured in that environment.
Notes
- This model is allowlist-enabled. Contact AtlasCloud if it is not visible or callable from your account.
- 480p is not exposed for this model.
- This endpoint uses the input image as the first frame of the generated video.
shot_type: "multi"requiresenable_prompt_expansion: true.- Native
720pand1080pcall the underlying deployment directly. SR modes first generate a 720p source, then upscale with FlashVSR. - Generation is asynchronous. Poll
/api/v1/model/prediction/{request_id}for the final video URL.


















