
Wan 2.6 Spicy Image-to-Video API by Atlas Cloud
AtlasCloud Wan 2.6 Spicy Image-to-Video turns a reference image into a short motion clip with expressive character movement and stable temporal detail.
Wan 2.6การสร้างวิดีโอ AI หลายช็อตระดับมืออาชีพ
ความก้าวหน้าล่าสุดของ Alibaba ในการสร้างวิดีโอ AI สร้างวิดีโอ 1080p ยาวถึง 15 วินาทีด้วยการเล่าเรื่องแบบหลายช็อต ความสอดคล้องของตัวละครที่ขับเคลื่อนด้วยการอ้างอิง และการซิงโครไนซ์เสียงภาพแบบเนทีฟ โมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ดอย่างแท้จริงสำหรับการเล่าเรื่องแบบภาพยนตร์
ความก้าวหน้าที่ปฏิวัติวงการ
สิ่งที่ทำให้ Wan 2.6 เป็นตัวเปลี่ยนเกมในการสร้างวิดีโอ AI
การเล่าเรื่องหลายช็อต
โมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ด สร้างช็อตต่อเนื่องโดยอัตโนมัติด้วยการเปลี่ยนฉากที่สอดคล้องกัน รักษาลักษณะตัวละครและความสอดคล้องของสภาพแวดล้อมตลอดการเปลี่ยนฉาก—ทำให้สามารถสร้างส่วนโค้งเรื่องที่สมบูรณ์ในการสร้างเพียงครั้งเดียว 15 วินาที
อ้างอิงเป็นวิดีโอ (R2V)
อัปโหลดวิดีโออ้างอิง 2-30 วินาทีเพื่อดึงข้อมูลและรักษาลักษณะตัวละคร รูปแบบการเคลื่อนไหว และลักษณะเสียง สร้างการแสดงตัวละครที่สอดคล้องกันในหลายวิดีโอด้วยความแม่นยำที่ไม่เคยมีมาก่อน
การเรนเดอร์ข้อความที่แม่นยำ
ความสามารถในการเรนเดอร์ข้อความชั้นนำในอุตสาหกรรมสำหรับบรรจุภัณฑ์ผลิตภัณฑ์ ป้าย และเนื้อหาแบรนด์ สร้างข้อความที่ชัดเจนและอ่านง่ายภายในเฟรมวิดีโอ—จำเป็นสำหรับการตลาดและการใช้งานเชิงพาณิชย์
ความสามารถหลัก
ระยะเวลาขยายถึง 15 วินาที
สร้างได้สูงสุด 15 วินาทีต่อวิดีโอด้วยโครงสร้าง "สามองก์" ที่สมบูรณ์ (ปูเรื่อง → ดำเนินเรื่อง → คลี่คลาย)
คุณภาพ 1080p ระดับมืออาชีพ
เอาต์พุต 1080p แบบเนทีฟที่ 24fps พร้อมคุณภาพภาพยนตร์และความเสถียรของภาพที่ดีขึ้น
การซิงโครไนซ์เสียงแบบเนทีฟ
บทสนทนาตรงกับการเคลื่อนไหวของริมฝีปาก ดนตรีประกอบสอดคล้องกับจังหวะ เอฟเฟกต์เสียงทำงานได้อย่างสมบูรณ์แบบ
ความสอดคล้องของตัวละคร
รักษาลักษณะ เครื่องแต่งกาย และเอกลักษณ์ของตัวละครตลอดช็อตและหลายวิดีโอ
การควบคุมกล้องแบบภาพยนตร์
การเคลื่อนไหวกล้องแบบมืออาชีพรวมถึงแพน ซูม ติดตามช็อต และการเคลื่อนไหวแบบดอลลี่
อัตราส่วนภาพที่ยืดหยุ่น
16:9 (YouTube), 9:16 (Reels), 1:1 (สี่เหลี่ยมจัตุรัส) - ปรับให้เหมาะกับแพลตฟอร์มโดยไม่ต้องครอบตัดหลังการผลิต
Wan 2.6 vs Wan 2.5: การปรับปรุงสำคัญ
ดูว่ามีอะไรใหม่ในเวอร์ชันล่าสุด
โหมดการสร้างเฉพาะทางสามแบบ
เลือกโหมดที่เหมาะสมสำหรับเวิร์กโฟลว์สร้างสรรค์ของคุณ
ข้อความเป็นวิดีโอ (T2V)
ได้รับความนิยมสูงสุดสร้างวิดีโอที่สมบูรณ์จากพรอมต์ข้อความด้วยการแบ่งส่วนหลายช็อตที่ปรับปรุงแล้วและการจัดการพรอมต์ที่ดีขึ้น เหมาะสำหรับการเล่าเรื่องและการสำรวจความคิดสร้างสรรค์
- การแบ่งส่วนช็อตอัตโนมัติจากพรอมต์เดียว
- ความเข้าใจการโต้ตอบหลายตัวละคร
- การเคลื่อนไหวกล้องและสัญญาณทางอารมณ์
- การรักษารายละเอียดสภาพแวดล้อม
รูปภาพเป็นวิดีโอ (I2V)
ปรับปรุงแล้วเปลี่ยนภาพนิ่งให้เป็นวิดีโอเคลื่อนไหวด้วยความสอดคล้องการเคลื่อนไหวที่ดีขึ้น เหมาะสำหรับการจัดแสดงผลิตภัณฑ์ ภาพเคลื่อนไหวจากภาพถ่าย และการเล่าเรื่องด้วยภาพ
- การเรนเดอร์ข้อความที่แม่นยำสำหรับผลิตภัณฑ์
- ความสอดคล้องของสไตล์ตลอดเฟรม
- การเคลื่อนไหวตามธรรมชาติจากภาพนิ่ง
- การเพิ่มประสิทธิภาพภาพที่ขับเคลื่อนด้วยการเล่าเรื่อง
อ้างอิงเป็นวิดีโอ (R2V)
ใหม่อัปโหลดวิดีโออ้างอิง (2-30 วินาที) เพื่อรักษาลักษณะตัวละคร รูปแบบการเคลื่อนไหว และเสียง การรับประกันความสอดคล้องที่แข็งแกร่งที่สุดสำหรับเนื้อหาที่ขับเคลื่อนด้วยตัวละคร
- การรักษาเอกลักษณ์ตัวละครอย่างสมบูรณ์
- การดึงข้อมูลลักษณะเสียง
- การทำซ้ำรูปแบบการเคลื่อนไหว
- ฉากแสดงร่วมหลายตัวละคร
เหมาะสำหรับ
การตลาดและโฆษณา
การสาธิตผลิตภัณฑ์พร้อมการเรนเดอร์ข้อความ แคมเปญแบรนด์พร้อมความสอดคล้องของตัวละคร และวิดีโอส่งเสริมการขาย
การสร้างเนื้อหา
วิดีโอ YouTube, รีลโซเชียลมีเดีย, การเล่าเรื่องหลายช็อต และเวิร์กโฟลว์การตัดต่อวิดีโอ
อีคอมเมิร์ซ
การจัดแสดงผลิตภัณฑ์พร้อมข้อความที่แม่นยำ วิดีโอสอน และการสร้างคำรับรองลูกค้าใหม่
การศึกษาและการฝึกอบรม
เนื้อหาการสอน เนื้อหาหลักสูตร และการเล่าเรื่องการศึกษาหลายฉาก
ความบันเทิง
ภาพยนตร์สั้น เรื่องราวที่ขับเคลื่อนด้วยตัวละคร ลำดับภาพยนตร์ และการทดลองเชิงสร้างสรรค์
การแสดงภาพล่วงหน้า
การพัฒนาแนวคิดภาพยนตร์ การสร้างสตอรีบอร์ด และการวางแผนฉากสำหรับการผลิต
การรวม API Wan 2.6 T2V, I2V และ R2V
ชุด API ที่สมบูรณ์สำหรับการสร้างข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และอ้างอิงเป็นวิดีโอ
API ข้อความเป็นวิดีโอ (T2V API)
API Wan 2.6 T2V ของเราเปลี่ยนพรอมต์ข้อความเป็นวิดีโอภาพยนตร์หลายช็อตด้วยการแบ่งส่วนฉากอัตโนมัติ สร้างวิดีโอ 1080p แบบมืออาชีพยาวถึง 15 วินาทีพร้อมการซิงโครไนซ์เสียงแบบเนทีฟ
API รูปภาพเป็นวิดีโอ (I2V API)
API Wan 2.6 I2V ของเราทำให้ภาพนิ่งมีชีวิตชีวาด้วยการควบคุมการเคลื่อนไหวที่แม่นยำและการเรนเดอร์ข้อความ เหมาะสำหรับวิดีโอผลิตภัณฑ์ ภาพเคลื่อนไหวจากภาพถ่าย และการสร้างเนื้อหาแบรนด์
API อ้างอิงเป็นวิดีโอ (R2V API)
API Wan 2.6 R2V ของเรารักษาเอกลักษณ์ตัวละครจากวิดีโออ้างอิง อัปโหลดคลิป 2-30 วินาทีเพื่อดึงข้อมูลลักษณะ เสียง และรูปแบบการเคลื่อนไหวสำหรับการสร้างตัวละครที่สอดคล้องกัน
ชุด API ที่สมบูรณ์
โหมด API Wan 2.6 ทั้งสาม (T2V API, I2V API, R2V API) รองรับสถาปัตยกรรม RESTful พร้อมเอกสารที่ครอบคลุม เริ่มต้นด้วย SDK สำหรับ Python, Node.js และอื่นๆ แต่ละเอนด์พอยต์รวมการซิงโครไนซ์เสียงภาพแบบเนทีฟและสิทธิ์การใช้งานเชิงพาณิชย์อย่างสมบูรณ์
วิธีเริ่มต้นใช้งาน Wan 2.6
เริ่มสร้างวิดีโอมืออาชีพในไม่กี่นาทีด้วยสองเส้นทางง่ายๆ
การรวม API
สำหรับนักพัฒนาที่สร้างแอพพลิเคชัน
ลงทะเบียนและเข้าสู่ระบบ
สร้างบัญชี Atlas Cloud หรือเข้าสู่ระบบเพื่อเข้าถึงคอนโซล
เพิ่มวิธีการชำระเงิน
เชื่อมโยงบัตรเครดิตของคุณในส่วนการเรียกเก็บเงินเพื่อเติมเงินในบัญชี
สร้างคีย์ API
ไปที่คอนโซล → คีย์ API และสร้างคีย์การพิสูจน์ตัวตนของคุณ
เริ่มสร้าง
ใช้เอนด์พอยต์ API T2V, I2V หรือ R2V เพื่อรวม Wan 2.6 เข้ากับแอพพลิเคชันของคุณ
ประสบการณ์ Playground
สำหรับการทดสอบอย่างรวดเร็วและการทดลอง
ลงทะเบียนและเข้าสู่ระบบ
สร้างบัญชี Atlas Cloud หรือเข้าสู่ระบบเพื่อเข้าถึงแพลตฟอร์ม
เพิ่มวิธีการชำระเงิน
เชื่อมโยงบัตรเครดิตของคุณในส่วนการเรียกเก็บเงินเพื่อเริ่มต้น
ใช้ Playground
ไปที่ playground Wan 2.6 เลือกโหมด T2V/I2V/R2V และสร้างวิดีโอได้ทันที
คำถามที่พบบ่อย
อะไรทำให้ความสามารถหลายช็อตของ Wan 2.6 ไม่เหมือนใคร?
Wan 2.6 เป็นโมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ดอย่างแท้จริง ต่างจาก Wan 2.5 ที่สร้างเอฟเฟกต์ "การแปลงรูปแบบ" ที่ยุ่งเหยิง Wan 2.6 สามารถแบ่งส่วนพรอมต์เดียวให้เป็นหลายช็อตที่แตกต่างกันโดยอัตโนมัติพร้อมการเปลี่ยนฉากที่สอดคล้องกัน รักษาความสอดคล้องของตัวละครตลอดการเปลี่ยนฉาก
อ้างอิงเป็นวิดีโอ (R2V) ทำงานอย่างไร?
อัปโหลดวิดีโออ้างอิง 2-30 วินาที และ Wan 2.6 จะดึงข้อมูลลักษณะตัวละคร รูปแบบการเคลื่อนไหว และลักษณะเสียง จากนั้นคุณสามารถสร้างวิดีโอใหม่ที่มีตัวละครเดียวกันด้วยเอกลักษณ์ที่สอดคล้องกัน—เหมาะสำหรับการสร้างซีรีส์เนื้อหาที่ขับเคลื่อนด้วยตัวละคร
รูปแบบและระยะเวลาวิดีโอใดที่รองรับ?
Wan 2.6 สร้างวิดีโอ 1080p ที่ 24fps ระยะเวลา 5 ถึง 15 วินาที อัตราส่วนภาพที่รองรับประกอบด้วย 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) และ 1:1 (รูปแบบสี่เหลี่ยมจัตุรัส) ปรับให้เหมาะกับแต่ละแพลตฟอร์มโดยไม่ต้องครอบตัดหลังการผลิต
Wan 2.6 สามารถเรนเดอร์ข้อความในวิดีโอได้หรือไม่?
ได้! Wan 2.6 มีการเรนเดอร์ข้อความชั้นนำในอุตสาหกรรมสำหรับบรรจุภัณฑ์ผลิตภัณฑ์ ป้าย และเนื้อหาแบรนด์ โมเดลสามารถสร้างข้อความที่ชัดเจนและอ่านง่ายภายในเฟรมวิดีโอ—คุณลักษณะสำคัญที่ Seedance และคู่แข่งส่วนใหญ่ขาด
ความแตกต่างระหว่างโหมด T2V, I2V และ R2V คืออะไร?
T2V (ข้อความเป็นวิดีโอ) สร้างจากพรอมต์ข้อความด้วยความสามารถหลายช็อต I2V (รูปภาพเป็นวิดีโอ) ทำให้ภาพนิ่งมีชีวิตชีวาด้วยการเรนเดอร์ข้อความที่แม่นยำ R2V (อ้างอิงเป็นวิดีโอ) ใช้การอ้างอิงวิดีโอเพื่อรักษาเอกลักษณ์ตัวละครตลอดการสร้าง เลือกตามประเภทอินพุตและความต้องการความสอดคล้องของคุณ
ฉันมีสิทธิ์เชิงพาณิชย์ในวิดีโอที่สร้างหรือไม่?
ใช่! ทุกการสร้างสรรค์ Wan 2.6 มาพร้อมสิทธิ์การใช้งานเชิงพาณิชย์อย่างสมบูรณ์ วิดีโอพร้อมสำหรับการผลิตสำหรับแคมเปญการตลาด ผลงานส่งมอบลูกค้า เนื้อหาแบรนด์ และแอพพลิเคชันเชิงพาณิชย์โดยไม่มีข้อกำหนดการอนุญาตเพิ่มเติม
ทำไมต้องใช้ Wan 2.6 บน Atlas Cloud?
ใช้ประโยชน์จากโครงสร้างพื้นฐานระดับองค์กรสำหรับเวิร์กโฟลว์การสร้างวิดีโอมืออาชีพของคุณ
โครงสร้างพื้นฐานที่สร้างขึ้นเพื่อวัตถุประสงค์
ปรับใช้การสร้างหลายช็อตและความสามารถ R2V ของ Wan 2.6 บนโครงสร้างพื้นฐานที่ปรับให้เหมาะสมเฉพาะสำหรับภาระงานวิดีโอ AI ที่ต้องการสูง ประสิทธิภาพสูงสุดสำหรับการสร้าง 1080p 15 วินาที
API แบบรวมสำหรับทุกโมเดล
เข้าถึง Wan 2.6 (T2V, I2V, R2V) พร้อมกับโมเดล AI กว่า 300 รายการ (LLM, รูปภาพ, วิดีโอ, เสียง) ผ่าน API เดียว การรวมเดียวสำหรับทุกความต้องการ AI สร้างสรรค์ของคุณด้วยการพิสูจน์ตัวตนที่สอดคล้องกัน
ราคาที่แข่งขันได้
ประหยัดได้สูงสุด 70% เมื่อเทียบกับ AWS ด้วยราคาแบบจ่ายตามการใช้งานที่โปร่งใส ไม่มีค่าธรรมเนียมซ่อนเร้น ไม่มีข้อผูกมัด—ขยายจากต้นแบบสู่การผลิตโดยไม่ทำลายงบประมาณ
ความปลอดภัยที่ได้รับการรับรอง SOC I & II
วิดีโออ้างอิงและเนื้อหาที่สร้างของคุณได้รับการปกป้องด้วยการรับรอง SOC I & II และการปฏิบัติตาม HIPAA ความปลอดภัยระดับองค์กรพร้อมการส่งและจัดเก็บที่เข้ารหัส
SLA เวลาทำงาน 99.9%
ความน่าเชื่อถือระดับองค์กรพร้อมการรับประกันเวลาทำงาน 99.9% การสร้างวิดีโอหลายช็อต Wan 2.6 ของคุณพร้อมใช้งานเสมอสำหรับแคมเปญการผลิตและเวิร์กโฟลว์เนื้อหาที่สำคัญ
การรวมที่ง่ายดาย
การรวมที่สมบูรณ์ในไม่กี่นาทีด้วย REST API และ SDK หลายภาษา (Python, Node.js, Go) สลับระหว่างโหมด T2V, I2V และ R2V ได้อย่างราบรื่นด้วยโครงสร้างเอนด์พอยต์แบบรวม
ข้อกำหนดทางเทคนิค
สัมผัสประสบการณ์การสร้างวิดีโอหลายช็อตระดับมืออาชีพ
เข้าร่วมกับผู้สร้างเนื้อหา นักการตลาด และผู้สร้างภาพยนตร์ทั่วโลกที่กำลังปฏิวัติการผลิตวิดีโอด้วยความสามารถในการเล่าเรื่องหลายช็อตและความสอดคล้องของตัวละครที่ก้าวล้ำของ Wan 2.6
Wan 2.6 Spicy Image-to-Video
Wan 2.6 Spicy Image-to-Video turns a first-frame image into a short motion clip with expressive character movement and stable temporal detail. This AtlasCloud variant uses a dedicated Wan 2.6 image-to-video LoRA deployment for a more stylized motion profile.
Highlights
- First-frame image-to-video: Use one starting image plus a text prompt to control movement and camera direction.
- 720p, 1080p, and SR output: Use native 720p/1080p, or choose 1080p-SR / 1440p-SR for FlashVSR super-resolution from a 720p source.
- Short-form generation: Supports 5s, 10s, and 15s clips.
- Optional audio control: Provide an audio URL to guide motion, or disable generated audio for silent output.
- Negative prompt support: Add optional constraints to reduce blur, distortion, or unwanted artifacts.
Parameters
| Parameter | Required | Description |
|---|---|---|
model | Yes | atlascloud/wan-2.6-spicy/image-to-video |
prompt | Yes | Text prompt describing the desired motion. |
image | Yes | First-frame image URL or Base64 image. |
audio | No | Audio URL to guide the generated motion. |
negative_prompt | No | Text describing what to avoid. |
resolution | Yes | 720p, 1080p, 1080p-sr, or 1440p-sr. SR modes render a 720p source and apply FlashVSR. |
duration | No | 5, 10, or 15 seconds. Defaults to 5. |
enable_prompt_expansion | No | Enable upstream prompt expansion. Defaults to false. |
shot_type | No | single or multi. Multi-shot mode requires prompt expansion. Defaults to single. |
generate_audio | No | Whether to include generated audio. Defaults to true; set false for silent output. |
seed | No | Random seed. -1 means random. |
How To Use
curl -X POST "https://api.atlascloud.ai/api/v1/model/generateVideo" \ -H "Authorization: Bearer $AIP_API_KEY" \ -H "Content-Type: application/json" \ --data-raw '{ "model": "atlascloud/wan-2.6-spicy/image-to-video", "prompt": "The woman turns toward the camera with a confident smile, hair moving naturally as the camera slowly pushes in.", "image": "https://static.atlascloud.ai/media/images/db548fe3bd5cafa4ef7e0141d69c8566.jpeg", "negative_prompt": "blurry, low quality, distorted hands, extra limbs", "duration": 5, "resolution": "720p", "generate_audio": true, "seed": -1 }'
Pricing
Pricing uses Wan 2.6 Image-to-Video native-resolution multipliers before account or environment discounts. SR tiers are priced at 80% of the equivalent native-resolution price.
| Resolution | Multiplier | 5s Base Price | 10s Base Price | 15s Base Price |
|---|---|---|---|---|
| 720p | 1.0x | $0.50 | $1.00 | $1.50 |
| 1080p | 1.5x | $0.75 | $1.50 | $2.25 |
| 1080p-sr | 1.2x | $0.60 | $1.20 | $1.80 |
| 1440p-sr | 2.1333x | $1.0667 | $2.1333 | $3.20 |
Formula:
sku_base * max(5, duration) * ( resolution == "1440p-sr" ? 2.1333 : (resolution == "1080p-sr" ? 1.2 : (resolution == "1080p" || resolution == "1080P" ? 1.5 : 1)) )
sku_base = $0.1000/s for 720p. The runtime then applies the model/account discount configured in that environment.
Notes
- This model is allowlist-enabled. Contact AtlasCloud if it is not visible or callable from your account.
- 480p is not exposed for this model.
- This endpoint uses the input image as the first frame of the generated video.
shot_type: "multi"requiresenable_prompt_expansion: true.- Native
720pand1080pcall the underlying deployment directly. SR modes first generate a 720p source, then upscale with FlashVSR. - Generation is asynchronous. Poll
/api/v1/model/prediction/{request_id}for the final video URL.


















