alibaba/wan-2.6/image-to-video

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

IMAGE-TO-VIDEONEW
ภาพเป็นวิดีโอ

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Image-to-Video Model

Alibaba WAN 2.6 is an advanced image-to-video model on Alibaba Cloud’s DashScope. It generates high-quality videos from images and supports output resolutions of 720p and 1080p.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
720p$0.5$1
1080p$0.75$1.5

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

รายละเอียดสเปก

ภาพรวม:

ผู้ให้บริการโมเดล:QWEN
ประเภทโมเดล:image-to-video
การใช้งาน:Inference API; Playground
ราคา:$0.0700/second

พารามิเตอร์สำคัญ:

ขนาดสูงสุด:ความกว้าง × ความสูงสูงสุด (กำหนดค่าได้)
รองรับ LoRA:ไม่รองรับ
ตัวเลือก Seed:N/A

สร้างผลงานชิ้นต่อไปของคุณ

🎬การสร้างวิดีโอหลายช็อต

Wan 2.6การสร้างวิดีโอ AI หลายช็อตระดับมืออาชีพ

ความก้าวหน้าล่าสุดของ Alibaba ในการสร้างวิดีโอ AI สร้างวิดีโอ 1080p ยาวถึง 15 วินาทีด้วยการเล่าเรื่องแบบหลายช็อต ความสอดคล้องของตัวละครที่ขับเคลื่อนด้วยการอ้างอิง และการซิงโครไนซ์เสียงภาพแบบเนทีฟ โมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ดอย่างแท้จริงสำหรับการเล่าเรื่องแบบภาพยนตร์

ความก้าวหน้าที่ปฏิวัติวงการ

สิ่งที่ทำให้ Wan 2.6 เป็นตัวเปลี่ยนเกมในการสร้างวิดีโอ AI

การเล่าเรื่องหลายช็อต

โมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ด สร้างช็อตต่อเนื่องโดยอัตโนมัติด้วยการเปลี่ยนฉากที่สอดคล้องกัน รักษาลักษณะตัวละครและความสอดคล้องของสภาพแวดล้อมตลอดการเปลี่ยนฉาก—ทำให้สามารถสร้างส่วนโค้งเรื่องที่สมบูรณ์ในการสร้างเพียงครั้งเดียว 15 วินาที

อ้างอิงเป็นวิดีโอ (R2V)

อัปโหลดวิดีโออ้างอิง 2-30 วินาทีเพื่อดึงข้อมูลและรักษาลักษณะตัวละคร รูปแบบการเคลื่อนไหว และลักษณะเสียง สร้างการแสดงตัวละครที่สอดคล้องกันในหลายวิดีโอด้วยความแม่นยำที่ไม่เคยมีมาก่อน

การเรนเดอร์ข้อความที่แม่นยำ

ความสามารถในการเรนเดอร์ข้อความชั้นนำในอุตสาหกรรมสำหรับบรรจุภัณฑ์ผลิตภัณฑ์ ป้าย และเนื้อหาแบรนด์ สร้างข้อความที่ชัดเจนและอ่านง่ายภายในเฟรมวิดีโอ—จำเป็นสำหรับการตลาดและการใช้งานเชิงพาณิชย์

ความสามารถหลัก

ระยะเวลาขยายถึง 15 วินาที

สร้างได้สูงสุด 15 วินาทีต่อวิดีโอด้วยโครงสร้าง "สามฉาก" ที่สมบูรณ์ (การตั้งค่า → การกระทำ → การแก้ไข)

คุณภาพ 1080p ระดับมืออาชีพ

เอาต์พุต 1080p แบบเนทีฟที่ 24fps พร้อมคุณภาพภาพยนตร์และความเสถียรของภาพที่ดีขึ้น

การซิงโครไนซ์เสียงแบบเนทีฟ

บทสนทนาตรงกับการเคลื่อนไหวของริมฝีปาก ดนตรีประกอบสอดคล้องกับจังหวะ เอฟเฟกต์เสียงทำงานได้อย่างสมบูรณ์แบบ

ความสอดคล้องของตัวละคร

รักษาลักษณะ เครื่องแต่งกาย และเอกลักษณ์ของตัวละครตลอดช็อตและหลายวิดีโอ

การควบคุมกล้องแบบภาพยนตร์

การเคลื่อนไหวกล้องแบบมืออาชีพรวมถึงแพน ซูม ติดตามช็อต และการเคลื่อนไหวแบบดอลลี่

อัตราส่วนภาพที่ยืดหยุ่น

16:9 (YouTube), 9:16 (Reels), 1:1 (สี่เหลี่ยมจัตุรัส) - ปรับให้เหมาะกับแพลตฟอร์มโดยไม่ต้องครอบตัดหลังการผลิต

Wan 2.6 vs Wan 2.5: การปรับปรุงสำคัญ

ดูว่ามีอะไรใหม่ในเวอร์ชันล่าสุด

ระยะเวลาวิดีโอ
สูงสุด 15 วินาที
Wan 2.5: สูงสุด 10 วินาที
ความสามารถหลายช็อต
เข้าใจตรรกะสตอรีบอร์ด
Wan 2.5: ช็อตเดียวหรือการแปลงรูปแบบที่ยุ่งเหยิง
รองรับวิดีโออ้างอิง
โหมด R2V พร้อมการรักษาเต็มรูปแบบ
Wan 2.5: อ้างอิงรูปภาพเท่านั้น
ความสอดคล้องตัวละคร
ดีเยี่ยมระหว่างช็อต
Wan 2.5: ปัญหาการเลื่อนตัวละคร
ความเสถียรของการเคลื่อนไหว
ลดการสั่นและสิ่งผิดปกติ
Wan 2.5: การเลื่อนเฟรมเป็นครั้งคราว
ความเข้าใจพรอมต์
ฉากหลายตัวละครที่ซับซ้อน
Wan 2.5: การสร้างฉากพื้นฐาน

โหมดการสร้างเฉพาะทางสามแบบ

เลือกโหมดที่เหมาะสมสำหรับเวิร์กโฟลว์สร้างสรรค์ของคุณ

ข้อความเป็นวิดีโอ (T2V)

ได้รับความนิยมสูงสุด

สร้างวิดีโอที่สมบูรณ์จากพรอมต์ข้อความด้วยการแบ่งส่วนหลายช็อตที่ปรับปรุงแล้วและการจัดการพรอมต์ที่ดีขึ้น เหมาะสำหรับการเล่าเรื่องและการสำรวจความคิดสร้างสรรค์

  • การแบ่งส่วนช็อตอัตโนมัติจากพรอมต์เดียว
  • ความเข้าใจการโต้ตอบหลายตัวละคร
  • การเคลื่อนไหวกล้องและสัญญาณทางอารมณ์
  • การรักษารายละเอียดสภาพแวดล้อม

รูปภาพเป็นวิดีโอ (I2V)

ปรับปรุงแล้ว

เปลี่ยนภาพนิ่งให้เป็นวิดีโอเคลื่อนไหวด้วยความสอดคล้องการเคลื่อนไหวที่ดีขึ้น เหมาะสำหรับการจัดแสดงผลิตภัณฑ์ ภาพเคลื่อนไหวจากภาพถ่าย และการเล่าเรื่องด้วยภาพ

  • การเรนเดอร์ข้อความที่แม่นยำสำหรับผลิตภัณฑ์
  • ความสอดคล้องของสไตล์ตลอดเฟรม
  • การเคลื่อนไหวตามธรรมชาติจากภาพนิ่ง
  • การเพิ่มประสิทธิภาพภาพที่ขับเคลื่อนด้วยการเล่าเรื่อง

อ้างอิงเป็นวิดีโอ (R2V)

ใหม่

อัปโหลดวิดีโออ้างอิง (2-30 วินาที) เพื่อรักษาลักษณะตัวละคร รูปแบบการเคลื่อนไหว และเสียง การรับประกันความสอดคล้องที่แข็งแกร่งที่สุดสำหรับเนื้อหาที่ขับเคลื่อนด้วยตัวละคร

  • การรักษาเอกลักษณ์ตัวละครอย่างสมบูรณ์
  • การดึงข้อมูลลักษณะเสียง
  • การทำซ้ำรูปแบบการเคลื่อนไหว
  • ฉากแสดงร่วมหลายตัวละคร

เหมาะสำหรับ

การตลาดและโฆษณา

การสาธิตผลิตภัณฑ์พร้อมการเรนเดอร์ข้อความ แคมเปญแบรนด์พร้อมความสอดคล้องของตัวละคร และวิดีโอส่งเสริมการขาย

การสร้างเนื้อหา

วิดีโอ YouTube, รีลโซเชียลมีเดีย, การเล่าเรื่องหลายช็อต และเวิร์กโฟลว์การตัดต่อวิดีโอ

อีคอมเมิร์ซ

การจัดแสดงผลิตภัณฑ์พร้อมข้อความที่แม่นยำ วิดีโอสอน และการสร้างคำรับรองลูกค้าใหม่

การศึกษาและการฝึกอบรม

เนื้อหาการสอน เนื้อหาหลักสูตร และการเล่าเรื่องการศึกษาหลายฉาก

ความบันเทิง

ภาพยนตร์สั้น เรื่องราวที่ขับเคลื่อนด้วยตัวละคร ลำดับภาพยนตร์ และการทดลองเชิงสร้างสรรค์

การแสดงภาพล่วงหน้า

การพัฒนาแนวคิดภาพยนตร์ การสร้างสตอรีบอร์ด และการวางแผนฉากสำหรับการผลิต

การรวม API Wan 2.6 T2V, I2V และ R2V

ชุด API ที่สมบูรณ์สำหรับการสร้างข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และอ้างอิงเป็นวิดีโอ

API ข้อความเป็นวิดีโอ (T2V API)

API Wan 2.6 T2V ของเราเปลี่ยนพรอมต์ข้อความเป็นวิดีโอภาพยนตร์หลายช็อตด้วยการแบ่งส่วนฉากอัตโนมัติ สร้างวิดีโอ 1080p แบบมืออาชีพยาวถึง 15 วินาทีพร้อมการซิงโครไนซ์เสียงแบบเนทีฟ

การเล่าเรื่องหลายช็อตจากพรอมต์เดียว
ระยะเวลา 15 วินาทีพร้อมโครงสร้างสามฉาก
ความเข้าใจพรอมต์ที่ดีขึ้นสำหรับฉากที่ซับซ้อน
อัตราส่วนภาพที่ยืดหยุ่น: 16:9, 9:16, 1:1

API รูปภาพเป็นวิดีโอ (I2V API)

API Wan 2.6 I2V ของเราทำให้ภาพนิ่งมีชีวิตชีวาด้วยการควบคุมการเคลื่อนไหวที่แม่นยำและการเรนเดอร์ข้อความ เหมาะสำหรับวิดีโอผลิตภัณฑ์ ภาพเคลื่อนไหวจากภาพถ่าย และการสร้างเนื้อหาแบรนด์

การเรนเดอร์ข้อความที่แม่นยำสำหรับผลิตภัณฑ์และป้าย
ความสอดคล้องของสไตล์ในเฟรมแอนิเมชัน
การเคลื่อนไหวตามธรรมชาติด้วยความสอดคล้องที่ดีขึ้น
ผลลัพธ์ภาพที่ปรับให้เหมาะสมด้วยการเล่าเรื่อง

API อ้างอิงเป็นวิดีโอ (R2V API)

API Wan 2.6 R2V ของเรารักษาเอกลักษณ์ตัวละครจากวิดีโออ้างอิง อัปโหลดคลิป 2-30 วินาทีเพื่อดึงข้อมูลลักษณะ เสียง และรูปแบบการเคลื่อนไหวสำหรับการสร้างตัวละครที่สอดคล้องกัน

การรักษาลักษณะและเอกลักษณ์ตัวละคร
การดึงข้อมูลและการทำซ้ำลักษณะเสียง
การวิเคราะห์และการสร้างซ้ำรูปแบบการเคลื่อนไหว
รองรับฉากหลายตัวละคร
💡

ชุด API ที่สมบูรณ์

โหมด API Wan 2.6 ทั้งสาม (T2V API, I2V API, R2V API) รองรับสถาปัตยกรรม RESTful พร้อมเอกสารที่ครอบคลุม เริ่มต้นด้วย SDK สำหรับ Python, Node.js และอื่นๆ แต่ละเอนด์พอยต์รวมการซิงโครไนซ์เสียงภาพแบบเนทีฟและสิทธิ์การใช้งานเชิงพาณิชย์อย่างสมบูรณ์

วิธีเริ่มต้นใช้งาน Wan 2.6

เริ่มสร้างวิดีโอมืออาชีพในไม่กี่นาทีด้วยสองเส้นทางง่ายๆ

การรวม API

สำหรับนักพัฒนาที่สร้างแอพพลิเคชัน

1

ลงทะเบียนและเข้าสู่ระบบ

สร้างบัญชี Atlas Cloud หรือเข้าสู่ระบบเพื่อเข้าถึงคอนโซล

2

เพิ่มวิธีการชำระเงิน

เชื่อมโยงบัตรเครดิตของคุณในส่วนการเรียกเก็บเงินเพื่อเติมเงินในบัญชี

3

สร้างคีย์ API

ไปที่คอนโซล → คีย์ API และสร้างคีย์การพิสูจน์ตัวตนของคุณ

4

เริ่มสร้าง

ใช้เอนด์พอยต์ API T2V, I2V หรือ R2V เพื่อรวม Wan 2.6 เข้ากับแอพพลิเคชันของคุณ

ประสบการณ์ Playground

สำหรับการทดสอบอย่างรวดเร็วและการทดลอง

1

ลงทะเบียนและเข้าสู่ระบบ

สร้างบัญชี Atlas Cloud หรือเข้าสู่ระบบเพื่อเข้าถึงแพลตฟอร์ม

2

เพิ่มวิธีการชำระเงิน

เชื่อมโยงบัตรเครดิตของคุณในส่วนการเรียกเก็บเงินเพื่อเริ่มต้น

3

ใช้ Playground

ไปที่ playground Wan 2.6 เลือกโหมด T2V/I2V/R2V และสร้างวิดีโอได้ทันที

💡
เคล็ดลับมืออาชีพ: ทดสอบโหมดการสร้างต่างๆ ใน Playground ก่อนเพื่อทำความเข้าใจว่าโหมดใดใช้งานได้ดีที่สุดสำหรับกรณีการใช้งานของคุณ จากนั้นจึงรวม API ที่สอดคล้องกันสำหรับขนาดการผลิต

คำถามที่พบบ่อย

อะไรทำให้ความสามารถหลายช็อตของ Wan 2.6 ไม่เหมือนใคร?

Wan 2.6 เป็นโมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ดอย่างแท้จริง ต่างจาก Wan 2.5 ที่สร้างเอฟเฟกต์ "การแปลงรูปแบบ" ที่ยุ่งเหยิง Wan 2.6 สามารถแบ่งส่วนพรอมต์เดียวให้เป็นหลายช็อตที่แตกต่างกันโดยอัตโนมัติพร้อมการเปลี่ยนฉากที่สอดคล้องกัน รักษาความสอดคล้องของตัวละครตลอดการเปลี่ยนฉาก

อ้างอิงเป็นวิดีโอ (R2V) ทำงานอย่างไร?

อัปโหลดวิดีโออ้างอิง 2-30 วินาที และ Wan 2.6 จะดึงข้อมูลลักษณะตัวละคร รูปแบบการเคลื่อนไหว และลักษณะเสียง จากนั้นคุณสามารถสร้างวิดีโอใหม่ที่มีตัวละครเดียวกันด้วยเอกลักษณ์ที่สอดคล้องกัน—เหมาะสำหรับการสร้างซีรีส์เนื้อหาที่ขับเคลื่อนด้วยตัวละคร

รูปแบบและระยะเวลาวิดีโอใดที่รองรับ?

Wan 2.6 สร้างวิดีโอ 1080p ที่ 24fps ระยะเวลา 5 ถึง 15 วินาที อัตราส่วนภาพที่รองรับประกอบด้วย 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) และ 1:1 (รูปแบบสี่เหลี่ยมจัตุรัส) ปรับให้เหมาะกับแต่ละแพลตฟอร์มโดยไม่ต้องครอบตัดหลังการผลิต

Wan 2.6 สามารถเรนเดอร์ข้อความในวิดีโอได้หรือไม่?

ได้! Wan 2.6 มีการเรนเดอร์ข้อความชั้นนำในอุตสาหกรรมสำหรับบรรจุภัณฑ์ผลิตภัณฑ์ ป้าย และเนื้อหาแบรนด์ โมเดลสามารถสร้างข้อความที่ชัดเจนและอ่านง่ายภายในเฟรมวิดีโอ—คุณลักษณะสำคัญที่ Seedance และคู่แข่งส่วนใหญ่ขาด

ความแตกต่างระหว่างโหมด T2V, I2V และ R2V คืออะไร?

T2V (ข้อความเป็นวิดีโอ) สร้างจากพรอมต์ข้อความด้วยความสามารถหลายช็อต I2V (รูปภาพเป็นวิดีโอ) ทำให้ภาพนิ่งมีชีวิตชีวาด้วยการเรนเดอร์ข้อความที่แม่นยำ R2V (อ้างอิงเป็นวิดีโอ) ใช้การอ้างอิงวิดีโอเพื่อรักษาเอกลักษณ์ตัวละครตลอดการสร้าง เลือกตามประเภทอินพุตและความต้องการความสอดคล้องของคุณ

ฉันมีสิทธิ์เชิงพาณิชย์ในวิดีโอที่สร้างหรือไม่?

ใช่! ทุกการสร้างสรรค์ Wan 2.6 มาพร้อมสิทธิ์การใช้งานเชิงพาณิชย์อย่างสมบูรณ์ วิดีโอพร้อมสำหรับการผลิตสำหรับแคมเปญการตลาด ผลงานส่งมอบลูกค้า เนื้อหาแบรนด์ และแอพพลิเคชันเชิงพาณิชย์โดยไม่มีข้อกำหนดการอนุญาตเพิ่มเติม

ทำไมต้องใช้ Wan 2.6 บน Atlas Cloud?

ใช้ประโยชน์จากโครงสร้างพื้นฐานระดับองค์กรสำหรับเวิร์กโฟลว์การสร้างวิดีโอมืออาชีพของคุณ

โครงสร้างพื้นฐานที่สร้างขึ้นเพื่อวัตถุประสงค์

ปรับใช้การสร้างหลายช็อตและความสามารถ R2V ของ Wan 2.6 บนโครงสร้างพื้นฐานที่ปรับให้เหมาะสมเฉพาะสำหรับภาระงานวิดีโอ AI ที่ต้องการสูง ประสิทธิภาพสูงสุดสำหรับการสร้าง 1080p 15 วินาที

API แบบรวมสำหรับทุกโมเดล

เข้าถึง Wan 2.6 (T2V, I2V, R2V) พร้อมกับโมเดล AI กว่า 300 รายการ (LLM, รูปภาพ, วิดีโอ, เสียง) ผ่าน API เดียว การรวมเดียวสำหรับทุกความต้องการ AI สร้างสรรค์ของคุณด้วยการพิสูจน์ตัวตนที่สอดคล้องกัน

ราคาที่แข่งขันได้

ประหยัดได้สูงสุด 70% เมื่อเทียบกับ AWS ด้วยราคาแบบจ่ายตามการใช้งานที่โปร่งใส ไม่มีค่าธรรมเนียมซ่อนเร้น ไม่มีข้อผูกมัด—ขยายจากต้นแบบสู่การผลิตโดยไม่ทำลายงบประมาณ

ความปลอดภัยที่ได้รับการรับรอง SOC I & II

วิดีโออ้างอิงและเนื้อหาที่สร้างของคุณได้รับการปกป้องด้วยการรับรอง SOC I & II และการปฏิบัติตาม HIPAA ความปลอดภัยระดับองค์กรพร้อมการส่งและจัดเก็บที่เข้ารหัส

SLA เวลาทำงาน 99.9%

ความน่าเชื่อถือระดับองค์กรพร้อมการรับประกันเวลาทำงาน 99.9% การสร้างวิดีโอหลายช็อต Wan 2.6 ของคุณพร้อมใช้งานเสมอสำหรับแคมเปญการผลิตและเวิร์กโฟลว์เนื้อหาที่สำคัญ

การรวมที่ง่ายดาย

การรวมที่สมบูรณ์ในไม่กี่นาทีด้วย REST API และ SDK หลายภาษา (Python, Node.js, Go) สลับระหว่างโหมด T2V, I2V และ R2V ได้อย่างราบรื่นด้วยโครงสร้างเอนด์พอยต์แบบรวม

99.9%
เวลาทำงาน
70%
ต้นทุนต่ำกว่า vs AWS
300+
โมเดล Gen AI
24/7
การสนับสนุนแบบโปร

ข้อกำหนดทางเทคนิค

Architecture
Transformer ขั้นสูงพร้อมความเข้าใจแบบหลายโมดัล
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 วินาที (ขึ้นอยู่กับโหมด)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
การซิงโครไนซ์แบบเนทีฟพร้อม lip-sync
Commercial Rights
รวมการใช้งานเชิงพาณิชย์อย่างสมบูรณ์

สัมผัสประสบการณ์การสร้างวิดีโอหลายช็อตระดับมืออาชีพ

เข้าร่วมกับผู้สร้างเนื้อหา นักการตลาด และผู้สร้างภาพยนตร์ทั่วโลกที่กำลังปฏิวัติการผลิตวิดีโอด้วยความสามารถในการเล่าเรื่องหลายช็อตและความสอดคล้องของตัวละครที่ก้าวล้ำของ Wan 2.6

เริ่มต้นจากโมเดลกว่า 300 รายการ

มีเฉพาะที่ Atlas Cloud