alibaba/wan-2.6/image-edit

Supports image editing and mixed text and image output to meet diverse generation and integration needs.

IMAGE-TO-IMAGEHOTNEW
ภาพเป็นภาพ

Supports image editing and mixed text and image output to meet diverse generation and integration needs.

Alibaba WAN 2.6 Image Edit

Alibaba WAN 2.6 Image Edit enables you to upload an existing visual and specify the desired adjustments. The model preserves layout and subject structure while implementing high-quality updates based on natural language.

Why creators love it

  • Structure-preserving edits: Make lighting, color, or object changes without breaking composition.
  • Text-guided styling: Reimagine materials, moods, or art styles with concise prompts.
  • Prompt expansion on demand: Enable automatic prompt enrichment when you need extra detail.
  • Flexible output sizes: Pick the resolution that best matches your downstream workflow.

Perfect for

  • Marketing and design teams refining campaign visuals.
  • E-commerce sellers upgrading product imagery.
  • Content creators polishing thumbnails, covers, and posts.
  • Artists experimenting with variations of their original work.

Billing rules

  • Minimum charge: 1 image.
  • Total cost = number of images × price per resolution.

How to use

  1. Provide the image you want to refine. (Image dimensions must be in (384, 5000))
  2. Describe the desired adjustments in the prompt.
  3. Choose the target resolution and submit.
  4. Review the enhanced output and download the version you like best.

Pro tips

  • Start with clear instructions about colors, lighting, or objects to adjust.
  • Pair positive and negative prompts to control what should or should not appear.
  • Keep source images at or above your target resolution for optimal fidelity.

Note

If you did not upload the image locally, please ensure that the image URL is accessible! A successfully accessible image will display a preview in the interface.


Aspect RatioExact (W×H)Exact PixelsRounded (W×H, ÷64)Rounded Pixels
1:11448 × 14482,096,7041408 × 14081,982,464
3:21773 × 11822,095,6861728 × 11521,990,656
4:31672 × 12542,096,6881664 × 12162,023,424
16:91936 × 10892,108,3041920 × 10882,088,960
21:92212 × 9482,096,9762176 × 9602,088,960
1:11024 × 10241,048,5761024 × 10241,048,576
3:21254 × 8361,048,3441216 × 8321,011,712
4:31182 × 8871,048,4341152 × 8961,032,192
16:91365 × 7681,048,3201344 × 7681,032,192
21:91564 × 6701,047,8801536 × 640983,040
1:1323 × 323104,329320 × 320102,400
3:2397 × 264104,808384 × 25698,304
4:3374 × 280104,720448 × 320143,360
16:9432 × 243104,976448 × 256114,688
21:9495 × 212104,940576 × 256147,456

รายละเอียดสเปก

ภาพรวม:

ผู้ให้บริการโมเดล:QWEN
ประเภทโมเดล:image-to-image
การใช้งาน:Inference API; Playground
ราคา:$0.021/pic

พารามิเตอร์สำคัญ:

ขนาดสูงสุด:ความกว้าง × ความสูงสูงสุด (กำหนดค่าได้)
รองรับ LoRA:ไม่รองรับ
ตัวเลือก Seed:N/A

สร้างผลงานชิ้นต่อไปของคุณ

🎬การสร้างวิดีโอหลายช็อต

Wan 2.6การสร้างวิดีโอ AI หลายช็อตระดับมืออาชีพ

ความก้าวหน้าล่าสุดของ Alibaba ในการสร้างวิดีโอ AI สร้างวิดีโอ 1080p ยาวถึง 15 วินาทีด้วยการเล่าเรื่องแบบหลายช็อต ความสอดคล้องของตัวละครที่ขับเคลื่อนด้วยการอ้างอิง และการซิงโครไนซ์เสียงภาพแบบเนทีฟ โมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ดอย่างแท้จริงสำหรับการเล่าเรื่องแบบภาพยนตร์

ความก้าวหน้าที่ปฏิวัติวงการ

สิ่งที่ทำให้ Wan 2.6 เป็นตัวเปลี่ยนเกมในการสร้างวิดีโอ AI

การเล่าเรื่องหลายช็อต

โมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ด สร้างช็อตต่อเนื่องโดยอัตโนมัติด้วยการเปลี่ยนฉากที่สอดคล้องกัน รักษาลักษณะตัวละครและความสอดคล้องของสภาพแวดล้อมตลอดการเปลี่ยนฉาก—ทำให้สามารถสร้างส่วนโค้งเรื่องที่สมบูรณ์ในการสร้างเพียงครั้งเดียว 15 วินาที

อ้างอิงเป็นวิดีโอ (R2V)

อัปโหลดวิดีโออ้างอิง 2-30 วินาทีเพื่อดึงข้อมูลและรักษาลักษณะตัวละคร รูปแบบการเคลื่อนไหว และลักษณะเสียง สร้างการแสดงตัวละครที่สอดคล้องกันในหลายวิดีโอด้วยความแม่นยำที่ไม่เคยมีมาก่อน

การเรนเดอร์ข้อความที่แม่นยำ

ความสามารถในการเรนเดอร์ข้อความชั้นนำในอุตสาหกรรมสำหรับบรรจุภัณฑ์ผลิตภัณฑ์ ป้าย และเนื้อหาแบรนด์ สร้างข้อความที่ชัดเจนและอ่านง่ายภายในเฟรมวิดีโอ—จำเป็นสำหรับการตลาดและการใช้งานเชิงพาณิชย์

ความสามารถหลัก

ระยะเวลาขยายถึง 15 วินาที

สร้างได้สูงสุด 15 วินาทีต่อวิดีโอด้วยโครงสร้าง "สามฉาก" ที่สมบูรณ์ (การตั้งค่า → การกระทำ → การแก้ไข)

คุณภาพ 1080p ระดับมืออาชีพ

เอาต์พุต 1080p แบบเนทีฟที่ 24fps พร้อมคุณภาพภาพยนตร์และความเสถียรของภาพที่ดีขึ้น

การซิงโครไนซ์เสียงแบบเนทีฟ

บทสนทนาตรงกับการเคลื่อนไหวของริมฝีปาก ดนตรีประกอบสอดคล้องกับจังหวะ เอฟเฟกต์เสียงทำงานได้อย่างสมบูรณ์แบบ

ความสอดคล้องของตัวละคร

รักษาลักษณะ เครื่องแต่งกาย และเอกลักษณ์ของตัวละครตลอดช็อตและหลายวิดีโอ

การควบคุมกล้องแบบภาพยนตร์

การเคลื่อนไหวกล้องแบบมืออาชีพรวมถึงแพน ซูม ติดตามช็อต และการเคลื่อนไหวแบบดอลลี่

อัตราส่วนภาพที่ยืดหยุ่น

16:9 (YouTube), 9:16 (Reels), 1:1 (สี่เหลี่ยมจัตุรัส) - ปรับให้เหมาะกับแพลตฟอร์มโดยไม่ต้องครอบตัดหลังการผลิต

Wan 2.6 vs Wan 2.5: การปรับปรุงสำคัญ

ดูว่ามีอะไรใหม่ในเวอร์ชันล่าสุด

ระยะเวลาวิดีโอ
สูงสุด 15 วินาที
Wan 2.5: สูงสุด 10 วินาที
ความสามารถหลายช็อต
เข้าใจตรรกะสตอรีบอร์ด
Wan 2.5: ช็อตเดียวหรือการแปลงรูปแบบที่ยุ่งเหยิง
รองรับวิดีโออ้างอิง
โหมด R2V พร้อมการรักษาเต็มรูปแบบ
Wan 2.5: อ้างอิงรูปภาพเท่านั้น
ความสอดคล้องตัวละคร
ดีเยี่ยมระหว่างช็อต
Wan 2.5: ปัญหาการเลื่อนตัวละคร
ความเสถียรของการเคลื่อนไหว
ลดการสั่นและสิ่งผิดปกติ
Wan 2.5: การเลื่อนเฟรมเป็นครั้งคราว
ความเข้าใจพรอมต์
ฉากหลายตัวละครที่ซับซ้อน
Wan 2.5: การสร้างฉากพื้นฐาน

โหมดการสร้างเฉพาะทางสามแบบ

เลือกโหมดที่เหมาะสมสำหรับเวิร์กโฟลว์สร้างสรรค์ของคุณ

ข้อความเป็นวิดีโอ (T2V)

ได้รับความนิยมสูงสุด

สร้างวิดีโอที่สมบูรณ์จากพรอมต์ข้อความด้วยการแบ่งส่วนหลายช็อตที่ปรับปรุงแล้วและการจัดการพรอมต์ที่ดีขึ้น เหมาะสำหรับการเล่าเรื่องและการสำรวจความคิดสร้างสรรค์

  • การแบ่งส่วนช็อตอัตโนมัติจากพรอมต์เดียว
  • ความเข้าใจการโต้ตอบหลายตัวละคร
  • การเคลื่อนไหวกล้องและสัญญาณทางอารมณ์
  • การรักษารายละเอียดสภาพแวดล้อม

รูปภาพเป็นวิดีโอ (I2V)

ปรับปรุงแล้ว

เปลี่ยนภาพนิ่งให้เป็นวิดีโอเคลื่อนไหวด้วยความสอดคล้องการเคลื่อนไหวที่ดีขึ้น เหมาะสำหรับการจัดแสดงผลิตภัณฑ์ ภาพเคลื่อนไหวจากภาพถ่าย และการเล่าเรื่องด้วยภาพ

  • การเรนเดอร์ข้อความที่แม่นยำสำหรับผลิตภัณฑ์
  • ความสอดคล้องของสไตล์ตลอดเฟรม
  • การเคลื่อนไหวตามธรรมชาติจากภาพนิ่ง
  • การเพิ่มประสิทธิภาพภาพที่ขับเคลื่อนด้วยการเล่าเรื่อง

อ้างอิงเป็นวิดีโอ (R2V)

ใหม่

อัปโหลดวิดีโออ้างอิง (2-30 วินาที) เพื่อรักษาลักษณะตัวละคร รูปแบบการเคลื่อนไหว และเสียง การรับประกันความสอดคล้องที่แข็งแกร่งที่สุดสำหรับเนื้อหาที่ขับเคลื่อนด้วยตัวละคร

  • การรักษาเอกลักษณ์ตัวละครอย่างสมบูรณ์
  • การดึงข้อมูลลักษณะเสียง
  • การทำซ้ำรูปแบบการเคลื่อนไหว
  • ฉากแสดงร่วมหลายตัวละคร

เหมาะสำหรับ

การตลาดและโฆษณา

การสาธิตผลิตภัณฑ์พร้อมการเรนเดอร์ข้อความ แคมเปญแบรนด์พร้อมความสอดคล้องของตัวละคร และวิดีโอส่งเสริมการขาย

การสร้างเนื้อหา

วิดีโอ YouTube, รีลโซเชียลมีเดีย, การเล่าเรื่องหลายช็อต และเวิร์กโฟลว์การตัดต่อวิดีโอ

อีคอมเมิร์ซ

การจัดแสดงผลิตภัณฑ์พร้อมข้อความที่แม่นยำ วิดีโอสอน และการสร้างคำรับรองลูกค้าใหม่

การศึกษาและการฝึกอบรม

เนื้อหาการสอน เนื้อหาหลักสูตร และการเล่าเรื่องการศึกษาหลายฉาก

ความบันเทิง

ภาพยนตร์สั้น เรื่องราวที่ขับเคลื่อนด้วยตัวละคร ลำดับภาพยนตร์ และการทดลองเชิงสร้างสรรค์

การแสดงภาพล่วงหน้า

การพัฒนาแนวคิดภาพยนตร์ การสร้างสตอรีบอร์ด และการวางแผนฉากสำหรับการผลิต

การรวม API Wan 2.6 T2V, I2V และ R2V

ชุด API ที่สมบูรณ์สำหรับการสร้างข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และอ้างอิงเป็นวิดีโอ

API ข้อความเป็นวิดีโอ (T2V API)

API Wan 2.6 T2V ของเราเปลี่ยนพรอมต์ข้อความเป็นวิดีโอภาพยนตร์หลายช็อตด้วยการแบ่งส่วนฉากอัตโนมัติ สร้างวิดีโอ 1080p แบบมืออาชีพยาวถึง 15 วินาทีพร้อมการซิงโครไนซ์เสียงแบบเนทีฟ

การเล่าเรื่องหลายช็อตจากพรอมต์เดียว
ระยะเวลา 15 วินาทีพร้อมโครงสร้างสามฉาก
ความเข้าใจพรอมต์ที่ดีขึ้นสำหรับฉากที่ซับซ้อน
อัตราส่วนภาพที่ยืดหยุ่น: 16:9, 9:16, 1:1

API รูปภาพเป็นวิดีโอ (I2V API)

API Wan 2.6 I2V ของเราทำให้ภาพนิ่งมีชีวิตชีวาด้วยการควบคุมการเคลื่อนไหวที่แม่นยำและการเรนเดอร์ข้อความ เหมาะสำหรับวิดีโอผลิตภัณฑ์ ภาพเคลื่อนไหวจากภาพถ่าย และการสร้างเนื้อหาแบรนด์

การเรนเดอร์ข้อความที่แม่นยำสำหรับผลิตภัณฑ์และป้าย
ความสอดคล้องของสไตล์ในเฟรมแอนิเมชัน
การเคลื่อนไหวตามธรรมชาติด้วยความสอดคล้องที่ดีขึ้น
ผลลัพธ์ภาพที่ปรับให้เหมาะสมด้วยการเล่าเรื่อง

API อ้างอิงเป็นวิดีโอ (R2V API)

API Wan 2.6 R2V ของเรารักษาเอกลักษณ์ตัวละครจากวิดีโออ้างอิง อัปโหลดคลิป 2-30 วินาทีเพื่อดึงข้อมูลลักษณะ เสียง และรูปแบบการเคลื่อนไหวสำหรับการสร้างตัวละครที่สอดคล้องกัน

การรักษาลักษณะและเอกลักษณ์ตัวละคร
การดึงข้อมูลและการทำซ้ำลักษณะเสียง
การวิเคราะห์และการสร้างซ้ำรูปแบบการเคลื่อนไหว
รองรับฉากหลายตัวละคร
💡

ชุด API ที่สมบูรณ์

โหมด API Wan 2.6 ทั้งสาม (T2V API, I2V API, R2V API) รองรับสถาปัตยกรรม RESTful พร้อมเอกสารที่ครอบคลุม เริ่มต้นด้วย SDK สำหรับ Python, Node.js และอื่นๆ แต่ละเอนด์พอยต์รวมการซิงโครไนซ์เสียงภาพแบบเนทีฟและสิทธิ์การใช้งานเชิงพาณิชย์อย่างสมบูรณ์

วิธีเริ่มต้นใช้งาน Wan 2.6

เริ่มสร้างวิดีโอมืออาชีพในไม่กี่นาทีด้วยสองเส้นทางง่ายๆ

การรวม API

สำหรับนักพัฒนาที่สร้างแอพพลิเคชัน

1

ลงทะเบียนและเข้าสู่ระบบ

สร้างบัญชี Atlas Cloud หรือเข้าสู่ระบบเพื่อเข้าถึงคอนโซล

2

เพิ่มวิธีการชำระเงิน

เชื่อมโยงบัตรเครดิตของคุณในส่วนการเรียกเก็บเงินเพื่อเติมเงินในบัญชี

3

สร้างคีย์ API

ไปที่คอนโซล → คีย์ API และสร้างคีย์การพิสูจน์ตัวตนของคุณ

4

เริ่มสร้าง

ใช้เอนด์พอยต์ API T2V, I2V หรือ R2V เพื่อรวม Wan 2.6 เข้ากับแอพพลิเคชันของคุณ

ประสบการณ์ Playground

สำหรับการทดสอบอย่างรวดเร็วและการทดลอง

1

ลงทะเบียนและเข้าสู่ระบบ

สร้างบัญชี Atlas Cloud หรือเข้าสู่ระบบเพื่อเข้าถึงแพลตฟอร์ม

2

เพิ่มวิธีการชำระเงิน

เชื่อมโยงบัตรเครดิตของคุณในส่วนการเรียกเก็บเงินเพื่อเริ่มต้น

3

ใช้ Playground

ไปที่ playground Wan 2.6 เลือกโหมด T2V/I2V/R2V และสร้างวิดีโอได้ทันที

💡
เคล็ดลับมืออาชีพ: ทดสอบโหมดการสร้างต่างๆ ใน Playground ก่อนเพื่อทำความเข้าใจว่าโหมดใดใช้งานได้ดีที่สุดสำหรับกรณีการใช้งานของคุณ จากนั้นจึงรวม API ที่สอดคล้องกันสำหรับขนาดการผลิต

คำถามที่พบบ่อย

อะไรทำให้ความสามารถหลายช็อตของ Wan 2.6 ไม่เหมือนใคร?

Wan 2.6 เป็นโมเดลแรกที่เข้าใจตรรกะสตอรีบอร์ดอย่างแท้จริง ต่างจาก Wan 2.5 ที่สร้างเอฟเฟกต์ "การแปลงรูปแบบ" ที่ยุ่งเหยิง Wan 2.6 สามารถแบ่งส่วนพรอมต์เดียวให้เป็นหลายช็อตที่แตกต่างกันโดยอัตโนมัติพร้อมการเปลี่ยนฉากที่สอดคล้องกัน รักษาความสอดคล้องของตัวละครตลอดการเปลี่ยนฉาก

อ้างอิงเป็นวิดีโอ (R2V) ทำงานอย่างไร?

อัปโหลดวิดีโออ้างอิง 2-30 วินาที และ Wan 2.6 จะดึงข้อมูลลักษณะตัวละคร รูปแบบการเคลื่อนไหว และลักษณะเสียง จากนั้นคุณสามารถสร้างวิดีโอใหม่ที่มีตัวละครเดียวกันด้วยเอกลักษณ์ที่สอดคล้องกัน—เหมาะสำหรับการสร้างซีรีส์เนื้อหาที่ขับเคลื่อนด้วยตัวละคร

รูปแบบและระยะเวลาวิดีโอใดที่รองรับ?

Wan 2.6 สร้างวิดีโอ 1080p ที่ 24fps ระยะเวลา 5 ถึง 15 วินาที อัตราส่วนภาพที่รองรับประกอบด้วย 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) และ 1:1 (รูปแบบสี่เหลี่ยมจัตุรัส) ปรับให้เหมาะกับแต่ละแพลตฟอร์มโดยไม่ต้องครอบตัดหลังการผลิต

Wan 2.6 สามารถเรนเดอร์ข้อความในวิดีโอได้หรือไม่?

ได้! Wan 2.6 มีการเรนเดอร์ข้อความชั้นนำในอุตสาหกรรมสำหรับบรรจุภัณฑ์ผลิตภัณฑ์ ป้าย และเนื้อหาแบรนด์ โมเดลสามารถสร้างข้อความที่ชัดเจนและอ่านง่ายภายในเฟรมวิดีโอ—คุณลักษณะสำคัญที่ Seedance และคู่แข่งส่วนใหญ่ขาด

ความแตกต่างระหว่างโหมด T2V, I2V และ R2V คืออะไร?

T2V (ข้อความเป็นวิดีโอ) สร้างจากพรอมต์ข้อความด้วยความสามารถหลายช็อต I2V (รูปภาพเป็นวิดีโอ) ทำให้ภาพนิ่งมีชีวิตชีวาด้วยการเรนเดอร์ข้อความที่แม่นยำ R2V (อ้างอิงเป็นวิดีโอ) ใช้การอ้างอิงวิดีโอเพื่อรักษาเอกลักษณ์ตัวละครตลอดการสร้าง เลือกตามประเภทอินพุตและความต้องการความสอดคล้องของคุณ

ฉันมีสิทธิ์เชิงพาณิชย์ในวิดีโอที่สร้างหรือไม่?

ใช่! ทุกการสร้างสรรค์ Wan 2.6 มาพร้อมสิทธิ์การใช้งานเชิงพาณิชย์อย่างสมบูรณ์ วิดีโอพร้อมสำหรับการผลิตสำหรับแคมเปญการตลาด ผลงานส่งมอบลูกค้า เนื้อหาแบรนด์ และแอพพลิเคชันเชิงพาณิชย์โดยไม่มีข้อกำหนดการอนุญาตเพิ่มเติม

ทำไมต้องใช้ Wan 2.6 บน Atlas Cloud?

ใช้ประโยชน์จากโครงสร้างพื้นฐานระดับองค์กรสำหรับเวิร์กโฟลว์การสร้างวิดีโอมืออาชีพของคุณ

โครงสร้างพื้นฐานที่สร้างขึ้นเพื่อวัตถุประสงค์

ปรับใช้การสร้างหลายช็อตและความสามารถ R2V ของ Wan 2.6 บนโครงสร้างพื้นฐานที่ปรับให้เหมาะสมเฉพาะสำหรับภาระงานวิดีโอ AI ที่ต้องการสูง ประสิทธิภาพสูงสุดสำหรับการสร้าง 1080p 15 วินาที

API แบบรวมสำหรับทุกโมเดล

เข้าถึง Wan 2.6 (T2V, I2V, R2V) พร้อมกับโมเดล AI กว่า 300 รายการ (LLM, รูปภาพ, วิดีโอ, เสียง) ผ่าน API เดียว การรวมเดียวสำหรับทุกความต้องการ AI สร้างสรรค์ของคุณด้วยการพิสูจน์ตัวตนที่สอดคล้องกัน

ราคาที่แข่งขันได้

ประหยัดได้สูงสุด 70% เมื่อเทียบกับ AWS ด้วยราคาแบบจ่ายตามการใช้งานที่โปร่งใส ไม่มีค่าธรรมเนียมซ่อนเร้น ไม่มีข้อผูกมัด—ขยายจากต้นแบบสู่การผลิตโดยไม่ทำลายงบประมาณ

ความปลอดภัยที่ได้รับการรับรอง SOC I & II

วิดีโออ้างอิงและเนื้อหาที่สร้างของคุณได้รับการปกป้องด้วยการรับรอง SOC I & II และการปฏิบัติตาม HIPAA ความปลอดภัยระดับองค์กรพร้อมการส่งและจัดเก็บที่เข้ารหัส

SLA เวลาทำงาน 99.9%

ความน่าเชื่อถือระดับองค์กรพร้อมการรับประกันเวลาทำงาน 99.9% การสร้างวิดีโอหลายช็อต Wan 2.6 ของคุณพร้อมใช้งานเสมอสำหรับแคมเปญการผลิตและเวิร์กโฟลว์เนื้อหาที่สำคัญ

การรวมที่ง่ายดาย

การรวมที่สมบูรณ์ในไม่กี่นาทีด้วย REST API และ SDK หลายภาษา (Python, Node.js, Go) สลับระหว่างโหมด T2V, I2V และ R2V ได้อย่างราบรื่นด้วยโครงสร้างเอนด์พอยต์แบบรวม

99.9%
เวลาทำงาน
70%
ต้นทุนต่ำกว่า vs AWS
300+
โมเดล Gen AI
24/7
การสนับสนุนแบบโปร

ข้อกำหนดทางเทคนิค

Architecture
Transformer ขั้นสูงพร้อมความเข้าใจแบบหลายโมดัล
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 วินาที (ขึ้นอยู่กับโหมด)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
การซิงโครไนซ์แบบเนทีฟพร้อม lip-sync
Commercial Rights
รวมการใช้งานเชิงพาณิชย์อย่างสมบูรณ์

สัมผัสประสบการณ์การสร้างวิดีโอหลายช็อตระดับมืออาชีพ

เข้าร่วมกับผู้สร้างเนื้อหา นักการตลาด และผู้สร้างภาพยนตร์ทั่วโลกที่กำลังปฏิวัติการผลิตวิดีโอด้วยความสามารถในการเล่าเรื่องหลายช็อตและความสอดคล้องของตัวละครที่ก้าวล้ำของ Wan 2.6

เริ่มต้นจากโมเดลกว่า 300 รายการ

มีเฉพาะที่ Atlas Cloud