alibaba/wan-2.6/image-to-video

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

IMAGE-TO-VIDEONEW
Hình ảnh-Video

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Image-to-Video Model

Alibaba WAN 2.6 is an advanced image-to-video model on Alibaba Cloud’s DashScope. It generates high-quality videos from images and supports output resolutions of 720p and 1080p.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
720p$0.5$1
1080p$0.75$1.5

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

Thông số kỹ thuật Chi tiết

Tổng quan:

Nhà cung cấp Mô hình:QWEN
Loại Mô hình:image-to-video
Triển khai:API Suy luận; Playground
Giá cả:$0.0700/second

Thông số chính:

Giới hạn Kích thước:Chiều rộng × chiều cao tối đa (tùy chỉnh)
Hỗ trợ LoRA:Không
Tùy chọn Seed:N/A

Tạo Kiệt tác Tiếp theo của Bạn

🎬TẠO VIDEO ĐA CẢNH QUAY

Wan 2.6Sáng Tạo Video AI Đa Cảnh Quay Chuyên Nghiệp

Bước đột phá mới nhất của Alibaba trong tạo video AI. Tạo video 1080p lên đến 15 giây với kể chuyện đa cảnh quay, tính nhất quán nhân vật dựa trên tham chiếu và đồng bộ hóa nghe nhìn gốc. Mô hình đầu tiên thực sự hiểu logic storyboard cho câu chuyện điện ảnh.

Đột Phá Mang Tính Cách Mạng

Điều khiến Wan 2.6 trở thành game-changer trong tạo video AI

Kể Chuyện Đa Cảnh Quay

Mô hình đầu tiên hiểu logic storyboard. Tự động tạo các cảnh quay tuần tự với chuyển cảnh mạch lạc, duy trì diện mạo nhân vật và tính nhất quán môi trường qua các thay đổi cảnh—cho phép cung câu chuyện hoàn chỉnh trong một lần tạo 15 giây.

Tham Chiếu sang Video (R2V)

Tải lên video tham chiếu 2-30 giây để trích xuất và bảo toàn diện mạo nhân vật, mẫu chuyển động và đặc điểm giọng nói. Tạo diễn xuất nhân vật nhất quán trên nhiều video với độ chính xác chưa từng có.

Kết Xuất Văn Bản Chính Xác

Khả năng kết xuất văn bản hàng đầu ngành cho bao bì sản phẩm, biển hiệu và nội dung thương hiệu. Tạo văn bản rõ ràng, dễ đọc trong khung hình video—thiết yếu cho ứng dụng tiếp thị và thương mại.

Khả Năng Cốt Lõi

Thời Lượng Mở Rộng 15 Giây

Tạo tối đa 15 giây mỗi video với cấu trúc "Ba Hồi" đầy đủ (Dựng lên → Hành động → Giải quyết)

Chất Lượng 1080p Chuyên Nghiệp

Đầu ra gốc 1080p ở 24fps với chất lượng điện ảnh và độ ổn định hình ảnh được cải thiện

Đồng Bộ Âm Thanh Gốc

Đối thoại khớp với chuyển động môi, nhạc nền điều chỉnh theo nhịp độ, hiệu ứng âm thanh kích hoạt hoàn hảo

Tính Nhất Quán Nhân Vật

Duy trì diện mạo, trang phục và bản sắc nhân vật qua các cảnh quay và nhiều video

Điều Khiển Máy Quay Điện Ảnh

Chuyển động máy quay chuyên nghiệp bao gồm quay ngang, zoom, cảnh theo dõi và chuyển động dolly

Tỷ Lệ Khung Hình Linh Hoạt

16:9 (YouTube), 9:16 (Reels), 1:1 (Vuông) - tối ưu hóa nền tảng không cần cắt xén hậu kỳ

Wan 2.6 vs Wan 2.5: Cải Tiến Lớn

Xem có gì mới trong phiên bản mới nhất

Thời Lượng Video
Lên đến 15 giây
Wan 2.5: Tối đa 10 giây
Khả Năng Đa Cảnh Quay
Hiểu logic storyboard
Wan 2.5: Cảnh đơn hoặc biến hình lộn xộn
Hỗ Trợ Video Tham Chiếu
Chế độ R2V với bảo toàn đầy đủ
Wan 2.5: Chỉ tham chiếu hình ảnh
Tính Nhất Quán Nhân Vật
Xuất sắc giữa các cảnh quay
Wan 2.5: Vấn đề trôi nhân vật
Độ Ổn Định Chuyển Động
Giảm rung và lỗi hình
Wan 2.5: Thỉnh thoảng trôi khung hình
Hiểu Lệnh Nhắc
Cảnh phức tạp nhiều nhân vật
Wan 2.5: Tạo cảnh cơ bản

Ba Chế Độ Tạo Chuyên Biệt

Chọn chế độ phù hợp cho quy trình sáng tạo của bạn

Văn Bản sang Video (T2V)

Phổ Biến Nhất

Tạo video hoàn chỉnh từ lệnh văn bản với phân đoạn đa cảnh quay nâng cao và xử lý lệnh cải tiến. Hoàn hảo cho kể chuyện và khám phá sáng tạo.

  • Phân đoạn cảnh quay tự động từ lệnh đơn
  • Hiểu tương tác nhiều nhân vật
  • Chuyển động máy quay và tín hiệu cảm xúc
  • Bảo toàn chi tiết môi trường

Hình Ảnh sang Video (I2V)

Nâng Cao

Biến hình ảnh tĩnh thành video chuyển động với tính mạch lạc chuyển động được cải thiện. Lý tưởng cho trưng bày sản phẩm, hoạt hình ảnh và kể chuyện hình ảnh.

  • Kết xuất văn bản chính xác cho sản phẩm
  • Nhất quán phong cách qua các khung hình
  • Chuyển động tự nhiên từ hình ảnh tĩnh
  • Tối ưu hóa hình ảnh dựa trên câu chuyện

Tham Chiếu sang Video (R2V)

MỚI

Tải lên video tham chiếu (2-30s) để bảo toàn diện mạo nhân vật, mẫu chuyển động và giọng nói. Đảm bảo nhất quán mạnh nhất cho nội dung dựa trên nhân vật.

  • Bảo toàn bản sắc nhân vật đầy đủ
  • Trích xuất đặc điểm giọng nói
  • Sao chép mẫu chuyển động
  • Cảnh đồng diễn nhiều nhân vật

Hoàn Hảo Cho

Tiếp Thị & Quảng Cáo

Demo sản phẩm với kết xuất văn bản, chiến dịch thương hiệu với nhân vật nhất quán và video quảng cáo

Sáng Tạo Nội Dung

Video YouTube, reels mạng xã hội, kể chuyện đa cảnh quay và quy trình chỉnh sửa video

Thương Mại Điện Tử

Trưng bày sản phẩm với văn bản chính xác, video hướng dẫn và tái tạo lời chứng thực khách hàng

Giáo Dục & Đào Tạo

Nội dung giảng dạy, tài liệu khóa học và câu chuyện giáo dục đa cảnh

Giải Trí

Phim ngắn, câu chuyện dựa trên nhân vật, chuỗi điện ảnh và thử nghiệm sáng tạo

Tiền Hình Dung

Phát triển khái niệm phim, tạo storyboard và lập kế hoạch cảnh cho sản xuất

Tích Hợp API Wan 2.6 T2V, I2V và R2V

Bộ API đầy đủ cho tạo Văn Bản sang Video, Hình Ảnh sang Video và Tham Chiếu sang Video

API Văn Bản sang Video (T2V API)

API Wan 2.6 T2V của chúng tôi biến lệnh văn bản thành video điện ảnh đa cảnh quay với phân đoạn cảnh tự động. Tạo video 1080p chuyên nghiệp lên đến 15 giây với đồng bộ âm thanh gốc.

Kể chuyện đa cảnh quay từ lệnh đơn
Thời lượng 15 giây với cấu trúc Ba Hồi
Hiểu lệnh nâng cao cho cảnh phức tạp
Tỷ lệ khung hình linh hoạt: 16:9, 9:16, 1:1

API Hình Ảnh sang Video (I2V API)

API Wan 2.6 I2V của chúng tôi thổi sức sống vào hình ảnh tĩnh với điều khiển chuyển động chính xác và kết xuất văn bản. Hoàn hảo cho video sản phẩm, hoạt hình ảnh và tạo nội dung thương hiệu.

Kết xuất văn bản chính xác cho sản phẩm và biển hiệu
Nhất quán phong cách trong khung hình hoạt hình
Chuyển động tự nhiên với tính mạch lạc cải thiện
Đầu ra hình ảnh được tối ưu hóa theo câu chuyện

API Tham Chiếu sang Video (R2V API)

API Wan 2.6 R2V của chúng tôi bảo toàn bản sắc nhân vật từ video tham chiếu. Tải lên clip 2-30 giây để trích xuất diện mạo, giọng nói và mẫu chuyển động cho tạo nhân vật nhất quán.

Bảo toàn diện mạo và bản sắc nhân vật
Trích xuất và sao chép đặc điểm giọng nói
Phân tích và tái tạo mẫu chuyển động
Hỗ trợ cảnh nhiều nhân vật
💡

Bộ API Đầy Đủ

Cả ba chế độ API Wan 2.6 (T2V API, I2V API, R2V API) đều hỗ trợ kiến trúc RESTful với tài liệu đầy đủ. Bắt đầu với SDK cho Python, Node.js và nhiều hơn. Mỗi endpoint bao gồm đồng bộ nghe nhìn gốc và quyền sử dụng thương mại đầy đủ.

Cách Bắt Đầu với Wan 2.6

Bắt đầu tạo video chuyên nghiệp trong vài phút với hai lộ trình đơn giản

Tích Hợp API

Cho nhà phát triển xây dựng ứng dụng

1

Đăng Ký & Đăng Nhập

Tạo tài khoản Atlas Cloud hoặc đăng nhập để truy cập bảng điều khiển

2

Thêm Phương Thức Thanh Toán

Liên kết thẻ tín dụng trong phần Thanh Toán để nạp tiền vào tài khoản

3

Tạo Khóa API

Điều hướng đến Bảng điều khiển → Khóa API và tạo khóa xác thực

4

Bắt Đầu Xây Dựng

Sử dụng endpoint API T2V, I2V hoặc R2V để tích hợp Wan 2.6 vào ứng dụng

Trải Nghiệm Playground

Cho thử nghiệm và thí nghiệm nhanh

1

Đăng Ký & Đăng Nhập

Tạo tài khoản Atlas Cloud hoặc đăng nhập để truy cập nền tảng

2

Thêm Phương Thức Thanh Toán

Liên kết thẻ tín dụng trong phần Thanh Toán để bắt đầu

3

Sử Dụng Playground

Đi đến playground Wan 2.6, chọn chế độ T2V/I2V/R2V và tạo video ngay lập tức

💡
Mẹo Chuyên Nghiệp: Trước tiên hãy thử nghiệm các chế độ tạo khác nhau trong Playground để hiểu cái nào hoạt động tốt nhất cho trường hợp sử dụng của bạn, sau đó tích hợp API tương ứng cho quy mô sản xuất.

Câu Hỏi Thường Gặp

Điều gì khiến khả năng đa cảnh quay của Wan 2.6 trở nên độc đáo?

Wan 2.6 là mô hình đầu tiên thực sự hiểu logic storyboard. Không giống Wan 2.5 tạo hiệu ứng "biến hình" lộn xộn, Wan 2.6 có thể tự động phân đoạn một lệnh đơn thành nhiều cảnh quay riêng biệt với chuyển cảnh mạch lạc, duy trì tính nhất quán nhân vật qua các thay đổi cảnh.

Tham Chiếu sang Video (R2V) hoạt động như thế nào?

Tải lên video tham chiếu 2-30 giây, và Wan 2.6 trích xuất diện mạo nhân vật, mẫu chuyển động và đặc điểm giọng nói. Sau đó bạn có thể tạo video mới có cùng nhân vật với bản sắc nhất quán—lý tưởng cho việc tạo loạt nội dung dựa trên nhân vật.

Định dạng và thời lượng video nào được hỗ trợ?

Wan 2.6 tạo video 1080p ở 24fps với thời lượng từ 5 đến 15 giây. Tỷ lệ khung hình được hỗ trợ bao gồm 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) và 1:1 (định dạng vuông), được tối ưu hóa cho từng nền tảng mà không cần cắt xén hậu kỳ.

Wan 2.6 có thể kết xuất văn bản trong video không?

Có! Wan 2.6 có khả năng kết xuất văn bản hàng đầu ngành cho bao bì sản phẩm, biển hiệu và nội dung thương hiệu. Mô hình có thể tạo văn bản rõ ràng, dễ đọc trong khung hình video—tính năng quan trọng mà Seedance và hầu hết đối thủ không có.

Sự khác biệt giữa các chế độ T2V, I2V và R2V là gì?

T2V (Văn Bản sang Video) tạo từ lệnh văn bản với khả năng đa cảnh quay. I2V (Hình Ảnh sang Video) làm động hình ảnh tĩnh với kết xuất văn bản chính xác. R2V (Tham Chiếu sang Video) sử dụng tham chiếu video để bảo toàn bản sắc nhân vật qua các lần tạo. Chọn dựa trên loại đầu vào và nhu cầu nhất quán của bạn.

Tôi có quyền thương mại đối với video được tạo không?

Có! Mọi tác phẩm Wan 2.6 đều đi kèm với quyền sử dụng thương mại đầy đủ. Video sẵn sàng sản xuất cho chiến dịch tiếp thị, sản phẩm giao khách hàng, nội dung thương hiệu và ứng dụng thương mại mà không cần yêu cầu cấp phép bổ sung.

Tại Sao Sử Dụng Wan 2.6 trên Atlas Cloud?

Tận dụng cơ sở hạ tầng cấp doanh nghiệp cho quy trình tạo video chuyên nghiệp của bạn

Cơ Sở Hạ Tầng Xây Dựng Chuyên Biệt

Triển khai khả năng tạo đa cảnh quay và R2V của Wan 2.6 trên cơ sở hạ tầng được tối ưu hóa đặc biệt cho khối lượng công việc video AI đòi hỏi cao. Hiệu suất tối đa cho tạo 1080p 15 giây.

API Thống Nhất Cho Tất Cả Mô Hình

Truy cập Wan 2.6 (T2V, I2V, R2V) cùng với hơn 300 mô hình AI (LLM, hình ảnh, video, âm thanh) qua một API thống nhất. Tích hợp đơn lẻ cho tất cả nhu cầu AI tạo sinh với xác thực nhất quán.

Giá Cạnh Tranh

Tiết kiệm đến 70% so với AWS với giá trả theo sử dụng minh bạch. Không có phí ẩn, không cam kết—mở rộng từ mẫu thử đến sản xuất mà không phá vỡ ngân sách.

Bảo Mật Chứng Nhận SOC I & II

Video tham chiếu và nội dung được tạo của bạn được bảo vệ với chứng nhận SOC I & II và tuân thủ HIPAA. Bảo mật cấp doanh nghiệp với truyền tải và lưu trữ được mã hóa.

SLA Hoạt Động 99,9%

Độ tin cậy cấp doanh nghiệp với đảm bảo hoạt động 99,9%. Tạo video đa cảnh quay Wan 2.6 của bạn luôn sẵn sàng cho chiến dịch sản xuất và quy trình nội dung quan trọng.

Tích Hợp Dễ Dàng

Tích hợp hoàn chỉnh trong vài phút với REST API và SDK đa ngôn ngữ (Python, Node.js, Go). Chuyển đổi liền mạch giữa các chế độ T2V, I2V và R2V với cấu trúc endpoint thống nhất.

99.9%
Hoạt Động
70%
Chi Phí Thấp Hơn vs AWS
300+
Mô Hình AI Tạo Sinh
24/7
Hỗ Trợ Chuyên Nghiệp

Thông Số Kỹ Thuật

Architecture
Transformer Tiên Tiến với Hiểu Biết Đa Phương Thức
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 giây (phụ thuộc chế độ)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
Đồng bộ gốc với đồng bộ môi
Commercial Rights
Sử dụng thương mại đầy đủ bao gồm

Trải Nghiệm Tạo Video Đa Cảnh Quay Chuyên Nghiệp

Tham gia cùng các nhà sáng tạo nội dung, nhà tiếp thị và nhà làm phim trên toàn thế giới đang cách mạng hóa sản xuất video với khả năng kể chuyện đa cảnh quay và tính nhất quán nhân vật đột phá của Wan 2.6.

Bắt đầu với 300+ Mô hình,

Chỉ có tại Atlas Cloud.