
Wan 2.5 Video Extend API by Alibaba
Extend your videos with Alibaba WAN 2.5 video extender model with audio.
Wan 2.5 - Lựa Chọn Của Nhà Sáng Tạo Video Thông Minh
HOTTạo Đồng Bộ Âm Thanh/Hình Ảnh Tất Cả Trong Một
Wan 2.5 là mô hình tạo video AI mang tính cách mạng, tạo ra nội dung âm thanh-hình ảnh đồng bộ chỉ trong một bước. Không cần ghi âm riêng hay căn chỉnh khẩu hình thủ công - chỉ cần cung cấp một prompt rõ ràng, có cấu trúc là tạo ngay video hoàn chỉnh kèm âm thanh/lồng tiếng và đồng bộ khẩu hình.
Tại Sao Chọn Wan 2.5?
Tiết Kiệm Chi Phí Hơn
Dù Google vừa giảm giá, Veo 3 vẫn nhìn chung khá đắt đỏ. Wan 2.5 nhẹ nhàng và tiết kiệm chi phí, mang đến nhiều lựa chọn hơn cho người sáng tạo đồng thời giảm đáng kể chi phí sản xuất.
Tạo Ra Một Bước, Đồng Bộ Đầu Cuối
Với Wan 2.5, không cần ghi âm riêng lẻ hay căn chỉnh khẩu hình thủ công. Chỉ cần cung cấp prompt rõ ràng, có cấu trúc để tạo ra video hoàn chỉnh với âm thanh/lồng tiếng và đồng bộ khẩu hình ngay trong một lần - nhanh hơn và đơn giản hơn.
Thân Thiện Đa Ngôn Ngữ
Khi prompt bằng tiếng Trung, Wan 2.5 tạo ra video đồng bộ âm thanh-hình ảnh một cách đáng tin cậy. Trong khi đó, Veo 3 thường hiển thị "ngôn ngữ không xác định" với prompt tiếng Trung.
Tái Hiện Nhân Vật Chính Xác
Wan 2.5 xuất sắc trong việc khôi phục đặc điểm nhân vật, tái hiện chính xác ngoại hình, biểu cảm và phong cách chuyển động, giúp nhân vật video được tạo ra nhận diện dễ dàng và có cá tính hơn, nâng cao khả năng kể chuyện và trải nghiệm đắm chìm.
Dựng Phong Cách Nghệ Thuật
Hỗ trợ dựng phong cách Studio Ghibli, tạo kết cấu màu nước vẽ tay và hiệu ứng hoạt hình. Mang đến trải nghiệm thị giác ấm áp, mơ mộng, tăng sức hấp dẫn nghệ thuật và chiều sâu kể chuyện.
Ai Có Thể Hưởng Lợi?
Đội Ngũ Marketing
Dù là ra mắt sản phẩm, chiến dịch khuyến mãi hay marketing thương hiệu, Wan 2.5 giúp bạn nhanh chóng tạo ra video chất lượng cao, biến việc sáng tạo trở nên dễ dàng và hiệu quả.
- Demo sản phẩm và hướng dẫn mà không lo phối hợp phức tạp
- Marketing mạng xã hội với phụ đề đa ngôn ngữ và đồng bộ khẩu hình
- Nội dung do AI tạo ra giúp đội ngũ tập trung vào chiến lược và sáng tạo
Doanh Nghiệp Toàn Cầu
Cung cấp giải pháp bản địa hóa nội dung lý tưởng cho các công ty đa quốc gia, giúp việc sáng tạo dễ dàng và hiệu quả hơn.
- Hỗ trợ video đa ngôn ngữ với nhận diện prompt
- Tạo phụ đề và lồng tiếng đồng bộ khẩu hình chỉ một cú nhấp
- Bản địa hóa nội dung nhanh chóng cho thị trường toàn cầu
Người Sáng Tạo Nội Dung / YouTubers
Người sáng tạo có thể tận dụng Wan 2.5 để nâng cao hiệu quả sản xuất video trong khi vẫn đảm bảo chất lượng đầu ra cao.
- Kể chuyện đắm chìm với hành động và biểu cảm nhân vật chính xác
- Hiệu quả đăng tải cao hơn với thời gian chỉnh sửa và hậu kỳ giảm bớt
- Nội dung đa dạng từ video ngắn đến đoạn truyện hoạt hình
Đội Ngũ Đào Tạo Doanh Nghiệp
Wan 2.5 giúp đào tạo doanh nghiệp hiệu quả hơn và thu hút hơn.
- Video chuyên nghiệp thay thế tài liệu văn bản nhàm chán
- Nhanh chóng tạo demo vận hành và hướng dẫn đào tạo
- Phong cách nhất quán và đầu ra chuẩn hóa cho việc triển khai toàn cầu
Freelancer Sáng Tạo / Studio Nhỏ
Wan 2.5 giải phóng sức sáng tạo mà không cần thiết bị đắt tiền hay diễn viên - AI tạo ra mọi thứ một cách hiệu quả.
- Thử nghiệm các tác phẩm đa dạng từ phim ngắn đến nội dung mạng xã hội
- Từ ý tưởng đến hoàn thiện với "tạo ra một cú nhấp"
- Nội dung chất lượng cao mà không cần thiết bị đắt tiền hay diễn viên chuyên nghiệp
Cơ Sở Giáo Dục / Người Tạo Khóa Học Trực Tuyến
Biến sáng tạo thành hiện thực mà không tốn chi phí cao - Wan 2.5 làm cho việc sản xuất nội dung chất lượng trở nên dễ dàng và tiết kiệm.
- Thử nghiệm các phong cách khác nhau từ phim ngắn đến video quảng cáo
- Hiệu quả sản xuất cao hơn từ ý tưởng đến thành phẩm
- Nội dung chất lượng mà không cần thiết bị đắt tiền hay nhân sự chuyên nghiệp
Tính Năng Cốt Lõi
Tạo Âm Thanh/Hình Ảnh Một Bước
Tạo ra video hoàn chỉnh với âm thanh đồng bộ, lồng tiếng và đồng bộ khẩu hình trong một quy trình duy nhất
Đồng Bộ Hai Nhân Vật
Hỗ trợ tạo đồng thời hai nhân vật với hành động, biểu cảm và đồng bộ khẩu hình để tương tác tự nhiên
Chất Lượng Chuyên Nghiệp
Đầu ra video chất lượng cao với biểu cảm nhân vật chân thực và đồng bộ khẩu hình chính xác
Hỗ Trợ Đa Ngôn Ngữ
Hỗ trợ xuất sắc cho prompt tiếng Trung và tạo nội dung đa ngôn ngữ đáng tin cậy
Tiết Kiệm Chi Phí
Chi phí thấp hơn đáng kể so với các đối thủ trong khi vẫn duy trì chất lượng chuyên nghiệp
Khôi Phục Đặc Điểm Nhân Vật
Tái hiện chính xác ngoại hình, biểu cảm và phong cách chuyển động của nhân vật với độ trung thực cao và cá tính riêng
Dựng Phong Cách Nghệ Thuật
Hỗ trợ nhiều phong cách nghệ thuật khác nhau bao gồm kết cấu màu nước vẽ tay theo phong cách Studio Ghibli
Cảnh Đắm Chìm
Lý tưởng cho cảnh đối thoại, phỏng vấn hoặc phim ngắn hai người với sự nhất quán âm thanh-hình ảnh tự nhiên
Wan 2.5 Prompt Showcase
Discover the power of Wan 2.5 through these curated examples. From digital human lip-sync to dual character scenes, artistic rendering to character restoration - experience the possibilities.
Study Room Scholar
Middle-aged man reading with perfect lip-sync in a warm study environmentA middle-aged man sitting at a wooden desk in a cozy study room, surrounded by bookshelves and a warm lamp glow. He opens an old book and reads aloud with a calm, deep voice: 'History teaches us more than just facts… it shows us who we are.' The room has subtle background sounds: pages turning, the faint ticking of a clock, and distant rain against the window.
Park Sunset Romance
Couple interaction with synchronized dual character actions and expressionsA young couple sitting on a park bench during sunset. The woman leans her head on the man's shoulder. He whispers softly: 'No matter where we go, I'll always be here with you.' The sound includes the rustling of leaves, distant laughter of children playing, and the gentle hum of cicadas in the evening air.
Ballet Performance Art
Precise character trait restoration with artistic movement and expressionA graceful ballerina with her hair in a messy bun, performing a powerful and emotional contemporary ballet routine. She is in a minimalist, dark art studio. Abstract patterns of light and shadow, projected from a hidden source, dance across her body and the surrounding walls, constantly shifting with her movements. The camera focuses on the tension in her muscles and the expressive gestures of her hands. A single, dramatic slow-motion shot captures her mid-air leap, with the light patterns swirling around her like a galaxy. Moody, artistic, high contrast.
Ghibli Forest Magic
Studio Ghibli-inspired animation with hand-painted watercolor textureStudio Ghibli-inspired anime style. A young girl with a straw hat lies peacefully in a sun-dappled magical forest, surrounded by friendly, glowing forest spirits (Kodama). A gentle breeze rustles the leaves of the giant, ancient trees. The air is filled with sparkling dust motes, illuminated by shafts of sunlight. The art style is soft, with a hand-painted watercolor texture. The scene feels serene, magical, and heartwarming.
Hoàn Hảo Cho
Thông Số Kỹ Thuật
Trải Nghiệm Wan 2.5 - Cuộc Cách Mạng Sáng Tạo Video Của Bạn
Tham gia cùng hàng nghìn nhà sáng tạo và doanh nghiệp đang thay đổi cách tạo nội dung video của họ bằng công nghệ tạo âm thanh-hình ảnh đồng bộ.
Wan 2.5: A next-generation AI video generation model developed by Alibaba Wanxiang.
Model Card Overview
| Field | Description |
|---|---|
| Model Name | Wan 2.5 |
| Developed By | Alibaba Group |
| Release Date | September 24, 2025 |
| Model Type | Generative AI, Video Foundation Model |
| Related Links | Official Website: https://wan.video/, Hugging Face: https://huggingface.co/Wan-AI, Technical Paper (Wan Series): https://arxiv.org/abs/2503.20314 |
Introduction
Wan 2.5 is a state-of-the-art, open-source video foundation model developed by Alibaba's Wan AI team. It is designed to generate high-quality, cinematic videos complete with synchronized audio directly from text or image prompts. The model represents a significant advancement in the field of generative AI, aiming to lower the barrier for creative video production. Its core contribution lies in its ability to produce coherent, dynamic, and narratively consistent video clips with a high degree of realism and integrated audio-visual elements, such as lip-sync and sound effects, in a single, streamlined process.
Key Features & Innovations
Wan 2.5 introduces several key features that distinguish it from previous models and competitors:
- Unified Audio-Visual Synthesis: Unlike many models that require separate steps for video and audio generation, Wan 2.5 creates video with natively synchronized audio, including voice, sound effects, and lip-sync, in one step.
- High-Fidelity, High-Resolution Output: The model is capable of generating videos in multiple resolutions, including 480p, 720p, and full 1080p HD, with significant improvements in visual quality and frame-to-frame stability over its predecessors.
- Extended Video Duration: Wan 2.5 can generate video clips up to 10 seconds in length, offering more creative flexibility for storytelling compared to other models in its class.
- Advanced Cinematic Control: The model demonstrates a sophisticated understanding of cinematic language, allowing for precise control over camera movement, shot composition, and character consistency within scenes.
- Open-Source Commitment: Following the precedent set by earlier versions, the Wan series of models, including Wan 2.5, are open-sourced to encourage research, development, and innovation within the broader AI community.
Model Architecture & Technical Details
Wan 2.5 is built upon the Diffusion Transformer (DiT) paradigm, which has become a mainstream approach for high-quality generative tasks. The technical report for the Wan model series outlines a suite of innovations that contribute to its performance.
The architecture includes a novel Variational Autoencoder (VAE) designed for high-efficiency video compression, enabling the model to handle high-resolution video data effectively. The Wan series is available in multiple sizes to balance performance and computational requirements, such as the 1.3B and 14B parameter models detailed for Wan 2.2. The model was trained on a massive, curated dataset comprising billions of images and videos, which enhances its ability to generalize across a wide range of motions, semantics, and aesthetic styles.
Intended Use & Applications
Wan 2.5 is designed for a wide array of applications in creative and commercial fields. Its intended uses include:
- Content Creation: Generating short-form videos for social media, marketing campaigns, and digital advertising.
- Storytelling and Filmmaking: Creating cinematic scenes, character animations, and narrative sequences for short films and conceptual art.
- Prototyping: Rapidly visualizing scripts and storyboards for film, television, and game development.
- Personalized Media: Enabling users to create unique, personalized video content from their own ideas and images.
Performance
Wan 2.5 has demonstrated significant performance improvements over previous versions and holds a competitive position against other leading video generation models. Independent reviews and benchmarks provide insight into its capabilities.
Benchmark Scores
A review conducted by Curious Refuge Labs™ evaluated the model's visual generation capabilities across several metrics.
| Metric | Score (out of 10) |
|---|---|
| Prompt Adherence | 7.0 |
| Temporal Consistency | 6.6 |
| Visual Fidelity | 6.5 |
| Motion Quality | 5.9 |
| Style & Cinematic Realism | 5.7 |
| Overall Score | 6.3 |
These scores indicate strong prompt understanding and a notable improvement in visual quality from Wan 2.2, although it still shows limitations in complex motion and realism compared to top-tier commercial models.


















