
Wan 2.5 Video Extend API by Alibaba
Extend your videos with Alibaba WAN 2.5 video extender model with audio.
Wan 2.5 - 스마트 영상 크리에이터의 선택
인기올인원 음성·영상 동기화 생성
Wan 2.5는 단 한 번의 과정으로 동기화된 음성·영상 콘텐츠를 생성하는 혁신적인 AI 영상 생성 모델입니다. 별도의 음성 녹음이나 수동 립싱크 작업이 필요 없으며, 명확하고 구조화된 프롬프트만 제공하면 오디오/보이스오버와 립싱크가 포함된 완성 영상을 즉시 생성할 수 있습니다.
Wan 2.5를 선택해야 하는 이유
더 합리적인 가격
Google의 최근 가격 인하에도 불구하고 Veo 3는 전반적으로 여전히 고가입니다. Wan 2.5는 경량화되어 있고 비용 효율적이며, 창작자에게 더 많은 선택지를 제공하면서 제작 비용을 대폭 절감합니다.
원스텝 생성, 엔드투엔드 동기화
Wan 2.5를 사용하면 별도의 음성 녹음이나 수동 입술 동기화 작업이 필요하지 않습니다. 명확하고 구조화된 프롬프트만 제공하면 오디오/보이스오버와 립싱크가 포함된 완성도 높은 영상을 한 번에 생성할 수 있습니다. 더 빠르고 간편합니다.
다국어 친화적
중국어 프롬프트를 입력해도 Wan 2.5는 음성·영상이 동기화된 영상을 안정적으로 생성합니다. 반면 Veo 3는 중국어 프롬프트에 대해 "알 수 없는 언어"를 표시하는 경우가 많습니다.
정밀한 캐릭터 재현
Wan 2.5는 캐릭터 특성 복원에 탁월하여 캐릭터의 외모, 표정, 동작 스타일을 정확하게 구현합니다. 생성된 영상 속 캐릭터의 개성과 인지도를 높여 스토리텔링과 몰입감을 한층 강화합니다.
예술적 스타일 렌더링
Studio Ghibli 스타일 렌더링을 지원하여 손으로 그린 듯한 수채화 질감과 애니메이션 효과를 구현합니다. 따뜻하고 몽환적인 시각적 경험을 선사하며 예술적 감성과 스토리텔링의 깊이를 더합니다.
누가 활용할 수 있나요?
마케팅 팀
제품 출시, 프로모션 캠페인, 브랜드 마케팅 등 어떤 경우에도 Wan 2.5는 고품질 영상을 빠르게 생성하여 창작을 쉽고 효율적으로 만들어 줍니다.
- 복잡한 조율 없이 제품 데모와 튜토리얼 제작 가능
- 다국어 자막과 립싱크를 활용한 소셜 미디어 마케팅
- AI 생성 콘텐츠로 팀이 전략과 창의성에 집중할 수 있음
글로벌 기업
다국적 기업에 이상적인 콘텐츠 현지화 솔루션을 제공하여 창작을 더 쉽고 효율적으로 만들어 줍니다.
- 프롬프트 인식 기반 다국어 영상 지원
- 립싱크 자막 및 보이스오버 원클릭 생성
- 글로벌 시장을 위한 신속한 콘텐츠 현지화
스토리 창작자 / YouTuber
창작자는 Wan 2.5를 활용하여 고품질 결과물을 유지하면서 영상 제작 효율을 높일 수 있습니다.
- 정밀한 캐릭터 동작과 표정으로 몰입감 있는 스토리텔링 구현
- 편집 및 후반 제작 시간 단축으로 더 빠른 업로드 가능
- 숏폼 영상부터 애니메이션 스토리 세그먼트까지 다양한 콘텐츠 제작
기업 교육 팀
Wan 2.5는 기업 교육을 더 효율적이고 흥미롭게 만들어 줍니다.
- 지루한 텍스트 문서를 전문적인 영상으로 대체
- 운영 데모 및 교육 튜토리얼 빠르게 제작
- 일관된 스타일과 표준화된 결과물로 글로벌 배포 용이
프리랜서 크리에이터 / 소규모 스튜디오
Wan 2.5를 사용하면 값비싼 장비나 배우 없이도 창의력을 자유롭게 발휘할 수 있습니다. AI가 모든 것을 효율적으로 생성합니다.
- 단편 영화부터 소셜 미디어 콘텐츠까지 다양한 작품 도전 가능
- 영감에서 완성까지 "원클릭 생성"으로 구현
- 값비싼 장비나 전문 배우 없이도 고품질 콘텐츠 제작
교육 기관 / 온라인 강의 크리에이터
높은 비용 없이 창의력을 현실로 구현하세요. Wan 2.5는 고품질 콘텐츠 제작을 쉽고 경제적으로 만들어 줍니다.
- 단편 영화부터 홍보 영상까지 다양한 스타일 실험 가능
- 기획에서 완성물까지 더 높은 제작 효율성
- 값비싼 장비나 전문 인력 없이도 고품질 콘텐츠 제작
핵심 기능
원스텝 A/V 생성
단일 프로세스에서 동기화된 오디오, 보이스오버, 립싱크가 포함된 완성 영상 생성
2인 캐릭터 동기화
두 캐릭터의 동작, 표정, 립싱크를 동시에 생성하여 자연스러운 상호작용 구현 지원
전문가 수준의 품질
사실적인 캐릭터 표정과 정밀한 립싱크를 갖춘 고품질 영상 출력
다국어 지원
중국어 프롬프트에 대한 우수한 지원 및 다국어 콘텐츠 안정적 생성
뛰어난 비용 효율
전문가 수준의 품질을 유지하면서 경쟁사 대비 비용을 대폭 절감
캐릭터 특성 복원
높은 충실도와 개성으로 캐릭터의 외모, 표정, 동작 스타일을 정밀하게 재현
예술적 스타일 렌더링
Studio Ghibli 스타일의 손으로 그린 듯한 수채화 질감을 포함한 다양한 예술 스타일 지원
몰입감 있는 장면
자연스러운 음성·영상 일치로 대화 장면, 인터뷰, 2인 단편 영화에 최적화
Wan 2.5 Prompt Showcase
Discover the power of Wan 2.5 through these curated examples. From digital human lip-sync to dual character scenes, artistic rendering to character restoration - experience the possibilities.
Study Room Scholar
Middle-aged man reading with perfect lip-sync in a warm study environmentA middle-aged man sitting at a wooden desk in a cozy study room, surrounded by bookshelves and a warm lamp glow. He opens an old book and reads aloud with a calm, deep voice: 'History teaches us more than just facts… it shows us who we are.' The room has subtle background sounds: pages turning, the faint ticking of a clock, and distant rain against the window.
Park Sunset Romance
Couple interaction with synchronized dual character actions and expressionsA young couple sitting on a park bench during sunset. The woman leans her head on the man's shoulder. He whispers softly: 'No matter where we go, I'll always be here with you.' The sound includes the rustling of leaves, distant laughter of children playing, and the gentle hum of cicadas in the evening air.
Ballet Performance Art
Precise character trait restoration with artistic movement and expressionA graceful ballerina with her hair in a messy bun, performing a powerful and emotional contemporary ballet routine. She is in a minimalist, dark art studio. Abstract patterns of light and shadow, projected from a hidden source, dance across her body and the surrounding walls, constantly shifting with her movements. The camera focuses on the tension in her muscles and the expressive gestures of her hands. A single, dramatic slow-motion shot captures her mid-air leap, with the light patterns swirling around her like a galaxy. Moody, artistic, high contrast.
Ghibli Forest Magic
Studio Ghibli-inspired animation with hand-painted watercolor textureStudio Ghibli-inspired anime style. A young girl with a straw hat lies peacefully in a sun-dappled magical forest, surrounded by friendly, glowing forest spirits (Kodama). A gentle breeze rustles the leaves of the giant, ancient trees. The air is filled with sparkling dust motes, illuminated by shafts of sunlight. The art style is soft, with a hand-painted watercolor texture. The scene feels serene, magical, and heartwarming.
완벽한 활용
기술 사양
Wan 2.5 경험하기 - 당신의 영상 창작 혁명
수천 명의 크리에이터와 기업과 함께 음성·영상 동기화 생성 기술로 영상 콘텐츠 제작을 혁신하세요.
Wan 2.5: A next-generation AI video generation model developed by Alibaba Wanxiang.
Model Card Overview
| Field | Description |
|---|---|
| Model Name | Wan 2.5 |
| Developed By | Alibaba Group |
| Release Date | September 24, 2025 |
| Model Type | Generative AI, Video Foundation Model |
| Related Links | Official Website: https://wan.video/, Hugging Face: https://huggingface.co/Wan-AI, Technical Paper (Wan Series): https://arxiv.org/abs/2503.20314 |
Introduction
Wan 2.5 is a state-of-the-art, open-source video foundation model developed by Alibaba's Wan AI team. It is designed to generate high-quality, cinematic videos complete with synchronized audio directly from text or image prompts. The model represents a significant advancement in the field of generative AI, aiming to lower the barrier for creative video production. Its core contribution lies in its ability to produce coherent, dynamic, and narratively consistent video clips with a high degree of realism and integrated audio-visual elements, such as lip-sync and sound effects, in a single, streamlined process.
Key Features & Innovations
Wan 2.5 introduces several key features that distinguish it from previous models and competitors:
- Unified Audio-Visual Synthesis: Unlike many models that require separate steps for video and audio generation, Wan 2.5 creates video with natively synchronized audio, including voice, sound effects, and lip-sync, in one step.
- High-Fidelity, High-Resolution Output: The model is capable of generating videos in multiple resolutions, including 480p, 720p, and full 1080p HD, with significant improvements in visual quality and frame-to-frame stability over its predecessors.
- Extended Video Duration: Wan 2.5 can generate video clips up to 10 seconds in length, offering more creative flexibility for storytelling compared to other models in its class.
- Advanced Cinematic Control: The model demonstrates a sophisticated understanding of cinematic language, allowing for precise control over camera movement, shot composition, and character consistency within scenes.
- Open-Source Commitment: Following the precedent set by earlier versions, the Wan series of models, including Wan 2.5, are open-sourced to encourage research, development, and innovation within the broader AI community.
Model Architecture & Technical Details
Wan 2.5 is built upon the Diffusion Transformer (DiT) paradigm, which has become a mainstream approach for high-quality generative tasks. The technical report for the Wan model series outlines a suite of innovations that contribute to its performance.
The architecture includes a novel Variational Autoencoder (VAE) designed for high-efficiency video compression, enabling the model to handle high-resolution video data effectively. The Wan series is available in multiple sizes to balance performance and computational requirements, such as the 1.3B and 14B parameter models detailed for Wan 2.2. The model was trained on a massive, curated dataset comprising billions of images and videos, which enhances its ability to generalize across a wide range of motions, semantics, and aesthetic styles.
Intended Use & Applications
Wan 2.5 is designed for a wide array of applications in creative and commercial fields. Its intended uses include:
- Content Creation: Generating short-form videos for social media, marketing campaigns, and digital advertising.
- Storytelling and Filmmaking: Creating cinematic scenes, character animations, and narrative sequences for short films and conceptual art.
- Prototyping: Rapidly visualizing scripts and storyboards for film, television, and game development.
- Personalized Media: Enabling users to create unique, personalized video content from their own ideas and images.
Performance
Wan 2.5 has demonstrated significant performance improvements over previous versions and holds a competitive position against other leading video generation models. Independent reviews and benchmarks provide insight into its capabilities.
Benchmark Scores
A review conducted by Curious Refuge Labs™ evaluated the model's visual generation capabilities across several metrics.
| Metric | Score (out of 10) |
|---|---|
| Prompt Adherence | 7.0 |
| Temporal Consistency | 6.6 |
| Visual Fidelity | 6.5 |
| Motion Quality | 5.9 |
| Style & Cinematic Realism | 5.7 |
| Overall Score | 6.3 |
These scores indicate strong prompt understanding and a notable improvement in visual quality from Wan 2.2, although it still shows limitations in complex motion and realism compared to top-tier commercial models.


















