A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.
A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.
Alibaba WAN 2.6 is an advanced image-to-video model on Alibaba Cloud’s DashScope. It generates high-quality videos from images and supports output resolutions of 720p and 1080p.
More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.
One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.
Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.
Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.
Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.
Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.
15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.
Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.
Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.
Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.
Corporate training teams: HD videos over docs—clearer key points, better communication.
The table below lists prices for easy comparsion.
| Output Resolution | Duration (5s) | Duration (10s) |
|---|---|---|
| 720p | $0.5 | $1 |
| 1080p | $0.75 | $1.5 |
Minimum charge: 5 seconds
Per-second rate = (price per 5 seconds) ÷ 5
Billed duration = video length in seconds (rounded up), with a 5-second minimum
Total cost = billed duration × per-second rate (by output resolution)
Write your prompt.
Upload an audio file (optional) for voice/music.
Choose the video size (resolution/aspect).
Select the video duration (e.g., 5s / 10s).
Submit and wait for processing.
Preview and download the result.
阿里巴巴在 AI 视频生成领域的最新突破。创建最长 15 秒的 1080p 视频,支持多镜头叙事、参考视频驱动的角色一致性以及原生音视频同步。首个真正理解分镜逻辑的视频生成模型,让电影级叙事成为可能。
Wan 2.6 成为 AI 视频生成游戏规则改变者的原因
首个理解分镜逻辑的模型。自动生成连续镜头,过渡流畅,在场景切换中保持角色外观和环境一致性——在单次 15 秒生成中实现完整故事情节。
上传 2-30 秒参考视频以提取并保留角色外观、动作模式和声音特征。在多个视频中创建一致的角色表演,准确度前所未有。
业界领先的文字渲染能力,适用于产品包装、标识和品牌内容。在视频帧中生成清晰可读的文字——这对营销和商业应用至关重要。
每个视频最长可生成 15 秒,具有完整的「三幕式」结构(设定 → 行动 → 解决)
原生 1080p 输出,24fps 帧率,电影级画质和增强的视觉稳定性
对话与唇部动作匹配,背景音乐与节奏对齐,音效触发完美
在多个镜头和视频中保持角色外观、服装和身份的一致性
专业镜头运动,包括摇镜、变焦、跟踪镜头和移动摄影车运动
16:9 (YouTube)、9:16 (Reels)、1:1 (方形) - 针对平台优化,无需后期裁剪
查看最新版本的新功能
为您的创作工作流选择合适的模式
从文本提示生成完整视频,具有增强的多镜头分割和改进的提示词处理。非常适合叙事和创意探索。
将静态图片转换为动态视频,运动连贯性得到改进。非常适合产品展示、照片动画和视觉叙事。
上传参考视频(2-30秒)以保留角色外观、动作模式和声音。为角色驱动内容提供最强一致性保证。
具有文字渲染的产品演示、具有角色一致性的品牌活动和促销视频
YouTube 视频、社交媒体 Reels、多镜头叙事和视频编辑工作流
具有准确文字的产品展示、教程视频和客户评价重现
教学内容、课程材料和多场景教育叙事
短片、角色驱动故事、电影级序列和创意实验
电影概念开发、分镜创作和制作场景规划
完整的文字转视频、图片转视频和参考视频转视频 API 套件
我们的 Wan 2.6 T2V API 将文本提示转换为具有自动场景分割的多镜头电影视频。生成最长 15 秒的专业级 1080p 视频,具有原生音频同步。
我们的 Wan 2.6 I2V API 将静态图片通过精确的运动控制和文字渲染变为生动视频。非常适合产品视频、照片动画和品牌内容创作。
我们的 Wan 2.6 R2V API 从参考视频中保留角色身份。上传 2-30 秒的片段以提取外观、声音和动作模式,实现一致的角色生成。
所有三种 Wan 2.6 API 模式(T2V API、I2V API、R2V API)都支持 RESTful 架构,配有完整文档。使用 Python、Node.js 等 SDK 快速入门。每个端点都包含原生音视频同步和完整商业使用权。
通过两种简单路径,几分钟内开始创建专业视频
面向构建应用程序的开发者
创建您的 Atlas Cloud 账户或登录以访问控制台
在账单部分绑定您的信用卡为账户充值
导航到控制台 → API 密钥并创建您的身份验证密钥
使用 T2V、I2V 或 R2V API 端点将 Wan 2.6 集成到您的应用程序中
用于快速测试和实验
创建您的 Atlas Cloud 账户或登录以访问平台
在账单部分绑定您的信用卡以开始使用
前往 Wan 2.6 playground,选择 T2V/I2V/R2V 模式,立即生成视频
Wan 2.6 是首个真正理解分镜逻辑的模型。与会产生混乱「变形」效果的 Wan 2.5 不同,Wan 2.6 可以自动将单个提示词分割成多个独特的镜头,过渡连贯,并在场景切换中保持角色一致性。
上传一个 2-30 秒的参考视频,Wan 2.6 会提取角色的外观、动作模式和声音特征。然后您可以生成具有相同角色且身份一致的新视频——非常适合创建角色驱动的内容系列。
Wan 2.6 以 24fps 帧率生成 1080p 视频,时长从 5 到 15 秒。支持的宽高比包括 16:9(YouTube)、9:16(Instagram Reels/TikTok)和 1:1(方形格式),针对各平台优化,无需后期裁剪。
可以!Wan 2.6 具有业界领先的文字渲染功能,适用于产品包装、标识和品牌内容。该模型可以在视频帧中生成清晰可读的文字——这是 Seedance 和大多数竞争对手缺乏的关键功能。
T2V(文字转视频)从文本提示生成,具有多镜头能力。I2V(图片转视频)为静态图片添加动画,具有精确的文字渲染。R2V(参考视频转视频)使用视频参考在生成中保留角色身份。根据您的输入类型和一致性需求选择。
有!每个 Wan 2.6 创作都拥有完整的商业使用权。视频可直接用于营销活动、客户交付、品牌内容和商业应用,无需额外的许可要求。
利用企业级基础设施满足您的专业视频生成工作流
在专为高需求 AI 视频工作负载优化的基础设施上部署 Wan 2.6 的多镜头生成和 R2V 功能。1080p 15 秒生成的最高性能。
通过一个统一 API 访问 Wan 2.6(T2V、I2V、R2V)以及 300 多个 AI 模型(LLM、图像、视频、音频)。一次集成满足所有生成式 AI 需求,身份验证一致。
与 AWS 相比节省高达 70%,价格透明,按需付费。无隐藏费用,无承诺——从原型到生产无负担扩展。
您的参考视频和生成内容受 SOC I & II 认证和 HIPAA 合规性保护。企业级安全,传输和存储均加密。
企业级可靠性,保证 99.9% 正常运行时间。您的 Wan 2.6 多镜头视频生成始终可用于生产活动和关键内容工作流。
使用 REST API 和多语言 SDK(Python、Node.js、Go)在几分钟内完成集成。通过统一端点结构在 T2V、I2V 和 R2V 模式之间无缝切换。
加入全球内容创作者、营销人员和电影制作人的行列,他们正在使用 Wan 2.6 突破性的多镜头叙事和角色一致性功能革新视频制作。
尽在 Atlas Cloud。