alibaba/wan-2.6/text-to-video

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

TEXT-TO-VIDEOHOTNEW
文生视频

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Text-to-Video Model

Alibaba WAN 2.6 is an advanced text-to-video model provided by Alibaba Cloud's DashScope platform. This model generates high-quality 480p/720p/1080p videos from text prompts.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
480p$0.2$0.4
720p$0.4$0.8
1080p$0.6$1.2

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

详细规格

概览:

模型提供商:QWEN
模型类型:text-to-video
部署方式:推理 API;Playground
定价:$0.0700/second

关键参数:

尺寸上限:最大宽度 × 高度(用户可配置)
LoRA 支持:
种子选项:N/A

创作你的下一件杰作

🎬多镜头视频生成

Wan 2.6专业级多镜头 AI 视频创作

阿里巴巴在 AI 视频生成领域的最新突破。创建最长 15 秒的 1080p 视频,支持多镜头叙事、参考视频驱动的角色一致性以及原生音视频同步。首个真正理解分镜逻辑的视频生成模型,让电影级叙事成为可能。

革命性突破

Wan 2.6 成为 AI 视频生成游戏规则改变者的原因

多镜头叙事

首个理解分镜逻辑的模型。自动生成连续镜头,过渡流畅,在场景切换中保持角色外观和环境一致性——在单次 15 秒生成中实现完整故事情节。

参考视频转视频 (R2V)

上传 2-30 秒参考视频以提取并保留角色外观、动作模式和声音特征。在多个视频中创建一致的角色表演,准确度前所未有。

精准文字渲染

业界领先的文字渲染能力,适用于产品包装、标识和品牌内容。在视频帧中生成清晰可读的文字——这对营销和商业应用至关重要。

核心功能

最长 15 秒时长

每个视频最长可生成 15 秒,具有完整的「三幕式」结构(设定 → 行动 → 解决)

专业级 1080p 画质

原生 1080p 输出,24fps 帧率,电影级画质和增强的视觉稳定性

原生音频同步

对话与唇部动作匹配,背景音乐与节奏对齐,音效触发完美

角色一致性

在多个镜头和视频中保持角色外观、服装和身份的一致性

电影级镜头控制

专业镜头运动,包括摇镜、变焦、跟踪镜头和移动摄影车运动

灵活的宽高比

16:9 (YouTube)、9:16 (Reels)、1:1 (方形) - 针对平台优化,无需后期裁剪

Wan 2.6 vs Wan 2.5:重大改进

查看最新版本的新功能

视频时长
最长 15 秒
Wan 2.5:最长 10 秒
多镜头能力
理解分镜逻辑
Wan 2.5:单镜头或混乱变形
参考视频支持
R2V 模式完全保留
Wan 2.5:仅支持图片参考
角色一致性
跨镜头表现出色
Wan 2.5:存在角色漂移问题
运动稳定性
减少抖动和伪影
Wan 2.5:偶尔出现帧漂移
提示词理解
复杂多角色场景
Wan 2.5:基础场景生成

三种专业生成模式

为您的创作工作流选择合适的模式

文字转视频 (T2V)

最受欢迎

从文本提示生成完整视频,具有增强的多镜头分割和改进的提示词处理。非常适合叙事和创意探索。

  • 单个提示词自动镜头分割
  • 多角色互动理解
  • 镜头运动和情感线索
  • 环境细节保留

图片转视频 (I2V)

增强版

将静态图片转换为动态视频,运动连贯性得到改进。非常适合产品展示、照片动画和视觉叙事。

  • 产品的精确文字渲染
  • 跨帧风格一致性
  • 从静态图片自然运动
  • 叙事驱动的视觉优化

参考视频转视频 (R2V)

全新

上传参考视频(2-30秒)以保留角色外观、动作模式和声音。为角色驱动内容提供最强一致性保证。

  • 完整角色身份保留
  • 声音特征提取
  • 动作模式复制
  • 多角色互动场景

完美适用于

营销与广告

具有文字渲染的产品演示、具有角色一致性的品牌活动和促销视频

内容创作

YouTube 视频、社交媒体 Reels、多镜头叙事和视频编辑工作流

电子商务

具有准确文字的产品展示、教程视频和客户评价重现

教育与培训

教学内容、课程材料和多场景教育叙事

娱乐

短片、角色驱动故事、电影级序列和创意实验

预可视化

电影概念开发、分镜创作和制作场景规划

Wan 2.6 T2V、I2V 和 R2V API 集成

完整的文字转视频、图片转视频和参考视频转视频 API 套件

文字转视频 API (T2V API)

我们的 Wan 2.6 T2V API 将文本提示转换为具有自动场景分割的多镜头电影视频。生成最长 15 秒的专业级 1080p 视频,具有原生音频同步。

单个提示词的多镜头叙事
15 秒时长,三幕式结构
复杂场景的增强提示词理解
灵活的宽高比:16:9、9:16、1:1

图片转视频 API (I2V API)

我们的 Wan 2.6 I2V API 将静态图片通过精确的运动控制和文字渲染变为生动视频。非常适合产品视频、照片动画和品牌内容创作。

产品和标识的准确文字渲染
动画帧的风格一致性
改进连贯性的自然运动
叙事优化的视觉输出

参考视频转视频 API (R2V API)

我们的 Wan 2.6 R2V API 从参考视频中保留角色身份。上传 2-30 秒的片段以提取外观、声音和动作模式,实现一致的角色生成。

角色外观和身份保留
声音特征提取和复制
动作模式分析和重现
多角色场景支持
💡

完整 API 套件

所有三种 Wan 2.6 API 模式(T2V API、I2V API、R2V API)都支持 RESTful 架构,配有完整文档。使用 Python、Node.js 等 SDK 快速入门。每个端点都包含原生音视频同步和完整商业使用权。

如何开始使用 Wan 2.6

通过两种简单路径,几分钟内开始创建专业视频

API 集成

面向构建应用程序的开发者

1

注册并登录

创建您的 Atlas Cloud 账户或登录以访问控制台

2

添加支付方式

在账单部分绑定您的信用卡为账户充值

3

生成 API 密钥

导航到控制台 → API 密钥并创建您的身份验证密钥

4

开始构建

使用 T2V、I2V 或 R2V API 端点将 Wan 2.6 集成到您的应用程序中

Playground 体验

用于快速测试和实验

1

注册并登录

创建您的 Atlas Cloud 账户或登录以访问平台

2

添加支付方式

在账单部分绑定您的信用卡以开始使用

3

使用 Playground

前往 Wan 2.6 playground,选择 T2V/I2V/R2V 模式,立即生成视频

💡
专业提示: 先在 Playground 中测试不同的生成模式,了解哪种模式最适合您的用例,然后集成相应的 API 用于生产规模。

常见问题

Wan 2.6 的多镜头能力有何独特之处?

Wan 2.6 是首个真正理解分镜逻辑的模型。与会产生混乱「变形」效果的 Wan 2.5 不同,Wan 2.6 可以自动将单个提示词分割成多个独特的镜头,过渡连贯,并在场景切换中保持角色一致性。

参考视频转视频 (R2V) 如何工作?

上传一个 2-30 秒的参考视频,Wan 2.6 会提取角色的外观、动作模式和声音特征。然后您可以生成具有相同角色且身份一致的新视频——非常适合创建角色驱动的内容系列。

支持哪些视频格式和时长?

Wan 2.6 以 24fps 帧率生成 1080p 视频,时长从 5 到 15 秒。支持的宽高比包括 16:9(YouTube)、9:16(Instagram Reels/TikTok)和 1:1(方形格式),针对各平台优化,无需后期裁剪。

Wan 2.6 能在视频中渲染文字吗?

可以!Wan 2.6 具有业界领先的文字渲染功能,适用于产品包装、标识和品牌内容。该模型可以在视频帧中生成清晰可读的文字——这是 Seedance 和大多数竞争对手缺乏的关键功能。

T2V、I2V 和 R2V 模式有什么区别?

T2V(文字转视频)从文本提示生成,具有多镜头能力。I2V(图片转视频)为静态图片添加动画,具有精确的文字渲染。R2V(参考视频转视频)使用视频参考在生成中保留角色身份。根据您的输入类型和一致性需求选择。

我对生成的视频有商业使用权吗?

有!每个 Wan 2.6 创作都拥有完整的商业使用权。视频可直接用于营销活动、客户交付、品牌内容和商业应用,无需额外的许可要求。

为什么在 Atlas Cloud 上使用 Wan 2.6?

利用企业级基础设施满足您的专业视频生成工作流

专用基础设施

在专为高需求 AI 视频工作负载优化的基础设施上部署 Wan 2.6 的多镜头生成和 R2V 功能。1080p 15 秒生成的最高性能。

所有模型的统一 API

通过一个统一 API 访问 Wan 2.6(T2V、I2V、R2V)以及 300 多个 AI 模型(LLM、图像、视频、音频)。一次集成满足所有生成式 AI 需求,身份验证一致。

具有竞争力的价格

与 AWS 相比节省高达 70%,价格透明,按需付费。无隐藏费用,无承诺——从原型到生产无负担扩展。

SOC I & II 认证安全

您的参考视频和生成内容受 SOC I & II 认证和 HIPAA 合规性保护。企业级安全,传输和存储均加密。

99.9% 正常运行时间 SLA

企业级可靠性,保证 99.9% 正常运行时间。您的 Wan 2.6 多镜头视频生成始终可用于生产活动和关键内容工作流。

轻松集成

使用 REST API 和多语言 SDK(Python、Node.js、Go)在几分钟内完成集成。通过统一端点结构在 T2V、I2V 和 R2V 模式之间无缝切换。

99.9%
正常运行时间
70%
相比 AWS 降低成本
300+
生成式 AI 模型
24/7
专业支持

技术规格

Architecture
具有多模态理解的高级 Transformer
Resolution
1080p (全高清)
Frame Rate
24 FPS
Duration
5-15 秒(取决于模式)
Aspect Ratios
16:9、9:16、1:1
Generation Modes
T2V、I2V、R2V
Audio
原生同步,支持唇部同步
Commercial Rights
包含完整商业使用权

体验专业级多镜头视频生成

加入全球内容创作者、营销人员和电影制作人的行列,他们正在使用 Wan 2.6 突破性的多镜头叙事和角色一致性功能革新视频制作。

300+ 模型,即刻开启,

尽在 Atlas Cloud。