alibaba/wan-2.6/video-to-video

A speed-optimized video-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

VIDEO-TO-VIDEONEW
影片轉影片

A speed-optimized video-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Video-to-Video Model

Alibaba WAN 2.6 is an advanced Video-to-Video model provided by Alibaba Cloud's DashScope platform. This model generates high-quality 480p/720p/1080p videos from text prompts.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
480p$0.2$0.4
720p$0.4$0.8
1080p$0.6$1.2

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

詳細規格

概覽:

模型提供商:QWEN
模型類型:video-to-video
部署方式:推理 API;Playground
定價:$0.0700/second

關鍵參數:

尺寸上限:最大寬度 × 高度(使用者可設定)
LoRA 支援:
種子選項:N/A

創作你的下一件傑作

🎬多鏡頭影片生成

Wan 2.6專業多鏡頭 AI 影片創作

阿里巴巴在 AI 影片生成領域的最新突破。創作長達 15 秒的 1080p 影片,具備多鏡頭故事敘述、參考驅動的角色一致性與原生音畫同步功能。首個真正理解分鏡邏輯的電影級敘事模型。

革命性突破

Wan 2.6 成為 AI 影片生成遊戲規則改變者的關鍵

多鏡頭敘事

首個理解分鏡邏輯的模型。自動生成連續鏡頭與連貫轉場,在場景變換中維持角色外觀與環境一致性——在單次 15 秒生成中實現完整故事弧線。

參考影片轉換 (R2V)

上傳 2-30 秒的參考影片,擷取並保留角色外觀、動作模式與聲音特徵。以前所未有的精準度在多支影片中創造一致的角色表演。

精準文字渲染

業界領先的文字渲染能力,適用於產品包裝、招牌與品牌內容。在影片畫面中生成清晰可讀的文字——對行銷與商業應用至關重要。

核心能力

延長至 15 秒時長

每支影片可生成長達 15 秒,具備完整「三幕式」結構(開端 → 衝突 → 解決)

專業 1080p 畫質

原生 1080p 輸出,24fps 電影級畫質,視覺穩定性大幅提升

原生音畫同步

對白與唇形同步,背景音樂契合節奏,音效完美觸發

角色一致性

跨鏡頭與多支影片維持角色外觀、服裝與身份一致

電影級鏡頭控制

專業攝影機運動,包含平移、縮放、追蹤鏡頭與推軌運動

彈性長寬比

16:9(YouTube)、9:16(限時動態)、1:1(方形)——針對平台優化,無需後製裁切

Wan 2.6 vs Wan 2.5:重大改進

看看最新版本的新功能

影片時長
最長 15 秒
Wan 2.5:最長 10 秒
多鏡頭能力
理解分鏡邏輯
Wan 2.5:單鏡頭或雜亂變形
參考影片支援
R2V 模式完整保留
Wan 2.5:僅圖片參考
角色一致性
跨鏡頭表現優異
Wan 2.5:角色漂移問題
動態穩定性
減少抖動與瑕疵
Wan 2.5:偶爾畫面偏移
提示理解
複雜多角色場景
Wan 2.5:基本場景生成

三種專業生成模式

為您的創作流程選擇合適模式

文字轉影片 (T2V)

最受歡迎

從文字提示生成完整影片,具備增強的多鏡頭分割與改進的提示處理。完美適用於故事敘述與創意探索。

  • 從單一提示自動分鏡
  • 多角色互動理解
  • 鏡頭運動與情感提示
  • 環境細節保留

圖片轉影片 (I2V)

增強版

將靜態圖片轉換為動態影片,動作連貫性大幅提升。適合產品展示、照片動畫與視覺敘事。

  • 產品精準文字渲染
  • 跨畫面風格一致
  • 從靜態圖片自然動態化
  • 敘事驅動的視覺優化

參考影片轉換 (R2V)

全新

上傳參考影片(2-30秒)保留角色外觀、動作模式與聲音。為角色驅動內容提供最強一致性保證。

  • 完整角色身份保留
  • 聲音特徵擷取
  • 動作模式複製
  • 多角色共演場景

完美適用於

行銷與廣告

具文字渲染的產品演示、角色一致的品牌行銷與宣傳影片

內容創作

YouTube 影片、社群媒體短片、多鏡頭故事敘述與影片編輯工作流程

電子商務

精準文字的產品展示、教學影片與客戶見證重製

教育與培訓

教學內容、課程教材與多場景教育敘事

娛樂

短片、角色驅動故事、電影級序列與創意實驗

前期視覺化

電影概念開發、分鏡創作與製作場景規劃

Wan 2.6 T2V、I2V 與 R2V API 整合

完整的文字轉影片、圖片轉影片與參考影片轉換 API 套件

文字轉影片 API (T2V API)

我們的 Wan 2.6 T2V API 將文字提示轉換為具自動場景分割的多鏡頭電影級影片。生成專業 1080p 影片,長達 15 秒,具備原生音畫同步。

從單一提示進行多鏡頭敘事
15 秒時長,具三幕式結構
增強複雜場景提示理解
彈性長寬比:16:9、9:16、1:1

圖片轉影片 API (I2V API)

我們的 Wan 2.6 I2V API 以精準動作控制與文字渲染賦予靜態圖片生命。完美適用於產品影片、照片動畫與品牌內容創作。

產品與招牌精準文字渲染
動畫畫面風格一致
改進連貫性的自然動態
敘事優化的視覺輸出

參考影片轉換 API (R2V API)

我們的 Wan 2.6 R2V API 從參考影片中保留角色身份。上傳 2-30 秒片段以擷取外觀、聲音與動作模式,實現一致的角色生成。

角色外觀與身份保留
聲音特徵擷取與複製
動作模式分析與重現
多角色場景支援
💡

完整 API 套件

所有三種 Wan 2.6 API 模式(T2V API、I2V API、R2V API)均支援 RESTful 架構與完整文件。使用 Python、Node.js 等 SDK 快速開始。每個端點均包含原生音畫同步與完整商業使用權。

如何開始使用 Wan 2.6

透過兩個簡單路徑,幾分鐘內開始創作專業影片

API 整合

適用於開發應用程式的開發者

1

註冊與登入

建立您的 Atlas Cloud 帳號或登入以存取控制台

2

新增付款方式

在帳單區域綁定您的信用卡為帳戶儲值

3

生成 API 金鑰

前往控制台 → API 金鑰並建立您的驗證金鑰

4

開始建置

使用 T2V、I2V 或 R2V API 端點將 Wan 2.6 整合到您的應用程式

Playground 體驗

適用於快速測試與實驗

1

註冊與登入

建立您的 Atlas Cloud 帳號或登入以存取平台

2

新增付款方式

在帳單區域綁定您的信用卡即可開始

3

使用 Playground

前往 Wan 2.6 playground,選擇 T2V/I2V/R2V 模式,立即生成影片

💡
專業提示:先在 Playground 測試不同生成模式,了解哪種最適合您的使用情境,再整合相應的 API 以擴展到生產規模。:

常見問題

Wan 2.6 的多鏡頭能力有何獨特之處?

Wan 2.6 是首個真正理解分鏡邏輯的模型。不同於 Wan 2.5 會產生雜亂的「變形」效果,Wan 2.6 可自動將單一提示分割為多個清晰鏡頭,具連貫轉場,並在場景變換中維持角色一致性。

參考影片轉換 (R2V) 如何運作?

上傳 2-30 秒的參考影片,Wan 2.6 會擷取角色的外觀、動作模式與聲音特徵。您可以生成具相同角色的新影片,身份保持一致——適合創作角色驅動的系列內容。

支援哪些影片格式與時長?

Wan 2.6 生成 1080p 影片,24fps,時長從 5 到 15 秒。支援的長寬比包括 16:9(YouTube)、9:16(Instagram Reels/TikTok)與 1:1(方形格式),針對各平台優化,無需後製裁切。

Wan 2.6 能在影片中渲染文字嗎?

可以!Wan 2.6 具備業界領先的文字渲染能力,適用於產品包裝、招牌與品牌內容。模型可在影片畫面中生成清晰可讀的文字——這是 Seedance 與多數競爭者缺乏的關鍵功能。

T2V、I2V 與 R2V 模式有何差異?

T2V(文字轉影片)從文字提示生成,具多鏡頭能力。I2V(圖片轉影片)以精準文字渲染將靜態圖片動畫化。R2V(參考影片轉換)使用影片參考在多次生成中保留角色身份。根據您的輸入類型與一致性需求選擇。

我擁有生成影片的商業權利嗎?

是的!每個 Wan 2.6 創作都附帶完整商業使用權。影片可直接用於行銷活動、客戶交付項目、品牌內容與商業應用,無需額外授權。

為何在 Atlas Cloud 上使用 Wan 2.6?

利用企業級基礎設施實現專業影片生成工作流程

專用基礎設施

在專為高需求 AI 影片工作負載優化的基礎設施上部署 Wan 2.6 的多鏡頭生成與 R2V 能力。1080p 15 秒生成的最佳效能。

統一所有模型的 API

透過單一統一 API 存取 Wan 2.6(T2V、I2V、R2V)與 300 多個 AI 模型(LLM、圖片、影片、音訊)。單次整合滿足所有生成式 AI 需求,驗證一致。

具競爭力的定價

與 AWS 相比節省高達 70%,透明的按使用量付費定價。無隱藏費用、無承諾——從原型到生產規模擴展,無需超支。

SOC I & II 認證安全性

您的參考影片與生成內容受 SOC I & II 認證與 HIPAA 合規保護。企業級安全性,具加密傳輸與儲存。

99.9% 正常運行 SLA

企業級可靠性,保證 99.9% 正常運行。您的 Wan 2.6 多鏡頭影片生成隨時可用於生產活動與關鍵內容工作流程。

輕鬆整合

使用 REST API 與多語言 SDK(Python、Node.js、Go)幾分鐘內完成整合。透過統一端點結構在 T2V、I2V 與 R2V 模式間無縫切換。

99.9%
正常運行時間
70%
較 AWS 降低成本
300+
生成式 AI 模型
24/7
專業支援

技術規格

Architecture
具多模態理解的進階 Transformer
Resolution
1080p(Full HD)
Frame Rate
24 FPS
Duration
5-15 秒(依模式而定)
Aspect Ratios
16:9、9:16、1:1
Generation Modes
T2V、I2V、R2V
Audio
原生同步,具唇形同步
Commercial Rights
包含完整商業使用權

體驗專業多鏡頭影片生成

加入全球內容創作者、行銷人員與電影製作人的行列,透過 Wan 2.6 突破性的多鏡頭敘事與角色一致性能力,革新影片製作。

300+ 模型,即刻開啟,

盡在 Atlas Cloud。