alibaba/wan-2.6/image-to-video

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

IMAGE-TO-VIDEONEW
画像から動画

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Image-to-Video Model

Alibaba WAN 2.6 is an advanced image-to-video model on Alibaba Cloud’s DashScope. It generates high-quality videos from images and supports output resolutions of 720p and 1080p.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
720p$0.5$1
1080p$0.75$1.5

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

詳細仕様

概要:

モデルプロバイダー:QWEN
モデルタイプ:image-to-video
デプロイメント:推論API; Playground
料金:$0.0700/second

主要仕様:

サイズ上限:幅×高さまで(ユーザー設定可能)
LoRAサポート:いいえ
シードオプション:N/A

次の傑作を作成

🎬マルチショット動画生成

Wan 2.6プロフェッショナルマルチショットAI動画制作

Alibabaの最新AI動画生成技術の飛躍的進化。マルチショットストーリーテリング、リファレンス駆動のキャラクター一貫性、ネイティブオーディオビジュアル同期を備えた最大15秒の1080p動画を作成。ストーリーボードロジックを真に理解した初のシネマティックナラティブモデル。

革命的なブレークスルー

Wan 2.6がAI動画生成のゲームチェンジャーである理由

マルチショットストーリーテリング

ストーリーボードロジックを理解する初のモデル。シーン変更を通じてキャラクターの外観と環境の一貫性を維持しながら、一貫したトランジションを持つ連続ショットを自動生成—単一の15秒生成で完全なストーリーアークを実現。

リファレンス動画変換(R2V)

2〜30秒のリファレンス動画をアップロードして、キャラクターの外観、動きパターン、音声特性を抽出・保存。複数の動画にわたって前例のない精度で一貫したキャラクターパフォーマンスを作成。

正確なテキストレンダリング

製品パッケージ、看板、ブランドコンテンツ向けの業界最先端のテキストレンダリング機能。動画フレーム内に明瞭で読みやすいテキストを生成—マーケティングと商用アプリケーションに不可欠。

コア機能

15秒の長時間生成

完全な「三幕構成」(設定→展開→解決)を持つ最大15秒の動画を生成

プロフェッショナル1080p品質

シネマティック品質と強化された視覚安定性を備えた24fpsのネイティブ1080p出力

ネイティブオーディオ同期

口の動きとセリフが一致し、ペーシングに合わせた背景音楽、完璧にトリガーされる効果音

キャラクター一貫性

ショットと複数の動画を通じてキャラクターの外観、衣装、アイデンティティを維持

シネマティックカメラコントロール

パン、ズーム、トラッキングショット、ドリー移動を含むプロフェッショナルカメラムーブメント

柔軟なアスペクト比

16:9(YouTube)、9:16(リール)、1:1(スクエア)—ポストプロダクションクロッピング不要のプラットフォーム最適化

Wan 2.6 vs Wan 2.5:主要な改善点

最新リリースの新機能をご覧ください

動画時間
最大15秒
Wan 2.5:最大10秒
マルチショット機能
ストーリーボードロジックを理解
Wan 2.5:単一ショットまたは乱雑なモーフィング
リファレンス動画サポート
完全保存のR2Vモード
Wan 2.5:画像リファレンスのみ
キャラクター一貫性
ショット間で優れた性能
Wan 2.5:キャラクターのドリフト問題
モーション安定性
ジッターとアーティファクトを削減
Wan 2.5:時折フレームドリフト
プロンプト理解
複雑なマルチキャラクターシーン
Wan 2.5:基本的なシーン生成

3つの専門生成モード

クリエイティブワークフローに適したモードを選択

テキストto動画(T2V)

最も人気

強化されたマルチショットセグメンテーションと改善されたプロンプト処理を備えたテキストプロンプトから完全な動画を生成。ストーリーテリングとクリエイティブ探求に最適。

  • 単一プロンプトからの自動ショットセグメンテーション
  • マルチキャラクターインタラクション理解
  • カメラムーブメントと感情的手がかり
  • 環境ディテール保存

画像to動画(I2V)

強化版

モーションコヒーレンスを改善して静止画像をモーション動画に変換。製品ショーケース、写真アニメーション、ビジュアルストーリーテリングに最適。

  • 製品の正確なテキストレンダリング
  • フレーム間のスタイル一貫性
  • 静止画像からの自然なモーション
  • ナラティブ駆動のビジュアル最適化

リファレンス動画変換(R2V)

新機能

リファレンス動画(2〜30秒)をアップロードして、キャラクターの外観、動きパターン、音声を保存。キャラクター駆動コンテンツの最強の一貫性保証。

  • 完全なキャラクターアイデンティティ保存
  • 音声特性抽出
  • 動きパターンの複製
  • マルチキャラクター共演シーン

最適な用途

マーケティング&広告

テキストレンダリング付き製品デモ、キャラクター一貫性のあるブランドキャンペーン、プロモーション動画

コンテンツ制作

YouTube動画、ソーシャルメディアリール、マルチショットストーリーテリング、動画編集ワークフロー

eコマース

正確なテキスト付き製品ショーケース、チュートリアル動画、顧客証言の再現

教育&トレーニング

教育コンテンツ、コース教材、マルチシーン教育ナラティブ

エンターテインメント

短編映画、キャラクター駆動ストーリー、シネマティックシーケンス、クリエイティブ実験

プリビジュアライゼーション

映画コンセプト開発、ストーリーボード作成、制作のシーンプランニング

Wan 2.6 T2V、I2V、R2V API統合

テキストto動画、画像to動画、リファレンス動画変換の完全APIスイート

テキストto動画API(T2V API)

当社のWan 2.6 T2V APIは、テキストプロンプトを自動シーンセグメンテーション付きのマルチショットシネマティック動画に変換。ネイティブオーディオ同期を備えた最大15秒のプロフェッショナル1080p動画を生成。

単一プロンプトからのマルチショットストーリーテリング
三幕構成を持つ15秒時間
複雑なシーンの強化されたプロンプト理解
柔軟なアスペクト比:16:9、9:16、1:1

画像to動画API(I2V API)

当社のWan 2.6 I2V APIは、正確なモーションコントロールとテキストレンダリングで静止画像に命を吹き込みます。製品動画、写真アニメーション、ブランドコンテンツ制作に最適。

製品と看板の正確なテキストレンダリング
アニメーションフレーム間のスタイル一貫性
改善されたコヒーレンスを持つ自然なモーション
ナラティブ最適化されたビジュアル出力

リファレンス動画変換API(R2V API)

当社のWan 2.6 R2V APIは、リファレンス動画からキャラクターアイデンティティを保存。外観、音声、動きパターンを抽出して一貫したキャラクター生成を実現する2〜30秒のクリップをアップロード。

キャラクター外観とアイデンティティの保存
音声特性の抽出と複製
動きパターンの分析と再現
マルチキャラクターシーンのサポート
💡

完全なAPIスイート

すべての3つのWan 2.6 APIモード(T2V API、I2V API、R2V API)は、包括的なドキュメントを備えたRESTfulアーキテクチャをサポート。Python、Node.jsなどのSDKで開始。各エンドポイントにはネイティブオーディオビジュアル同期と完全な商用利用権が含まれます。

Wan 2.6の始め方

2つのシンプルなパスで数分でプロフェッショナル動画作成を開始

API統合

アプリケーションを構築する開発者向け

1

サインアップ&ログイン

Atlas Cloudアカウントを作成するか、ログインしてコンソールにアクセス

2

支払い方法の追加

請求セクションでクレジットカードを紐付けてアカウントに入金

3

APIキーの生成

コンソール→APIキーに移動して認証キーを作成

4

構築開始

T2V、I2V、またはR2V APIエンドポイントを使用してWan 2.6をアプリケーションに統合

Playground体験

クイックテストと実験向け

1

サインアップ&ログイン

Atlas Cloudアカウントを作成するか、ログインしてプラットフォームにアクセス

2

支払い方法の追加

請求セクションでクレジットカードを紐付けて開始

3

Playgroundを使用

Wan 2.6 playgroundに移動し、T2V/I2V/R2Vモードを選択して即座に動画を生成

💡
プロのヒント: まずPlaygroundでさまざまな生成モードをテストして、ユースケースに最適なものを理解してから、本番スケール用の対応するAPIを統合してください。

よくある質問

Wan 2.6のマルチショット機能の独自性は何ですか?

Wan 2.6は、ストーリーボードロジックを真に理解する初のモデルです。乱雑な「モーフィング」効果を生み出したWan 2.5とは異なり、Wan 2.6は単一のプロンプトを一貫したトランジションを持つ複数の明確なショットに自動的にセグメント化し、シーン変更を通じてキャラクターの一貫性を維持できます。

リファレンス動画変換(R2V)はどのように機能しますか?

2〜30秒のリファレンス動画をアップロードすると、Wan 2.6はキャラクターの外観、動きパターン、音声特性を抽出します。その後、同じキャラクターをフィーチャーした新しい動画を一貫したアイデンティティで生成できます—キャラクター駆動のコンテンツシリーズの作成に最適です。

サポートされている動画形式と時間は?

Wan 2.6は、5〜15秒の時間で24fpsの1080p動画を生成します。サポートされているアスペクト比には、16:9(YouTube)、9:16(Instagram Reels/TikTok)、1:1(スクエアフォーマット)が含まれ、各プラットフォーム向けに最適化されており、ポストプロダクションクロッピングは不要です。

Wan 2.6は動画内でテキストをレンダリングできますか?

はい!Wan 2.6は、製品パッケージ、看板、ブランドコンテンツ向けの業界最先端のテキストレンダリングを備えています。モデルは動画フレーム内に明瞭で読みやすいテキストを生成できます—これはSeedanceとほとんどの競合他社が欠いている重要な機能です。

T2V、I2V、R2Vモードの違いは何ですか?

T2V(テキストto動画)は、マルチショット機能を備えたテキストプロンプトから生成します。I2V(画像to動画)は、正確なテキストレンダリングで静止画像をアニメーション化します。R2V(リファレンス動画変換)は、動画リファレンスを使用して生成間でキャラクターアイデンティティを保存します。入力タイプと一貫性のニーズに基づいて選択してください。

生成された動画の商用権はありますか?

はい!すべてのWan 2.6作成には完全な商用利用権が付属します。動画は、追加のライセンス要件なしに、マーケティングキャンペーン、クライアント成果物、ブランドコンテンツ、商用アプリケーション向けに本番レディです。

Atlas CloudでWan 2.6を使用する理由

プロフェッショナル動画生成ワークフロー向けのエンタープライズグレードインフラストラクチャを活用

専用インフラストラクチャ

要求の厳しいAI動画ワークロード向けに特別に最適化されたインフラストラクチャにWan 2.6のマルチショット生成とR2V機能を展開。1080p 15秒生成の最大パフォーマンス。

すべてのモデル向け統一API

1つの統一APIを通じて、Wan 2.6(T2V、I2V、R2V)と300以上のAIモデル(LLM、画像、動画、音声)にアクセス。一貫した認証ですべての生成AI ニーズに単一統合。

競争力のある価格

透明な従量課金制の価格でAWSと比較して最大70%節約。隠れた料金や契約なし—銀行を壊すことなくプロトタイプから本番にスケール。

SOC I & II認定セキュリティ

SOC I & II認定とHIPAAコンプライアンスでリファレンス動画と生成コンテンツを保護。暗号化された伝送とストレージを備えたエンタープライズグレードのセキュリティ。

99.9%稼働時間SLA

保証された99.9%稼働時間を備えたエンタープライズグレードの信頼性。Wan 2.6マルチショット動画生成は、本番キャンペーンと重要なコンテンツワークフローで常に利用可能。

簡単な統合

REST APIと多言語SDK(Python、Node.js、Go)で数分で完全統合。統一されたエンドポイント構造でT2V、I2V、R2Vモード間をシームレスに切り替え。

99.9%
稼働時間
70%
AWS比低コスト
300+
生成AIモデル
24/7
プロサポート

技術仕様

Architecture
マルチモーダル理解を備えた高度なTransformer
Resolution
1080p(フルHD)
Frame Rate
24 FPS
Duration
5〜15秒(モード依存)
Aspect Ratios
16:9、9:16、1:1
Generation Modes
T2V、I2V、R2V
Audio
リップシンク付きネイティブ同期
Commercial Rights
完全な商用利用が含まれます

プロフェッショナルマルチショット動画生成を体験

Wan 2.6の画期的なマルチショットストーリーテリングとキャラクター一貫性機能で動画制作を革新している世界中のコンテンツクリエーター、マーケター、映画製作者に参加してください。

300以上のモデルから始める、

Atlas Cloudでのみ。