ホーム
探索
Alibaba
Wan 2.6 Models
atlascloud/wan-2.6-spicy/image-to-video
Wan 2.6 Spicy Image-to-Video
画像から動画

Wan 2.6 Spicy Image-to-Video API by Atlas Cloud

atlascloud/wan-2.6-spicy/image-to-video
Image-to-video

AtlasCloud Wan 2.6 Spicy Image-to-Video turns a reference image into a short motion clip with expressive character movement and stable temporal detail.

🎬マルチショット動画生成

Wan 2.6プロフェッショナルマルチショットAI動画制作

Alibabaの最新AI動画生成技術の飛躍的進化。マルチショットストーリーテリング、リファレンス駆動のキャラクター一貫性、ネイティブオーディオビジュアル同期を備えた最大15秒の1080p動画を作成。ストーリーボードロジックを真に理解した初のシネマティックナラティブモデル。

革命的なブレークスルー

Wan 2.6がAI動画生成のゲームチェンジャーである理由

マルチショットストーリーテリング

ストーリーボードロジックを理解する初のモデル。シーン変更を通じてキャラクターの外観と環境の一貫性を維持しながら、一貫したトランジションを持つ連続ショットを自動生成—単一の15秒生成で完全なストーリーアークを実現。

リファレンス動画変換(R2V)

2〜30秒のリファレンス動画をアップロードして、キャラクターの外観、動きパターン、音声特性を抽出・保存。複数の動画にわたって前例のない精度で一貫したキャラクターパフォーマンスを作成。

正確なテキストレンダリング

製品パッケージ、看板、ブランドコンテンツ向けの業界最先端のテキストレンダリング機能。動画フレーム内に明瞭で読みやすいテキストを生成—マーケティングと商用アプリケーションに不可欠。

コア機能

15秒の長時間生成

完全な「三幕構成」(設定→展開→解決)を持つ最大15秒の動画を生成

プロフェッショナル1080p品質

シネマティック品質と強化された視覚安定性を備えた24fpsのネイティブ1080p出力

ネイティブオーディオ同期

セリフと口の動きが一致し、テンポに合わせた背景音楽、効果音も完璧なタイミングで再生

キャラクター一貫性

ショットと複数の動画を通じてキャラクターの外観、衣装、アイデンティティを維持

シネマティックカメラコントロール

パン、ズーム、トラッキングショット、ドリー移動を含むプロフェッショナルカメラムーブメント

柔軟なアスペクト比

16:9(YouTube)、9:16(リール)、1:1(スクエア)—ポストプロダクションクロッピング不要のプラットフォーム最適化

Wan 2.6 vs Wan 2.5:主要な改善点

最新リリースの新機能をご覧ください

動画時間
最大15秒
Wan 2.5:最大10秒
マルチショット機能
ストーリーボードロジックを理解
Wan 2.5:単一ショットまたは乱雑なモーフィング
リファレンス動画サポート
R2V モードで完全保持
Wan 2.5:画像リファレンスのみ
キャラクター一貫性
ショット間で優れた性能
Wan 2.5:キャラクターのドリフト問題
モーション安定性
ジッターとアーティファクトを削減
Wan 2.5:時折フレームドリフト
プロンプト理解
複雑なマルチキャラクターシーン
Wan 2.5:基本的なシーン生成

3つの専門生成モード

クリエイティブワークフローに適したモードを選択

テキストto動画(T2V)

最も人気

強化されたマルチショットセグメンテーションと改善されたプロンプト処理を備えたテキストプロンプトから完全な動画を生成。ストーリーテリングとクリエイティブ探求に最適。

  • 単一プロンプトからの自動ショットセグメンテーション
  • マルチキャラクターインタラクション理解
  • カメラムーブメントと感情的手がかり
  • 環境ディテール保存

画像to動画(I2V)

強化版

モーションコヒーレンスを改善して静止画像をモーション動画に変換。製品ショーケース、写真アニメーション、ビジュアルストーリーテリングに最適。

  • 製品向けの正確なテキストレンダリング
  • フレーム間のスタイル一貫性
  • 静止画像からの自然なモーション
  • ナラティブ駆動のビジュアル最適化

リファレンス動画変換(R2V)

新機能

リファレンス動画(2〜30秒)をアップロードして、キャラクターの外観、動きパターン、音声を保存。キャラクター駆動コンテンツの最強の一貫性保証。

  • 完全なキャラクターアイデンティティ保存
  • 音声特性抽出
  • 動きパターンの複製
  • マルチキャラクター共演シーン

最適な用途

マーケティング&広告

テキストレンダリング付き製品デモ、キャラクター一貫性のあるブランドキャンペーン、プロモーション動画

コンテンツ制作

YouTube動画、ソーシャルメディアリール、マルチショットストーリーテリング、動画編集ワークフロー

eコマース

正確なテキスト付きの製品ショーケース、チュートリアル動画、お客様の声の再現

教育&トレーニング

教育コンテンツ、コース教材、マルチシーン教育ナラティブ

エンターテインメント

短編映画、キャラクター駆動ストーリー、シネマティックシーケンス、クリエイティブ実験

プリビジュアライゼーション

映画コンセプト開発、ストーリーボード作成、制作のシーンプランニング

Wan 2.6 T2V、I2V、R2V API統合

テキストto動画、画像to動画、リファレンス動画変換の完全APIスイート

テキストto動画API(T2V API)

当社のWan 2.6 T2V APIは、テキストプロンプトを自動シーンセグメンテーション付きのマルチショットシネマティック動画に変換。ネイティブオーディオ同期を備えた最大15秒のプロフェッショナル1080p動画を生成。

単一プロンプトからのマルチショットストーリーテリング
三幕構成による 15 秒の長さ
複雑なシーンの強化されたプロンプト理解
柔軟なアスペクト比:16:9、9:16、1:1

画像to動画API(I2V API)

当社のWan 2.6 I2V APIは、正確なモーションコントロールとテキストレンダリングで静止画像に命を吹き込みます。製品動画、写真アニメーション、ブランドコンテンツ制作に最適。

製品と看板の正確なテキストレンダリング
アニメーションフレーム間のスタイル一貫性
改善されたコヒーレンスを持つ自然なモーション
ナラティブ最適化されたビジュアル出力

リファレンス動画変換API(R2V API)

当社のWan 2.6 R2V APIは、リファレンス動画からキャラクターアイデンティティを保存。外観、音声、動きパターンを抽出して一貫したキャラクター生成を実現する2〜30秒のクリップをアップロード。

キャラクター外観とアイデンティティの保存
音声特性の抽出と複製
動きパターンの分析と再現
マルチキャラクターシーンのサポート
💡

完全なAPIスイート

Wan 2.6 の 3 つの API モード(T2V API、I2V API、R2V API)はすべて RESTful アーキテクチャに対応し、充実したドキュメントを備えています。Python や Node.js などの SDK ですぐに開始可能。各エンドポイントにはネイティブな音声・映像同期と完全な商用利用権が含まれます。

Wan 2.6の始め方

2つのシンプルなパスで数分でプロフェッショナル動画作成を開始

API統合

アプリケーションを構築する開発者向け

1

サインアップ&ログイン

Atlas Cloudアカウントを作成するか、ログインしてコンソールにアクセス

2

支払い方法の追加

請求セクションでクレジットカードを紐付けてアカウントに入金

3

APIキーの生成

コンソール→APIキーに移動して認証キーを作成

4

構築開始

T2V、I2V、またはR2V APIエンドポイントを使用してWan 2.6をアプリケーションに統合

Playground体験

クイックテストと実験向け

1

サインアップ&ログイン

Atlas Cloudアカウントを作成するか、ログインしてプラットフォームにアクセス

2

支払い方法の追加

請求セクションでクレジットカードを紐付けて開始

3

Playgroundを使用

Wan 2.6 playgroundに移動し、T2V/I2V/R2Vモードを選択して即座に動画を生成

💡
プロのヒント: まずは Playground でさまざまな生成モードを試し、ユースケースに最適なものを見極めてから、本番運用に向けて対応する API を統合しましょう。

よくある質問

Wan 2.6のマルチショット機能の独自性は何ですか?

Wan 2.6は、ストーリーボードロジックを真に理解する初のモデルです。乱雑な「モーフィング」効果を生み出したWan 2.5とは異なり、Wan 2.6は単一のプロンプトを一貫したトランジションを持つ複数の明確なショットに自動的にセグメント化し、シーン変更を通じてキャラクターの一貫性を維持できます。

リファレンス動画変換(R2V)はどのように機能しますか?

2〜30秒のリファレンス動画をアップロードすると、Wan 2.6はキャラクターの外観、動きパターン、音声特性を抽出します。その後、同じキャラクターをフィーチャーした新しい動画を一貫したアイデンティティで生成できます—キャラクター駆動のコンテンツシリーズの作成に最適です。

サポートされている動画形式と時間は?

Wan 2.6は、5〜15秒の時間で24fpsの1080p動画を生成します。サポートされているアスペクト比には、16:9(YouTube)、9:16(Instagram Reels/TikTok)、1:1(スクエアフォーマット)が含まれ、各プラットフォーム向けに最適化されており、ポストプロダクションクロッピングは不要です。

Wan 2.6は動画内でテキストをレンダリングできますか?

はい!Wan 2.6は、製品パッケージ、看板、ブランドコンテンツ向けの業界最先端のテキストレンダリングを備えています。モデルは動画フレーム内に明瞭で読みやすいテキストを生成できます—これはSeedanceとほとんどの競合他社が欠いている重要な機能です。

T2V、I2V、R2Vモードの違いは何ですか?

T2V(テキストto動画)は、マルチショット機能を備えたテキストプロンプトから生成します。I2V(画像to動画)は、正確なテキストレンダリングで静止画像をアニメーション化します。R2V(リファレンス動画変換)は、動画リファレンスを使用して生成間でキャラクターアイデンティティを保存します。入力タイプと一貫性のニーズに基づいて選択してください。

生成された動画の商用権はありますか?

はい!すべてのWan 2.6作成には完全な商用利用権が付属します。動画は、追加のライセンス要件なしに、マーケティングキャンペーン、クライアント成果物、ブランドコンテンツ、商用アプリケーション向けに本番レディです。

Atlas CloudでWan 2.6を使用する理由

プロフェッショナル動画生成ワークフロー向けのエンタープライズグレードインフラストラクチャを活用

専用インフラストラクチャ

要求の厳しいAI動画ワークロード向けに特別に最適化されたインフラストラクチャにWan 2.6のマルチショット生成とR2V機能を展開。1080p 15秒生成の最大パフォーマンス。

すべてのモデル向け統一API

1 つの統一 API を通じて、Wan 2.6(T2V、I2V、R2V)と 300 以上の AI モデル(LLM、画像、動画、音声)にアクセス。一貫した認証で、あらゆる生成 AI のニーズを単一の統合で実現します。

競争力のある価格

従量課金制の透明な料金体系で、AWS と比べて最大 70% のコスト削減。隠れた費用や契約の縛りはなく、プロトタイプから本番環境まで無理なくスケールできます。

SOC I & II認定セキュリティ

SOC I & II認定とHIPAAコンプライアンスでリファレンス動画と生成コンテンツを保護。暗号化された伝送とストレージを備えたエンタープライズグレードのセキュリティ。

99.9%稼働時間SLA

保証された99.9%稼働時間を備えたエンタープライズグレードの信頼性。Wan 2.6マルチショット動画生成は、本番キャンペーンと重要なコンテンツワークフローで常に利用可能。

簡単な統合

REST APIと多言語SDK(Python、Node.js、Go)で数分で完全統合。統一されたエンドポイント構造でT2V、I2V、R2Vモード間をシームレスに切り替え。

99.9%
稼働時間
70%
AWS比低コスト
300+
生成AIモデル
24/7
プロサポート

技術仕様

Architecture
マルチモーダル理解を備えた高度なTransformer
Resolution
1080p(フルHD)
Frame Rate
24 FPS
Duration
5〜15 秒(モードにより異なる)
Aspect Ratios
16:9、9:16、1:1
Generation Modes
T2V、I2V、R2V
Audio
リップシンク付きネイティブ同期
Commercial Rights
完全な商用利用が含まれます

プロフェッショナルマルチショット動画生成を体験

Wan 2.6の画期的なマルチショットストーリーテリングとキャラクター一貫性機能で動画制作を革新している世界中のコンテンツクリエーター、マーケター、映画製作者に参加してください。

Wan 2.6 Spicy Image-to-Video

Wan 2.6 Spicy Image-to-Video turns a first-frame image into a short motion clip with expressive character movement and stable temporal detail. This AtlasCloud variant uses a dedicated Wan 2.6 image-to-video LoRA deployment for a more stylized motion profile.

Highlights

  • First-frame image-to-video: Use one starting image plus a text prompt to control movement and camera direction.
  • 720p, 1080p, and SR output: Use native 720p/1080p, or choose 1080p-SR / 1440p-SR for FlashVSR super-resolution from a 720p source.
  • Short-form generation: Supports 5s, 10s, and 15s clips.
  • Optional audio control: Provide an audio URL to guide motion, or disable generated audio for silent output.
  • Negative prompt support: Add optional constraints to reduce blur, distortion, or unwanted artifacts.

Parameters

ParameterRequiredDescription
modelYesatlascloud/wan-2.6-spicy/image-to-video
promptYesText prompt describing the desired motion.
imageYesFirst-frame image URL or Base64 image.
audioNoAudio URL to guide the generated motion.
negative_promptNoText describing what to avoid.
resolutionYes720p, 1080p, 1080p-sr, or 1440p-sr. SR modes render a 720p source and apply FlashVSR.
durationNo5, 10, or 15 seconds. Defaults to 5.
enable_prompt_expansionNoEnable upstream prompt expansion. Defaults to false.
shot_typeNosingle or multi. Multi-shot mode requires prompt expansion. Defaults to single.
generate_audioNoWhether to include generated audio. Defaults to true; set false for silent output.
seedNoRandom seed. -1 means random.

How To Use

curl -X POST "https://api.atlascloud.ai/api/v1/model/generateVideo" \ -H "Authorization: Bearer $AIP_API_KEY" \ -H "Content-Type: application/json" \ --data-raw '{ "model": "atlascloud/wan-2.6-spicy/image-to-video", "prompt": "The woman turns toward the camera with a confident smile, hair moving naturally as the camera slowly pushes in.", "image": "https://static.atlascloud.ai/media/images/db548fe3bd5cafa4ef7e0141d69c8566.jpeg", "negative_prompt": "blurry, low quality, distorted hands, extra limbs", "duration": 5, "resolution": "720p", "generate_audio": true, "seed": -1 }'

Pricing

Pricing uses Wan 2.6 Image-to-Video native-resolution multipliers before account or environment discounts. SR tiers are priced at 80% of the equivalent native-resolution price.

ResolutionMultiplier5s Base Price10s Base Price15s Base Price
720p1.0x$0.50$1.00$1.50
1080p1.5x$0.75$1.50$2.25
1080p-sr1.2x$0.60$1.20$1.80
1440p-sr2.1333x$1.0667$2.1333$3.20

Formula:

sku_base * max(5, duration) * ( resolution == "1440p-sr" ? 2.1333 : (resolution == "1080p-sr" ? 1.2 : (resolution == "1080p" || resolution == "1080P" ? 1.5 : 1)) )

sku_base = $0.1000/s for 720p. The runtime then applies the model/account discount configured in that environment.

Notes

  • This model is allowlist-enabled. Contact AtlasCloud if it is not visible or callable from your account.
  • 480p is not exposed for this model.
  • This endpoint uses the input image as the first frame of the generated video.
  • shot_type: "multi" requires enable_prompt_expansion: true.
  • Native 720p and 1080p call the underlying deployment directly. SR modes first generate a 720p source, then upscale with FlashVSR.
  • Generation is asynchronous. Poll /api/v1/model/prediction/{request_id} for the final video URL.

類似モデルを探索

ひとつのAPIで、あらゆるメディアAIを。

すべてのモデルを探索

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.