bytedance/seedance-v1.5-pro/image-to-video-fast

Native audio-visual joint generation model by ByteDance. Supports unified multimodal generation with precise audio-visual sync, cinematic camera control, and enhanced narrative coherence.

IMAGE-TO-VIDEOHOTNEW
ホーム
探索
Seedream and Seedance Model Families
Seedance1.5 Models
bytedance/seedance-v1.5-pro/image-to-video-fast
Seedance v1.5 Pro Image-to-Video Fast
画像から動画
PRO

Native audio-visual joint generation model by ByteDance. Supports unified multimodal generation with precise audio-visual sync, cinematic camera control, and enhanced narrative coherence.

入力

パラメータ設定を読み込み中...

出力

待機中
生成された動画がここに表示されます
設定を構成して「実行」をクリックして開始

各実行には$0.018かかります。$10で約555回実行できます。

次にできること:

パラメータ

コード例

import requests
import time

# Step 1: Start video generation
generate_url = "https://api.atlascloud.ai/api/v1/model/generateVideo"
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer $ATLASCLOUD_API_KEY"
}
data = {
    "model": "bytedance/seedance-v1.5-pro/image-to-video-fast",
    "prompt": "A beautiful sunset over the ocean with gentle waves",
    "width": 512,
    "height": 512,
    "duration": 3,
    "fps": 24,
}

generate_response = requests.post(generate_url, headers=headers, json=data)
generate_result = generate_response.json()
prediction_id = generate_result["data"]["id"]

# Step 2: Poll for result
poll_url = f"https://api.atlascloud.ai/api/v1/model/prediction/{prediction_id}"

def check_status():
    while True:
        response = requests.get(poll_url, headers={"Authorization": "Bearer $ATLASCLOUD_API_KEY"})
        result = response.json()

        if result["data"]["status"] in ["completed", "succeeded"]:
            print("Generated video:", result["data"]["outputs"][0])
            return result["data"]["outputs"][0]
        elif result["data"]["status"] == "failed":
            raise Exception(result["data"]["error"] or "Generation failed")
        else:
            # Still processing, wait 2 seconds
            time.sleep(2)

video_url = check_status()

インストール

お使いの言語に必要なパッケージをインストールしてください。

bash
pip install requests

認証

すべての API リクエストには API キーによる認証が必要です。API キーは Atlas Cloud ダッシュボードから取得できます。

bash
export ATLASCLOUD_API_KEY="your-api-key-here"

HTTP ヘッダー

python
import os

API_KEY = os.environ.get("ATLASCLOUD_API_KEY")
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}
API キーを安全に保管してください

API キーをクライアントサイドのコードや公開リポジトリに公開しないでください。代わりに環境変数またはバックエンドプロキシを使用してください。

リクエストを送信

import requests

url = "https://api.atlascloud.ai/api/v1/model/generateVideo"
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer $ATLASCLOUD_API_KEY"
}
data = {
    "model": "your-model",
    "prompt": "A beautiful landscape"
}

response = requests.post(url, headers=headers, json=data)
print(response.json())

リクエストを送信

非同期生成リクエストを送信します。API は予測 ID を返し、それを使用してステータスの確認や結果の取得ができます。

POST/api/v1/model/generateVideo

リクエストボディ

import requests

url = "https://api.atlascloud.ai/api/v1/model/generateVideo"
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer $ATLASCLOUD_API_KEY"
}

data = {
    "model": "bytedance/seedance-v1.5-pro/image-to-video-fast",
    "input": {
        "prompt": "A beautiful sunset over the ocean with gentle waves"
    }
}

response = requests.post(url, headers=headers, json=data)
result = response.json()

print(f"Prediction ID: {result['id']}")
print(f"Status: {result['status']}")

レスポンス

{
  "id": "pred_abc123",
  "status": "processing",
  "model": "model-name",
  "created_at": "2025-01-01T00:00:00Z"
}

ステータスを確認

予測エンドポイントをポーリングして、リクエストの現在のステータスを確認します。

GET/api/v1/model/prediction/{prediction_id}

ポーリング例

import requests
import time

prediction_id = "pred_abc123"
url = f"https://api.atlascloud.ai/api/v1/model/prediction/{prediction_id}"
headers = { "Authorization": "Bearer $ATLASCLOUD_API_KEY" }

while True:
    response = requests.get(url, headers=headers)
    result = response.json()
    status = result["data"]["status"]
    print(f"Status: {status}")

    if status in ["completed", "succeeded"]:
        output_url = result["data"]["outputs"][0]
        print(f"Output URL: {output_url}")
        break
    elif status == "failed":
        print(f"Error: {result['data'].get('error', 'Unknown')}")
        break

    time.sleep(3)

ステータス値

processingリクエストはまだ処理中です。
completed生成が完了しました。出力が利用可能です。
succeeded生成が成功しました。出力が利用可能です。
failed生成に失敗しました。エラーフィールドを確認してください。

完了レスポンス

{
  "data": {
    "id": "pred_abc123",
    "status": "completed",
    "outputs": [
      "https://storage.atlascloud.ai/outputs/result.mp4"
    ],
    "metrics": {
      "predict_time": 45.2
    },
    "created_at": "2025-01-01T00:00:00Z",
    "completed_at": "2025-01-01T00:00:10Z"
  }
}

ファイルをアップロード

Atlas Cloud ストレージにファイルをアップロードし、API リクエストで使用できる URL を取得します。multipart/form-data を使用してアップロードします。

POST/api/v1/model/uploadMedia

アップロード例

import requests

url = "https://api.atlascloud.ai/api/v1/model/uploadMedia"
headers = { "Authorization": "Bearer $ATLASCLOUD_API_KEY" }

with open("image.png", "rb") as f:
    files = {"file": ("image.png", f, "image/png")}
    response = requests.post(url, headers=headers, files=files)

result = response.json()
download_url = result["data"]["download_url"]
print(f"File URL: {download_url}")

レスポンス

{
  "data": {
    "download_url": "https://storage.atlascloud.ai/uploads/abc123/image.png",
    "file_name": "image.png",
    "content_type": "image/png",
    "size": 1024000
  }
}

入力 Schema

以下のパラメータがリクエストボディで使用できます。

合計: 0必須: 0任意: 0

利用可能なパラメータはありません。

リクエストボディの例

json
{
  "model": "bytedance/seedance-v1.5-pro/image-to-video-fast"
}

出力 Schema

API は生成された出力 URL を含む予測レスポンスを返します。

idstringrequired
Unique identifier for the prediction.
statusstringrequired
Current status of the prediction.
processingcompletedsucceededfailed
modelstringrequired
The model used for generation.
outputsarray[string]
Array of output URLs. Available when status is "completed".
errorstring
Error message if status is "failed".
metricsobject
Performance metrics.
predict_timenumber
Time taken for video generation in seconds.
created_atstringrequired
ISO 8601 timestamp when the prediction was created.
Format: date-time
completed_atstring
ISO 8601 timestamp when the prediction was completed.
Format: date-time

レスポンス例

json
{
  "id": "pred_abc123",
  "status": "completed",
  "model": "model-name",
  "outputs": [
    "https://storage.atlascloud.ai/outputs/result.mp4"
  ],
  "metrics": {
    "predict_time": 45.2
  },
  "created_at": "2025-01-01T00:00:00Z",
  "completed_at": "2025-01-01T00:00:10Z"
}

Atlas Cloud Skills

Atlas Cloud Skills は 300 以上の AI モデルを AI コーディングアシスタントに直接統合します。ワンコマンドでインストールし、自然言語で画像・動画生成や LLM との対話が可能です。

対応クライアント

Claude Code
OpenAI Codex
Gemini CLI
Cursor
Windsurf
VS Code
Trae
GitHub Copilot
Cline
Roo Code
Amp
Goose
Replit
40+ 対応クライアント

インストール

bash
npx skills add AtlasCloudAI/atlas-cloud-skills

API キーの設定

Atlas Cloud ダッシュボードから API キーを取得し、環境変数として設定してください。

bash
export ATLASCLOUD_API_KEY="your-api-key-here"

機能

インストール後、AI アシスタントで自然言語を使用してすべての Atlas Cloud モデルにアクセスできます。

画像生成Nano Banana 2、Z-Image などのモデルで画像を生成します。
動画作成Kling、Vidu、Veo などでテキストや画像から動画を作成します。
LLM チャットQwen、DeepSeek などの大規模言語モデルと対話します。
メディアアップロード画像編集や画像から動画へのワークフロー用にローカルファイルをアップロードします。

MCP Server

Atlas Cloud MCP Server は Model Context Protocol を通じて IDE と 300 以上の AI モデルを接続します。MCP 対応のあらゆるクライアントで動作します。

対応クライアント

Cursor
VS Code
Windsurf
Claude Code
OpenAI Codex
Gemini CLI
Cline
Roo Code
100+ 対応クライアント

インストール

bash
npx -y atlascloud-mcp

設定

以下の設定を IDE の MCP 設定ファイルに追加してください。

json
{
  "mcpServers": {
    "atlascloud": {
      "command": "npx",
      "args": [
        "-y",
        "atlascloud-mcp"
      ],
      "env": {
        "ATLASCLOUD_API_KEY": "your-api-key-here"
      }
    }
  }
}

利用可能なツール

atlas_generate_imageテキストプロンプトから画像を生成します。
atlas_generate_videoテキストや画像から動画を作成します。
atlas_chat大規模言語モデルと対話します。
atlas_list_models300 以上の利用可能な AI モデルを閲覧します。
atlas_quick_generateモデル自動選択によるワンステップコンテンツ作成。
atlas_upload_mediaAPI ワークフロー用にローカルファイルをアップロードします。

APIスキーマ

スキーマが利用できません

リクエスト履歴を表示するにはログインしてください

モデルのリクエスト履歴にアクセスするにはログインが必要です。

ログイン
ネイティブ音声・映像同期生成

Seedance 1.5 Pro音と映像を、ワンテイクで完全同期

ByteDanceの革新的なAIモデル。単一の統合プロセスから完璧に同期した音声と映像を同時生成。8言語以上でミリ秒精度のリップシンクを実現する、真のネイティブ音声・映像生成を体験してください。

革新的イノベーション

SeeDANCE 1.5 Proの根本的な違い

デュアルブランチアーキテクチャ

45億パラメータのデュアルブランチ拡散Transformer(DB-DiT)を使用し、音声と映像を逐次的ではなく同時に生成することで、最初から完璧な同期を実現します。

音素レベルのリップシンク

個々の音素を理解し、異なる言語の口の形に正確にマッピングすることで、ミリ秒精度の音声・映像同期を実現します。

ナラティブ自動補完

プロンプトの意図に基づいてナラティブギャップをインテリジェントに埋め、キャラクターの感情、表情、アクション全体で一貫したストーリーテリングを維持します。

コア機能

ネイティブ1080p品質

24fpsでシネマティック品質のプロフェッショナルHD映像出力、4〜12秒の長さに対応

8言語以上対応

英語、中国語、日本語、韓国語、スペイン語、ポルトガル語、インドネシア語、中国語方言に対応

シネマティックカメラコントロール

ドリーズーム、トラッキングショット、プロフェッショナルな映画技法などの複雑なカメラムーブメント

マルチスピーカー対話

複数のキャラクターによる自然な会話、独特の声のアイデンティティ、リアルなターンテイキング

物理的に正確な動き

リアルな髪の動き、流体の挙動、マテリアルインタラクションによる生き生きとしたビジュアル

キャラクターの一貫性

シーン全体で衣服、顔、スタイルを維持し、完全なストーリーの連続性を実現

Seedance 1.5 Pro vs 競合製品

Seedanceが他のビデオ生成モデルからどのように際立っているかをご覧ください

音声・映像の同期
ネイティブ同時生成
順序付けられた後処理
多言語対応
8言語以上と方言
限定的な言語サポート
リップシンク精度
音素レベルの精度
基本的な同期
長さ
5-12秒最適化
Wan 2.6: 最大15秒
カメラコントロール
プロフェッショナルシネマトグラフィ
標準的なカメラ移動

最適な用途

ショートドラマ制作

感情豊かなナラティブクリップを作成。リアルなキャラクター対話とシネマティックライティング

広告クリエイティブ

パフォーマンス重視の広告コンテンツ。自然な演技、完璧なリップシンク、プロフェッショナルな制作価値

多言語コンテンツ

8言語以上のネイティブ品質の音声・映像コンテンツでグローバルオーディエンスにリーチ

教育動画

明瞭なナレーションと同期したビジュアルデモンストレーションを備えた魅力的な教育コンテンツ

ソーシャルメディア

バイラル性の高いショートフォームコンテンツ。プロフェッショナルな音声・映像品質で最大限のエンゲージメント

映画制作

リアルなキャラクターパフォーマンスと対話による事前視覚化とコンセプト開発

Seedance 1.5 Pro T2VおよびI2V API統合

シームレスな統合のための強力なText-to-Video(T2V)APIとImage-to-Video(I2V)APIエンドポイント

Text-to-Video API(T2V API)

Seedance 1.5 Pro T2V APIは、テキストプロンプトをネイティブ音声・映像同期を備えた完全なシネマティック動画に変換します。単一のText-to-Video API呼び出しで、シーン、カメラムーブメント、キャラクターアクション、対話を生成します。

同期音声付きワンステップ生成
長さ、アスペクト比、スタイルの完全制御
正確なリップシンク付き多言語対話
テキスト記述からのプロフェッショナル撮影

最適な用途:

  • スケールでの自動動画コンテンツ作成
  • ダイナミックなストーリーテリングとナラティブ動画
  • マーケティングキャンペーンの自動化
  • 教育コンテンツ生成

Image-to-Video API(I2V API)

Seedance 1.5 Pro I2V APIは、静止画像に動き、カメラムーブメント、同期音声を加えて生き生きとさせます。Image-to-Video APIは、アニメーションの正確な開始点と終了点を定義する高度なフレームコントロールを備えています。

キャラクターアイデンティティロックのための最初のフレームコントロール
トランジションエンドポイントのための最後のフレームコントロール
ビジュアルスタイルと構図の保持
フレーム全体でのキャラクター外観の一貫性

最適な用途:

  • 写真アニメーションと強化
  • 動画シーケンスにおけるキャラクターの一貫性
  • モーション効果付き製品ショーケース
  • 建築ビジュアライゼーションとウォークスルー
💡

シンプルなT2VおよびI2V API統合

T2V APIとI2V APIの両モードは、包括的なドキュメントを備えたRESTfulアーキテクチャをサポートしています。Python、Node.jsなどのSDKで数分で開始できます。すべてのSeedance 1.5 Pro APIエンドポイントには、シームレスな動画作成のための音素レベルのリップシンク付き自動音声生成が含まれています。

使い始め方

2つのシンプルな方法で数分以内に動画生成を開始

API統合

アプリケーションを構築する開発者向け

1

サインアップ&ログイン

Atlas Cloudアカウントを作成するか、ログインしてコンソールにアクセス

2

支払い方法を追加

請求セクションでクレジットカードを登録してアカウントに資金を追加

3

APIキーを生成

コンソール → APIキーに移動して認証キーを作成

4

構築を開始

APIキーを使用してリクエストを行い、SeeDANCEをアプリケーションに統合

Playground体験

迅速なテストと実験向け

1

サインアップ&ログイン

Atlas Cloudアカウントを作成するか、ログインしてプラットフォームにアクセス

2

支払い方法を追加

請求セクションでクレジットカードを登録して開始

3

Playgroundを使用

モデルPlaygroundに移動し、プロンプトを入力して、直感的なインターフェースで即座に動画を生成

💡
クイックヒント:Playgroundでプロンプトをテストして機能を探索し、本番ワークフローをスケールする準備ができたらAPI統合に移行してください。:

よくある質問

Seedance 1.5 Proの音声・映像同期のユニークな点は何ですか?

最初に動画を生成してから音声を追加する他のモデルとは異なり、Seedance 1.5 Proはデュアルブランチアーキテクチャを使用して両方を同時に生成します。これにより、最初から完璧な同期が保証され、すべてのサポート言語で音素レベルのリップシンク精度を実現します。

Wan 2.5やWan 2.6と比較してどうですか?

Wan 2.6はより長い長さ(最大15秒)とテキストレンダリングをサポートしていますが、Seedance 1.5 Proはシネマティックカメラコントロール、空間音声付き多言語/方言サポート、物理的に正確な動きに優れています。ニーズに基づいて選択してください:ストーリーテリングと多言語コンテンツにはSeedance、テキスト付き製品デモにはWan。

サポートされている動画形式と解像度は何ですか?

Seedance 1.5 Proは24fpsでネイティブ1080p動画を生成します。サポートされているアスペクト比には、16:9、9:16、4:3、3:4、1:1、21:9が含まれます。長さの範囲は4〜12秒で、スマート長さ機能によりモデルが最適な長さを自動的に選択できます。

音声生成でサポートされている言語は何ですか?

Seedance 1.5 Proは、英語、標準中国語、日本語、韓国語、スペイン語、ポルトガル語、インドネシア語、広東語や四川語などの中国語方言を含む8言語以上をサポートしています。各言語は正確なリップシンクと自然な発音を備えています。

特定のカメラムーブメントを制御できますか?

はい!Seedanceは専門的な映画文法を理解します。「被写体にドリーズーム」(ヒッチコック効果)、トラッキングショット、クローズアップ、ワイドショットなどのカメラ技法を指定できます。モデルはこれらを解釈してプロフェッショナルなシネマティック結果を作成します。

Text-to-VideoとImage-to-Videoの違いは何ですか?

Text-to-Videoはテキストプロンプトから完全な動画を生成します。Image-to-Videoは「最初のフレーム」を使用してキャラクターアイデンティティとライティングをロックし、オプションの「最後のフレーム」コントロールで正確な開始点と終了点のトランジションを実現します。両モードとも完全な音声生成をサポートしています。

Atlas CloudでSeedance 1.5 Proを使用する理由

AI動画生成ニーズに対する比類のないパフォーマンス、信頼性、サポートを体験

専用インフラストラクチャ

当社のシステムはAIモデルデプロイメント専用に最適化されています。要求の厳しいAIワークロードと動画生成に特化したインフラストラクチャで、Seedance 1.5 Proを最大限のパフォーマンスで実行します。

すべてのモデルに対応する統合API

1つの統合APIを通じて、Seedance 1.5 Proと300以上のAIモデル(LLM、画像、動画、音声)にアクセス。一貫した認証で単一プラットフォームからすべてのAIニーズを管理します。

競争力のある価格設定

AWSと比較して最大70%節約、透明な従量課金制。隠れた料金なし、最低コミットメントなし—使用した分だけ支払い、ボリュームディスカウントも利用可能。

SOC I & II認証セキュリティ

データと生成された動画は、SOC I & II認証とHIPAAコンプライアンスで保護されています。暗号化されたデータ転送とストレージを備えたエンタープライズグレードのセキュリティ。

99.9%稼働時間SLA

保証された99.9%稼働時間のエンタープライズグレードの信頼性。Seedance 1.5 Pro動画生成は、本番アプリケーションと重要なワークフローで常に利用可能です。

簡単な統合

シンプルなREST APIと多言語SDK(Python、Node.js、Go)により、数分で統合が完了します。包括的なドキュメントとコード例で迅速にスタートできます。

99.9%
稼働時間
70%
AWS比コスト削減
300+
生成AI モデル
24/7
プロサポート

技術仕様

Architecture
デュアルブランチ拡散Transformer(MMDiT)
Parameters
45億
Resolution
ネイティブ1080p(480p、720pもサポート)
Frame Rate
24 FPS
Duration
4〜12秒(スマート長さ利用可能)
Aspect Ratios
16:9、9:16、4:3、3:4、1:1、21:9
Languages
方言を含む8言語以上
Input Modes
Text-to-Video、Image-to-Video

ネイティブ音声・映像生成を体験

Seedance 1.5 Proの画期的なテクノロジーで動画コンテンツ制作を革新している世界中の映画制作者、広告主、クリエイターの仲間入りをしてください。

Seedance 1.5 PRO: A Native Audio-Visual Joint Generation Foundation Model

Seedance 1.5 PRO is a foundational model engineered specifically for native joint audio-visual generation, developed by the ByteDance Seed team. It represents a significant leap forward in transforming video generation into a practical, utility-driven tool. By integrating a dual-branch Diffusion Transformer architecture, the model achieves exceptional audio-visual synchronization and superior generation quality, establishing it as a robust engine for professional-grade content creation.

Key Features

Seedance 1.5 PRO introduces several key technical advancements that set a new standard for audio-visual content generation.

  • Unified Multimodal Generation : Leverages a unified framework based on the MMDiT architecture to facilitate deep cross-modal interaction, ensuring precise temporal synchronization and semantic consistency between visual and auditory streams.
  • Precise Audio-Visual Sync : Achieves high-fidelity alignment of lip movements, intonation, and performance rhythm. It natively supports multiple languages and regional dialects, accurately capturing unique vocal prosody and emotional tonalities.
  • Cinematic Camera Control : Possesses autonomous camera scheduling capabilities, enabling the execution of complex movements such as continuous long takes and dolly zooms ("Hitchcock zoom"), significantly enhancing the dynamic tension of the video.
  • Enhanced Narrative Coherence : Through strengthened semantic understanding, the model significantly improves the overall narrative coordination of audio-visual segments, providing strong support for professional-grade content creation.
  • Efficient Inference Acceleration : An optimized multi-stage distillation framework, combined with quantization and parallelization, boosts the end-to-end inference speed by over 10x while preserving high performance.

Performance Highlights

The model's capabilities were rigorously evaluated against other state-of-the-art video generation models using the comprehensive SeedVideoBench 1.5 framework. Seedance 1.5 PRO demonstrates significant improvements across both video and audio dimensions.

In Text-to-Video (T2V) and Image-to-Video (I2V) tasks, it achieves a leading position in motion quality and instruction following (alignment). The model also shows strong competitiveness in visual aesthetics and motion dynamics. For audio generation, particularly in Chinese-language contexts, Seedance 1.5 PRO consistently outperforms competitors like Veo 3.1, delivering superior audio quality and audio-visual synchronization.

Use Cases

Seedance 1.5 PRO is well-suited for a wide range of professional applications, including:

  • Film and Short Drama Production: Creating high-quality, emotionally resonant scenes with precise character performances.
  • Advertising and Social Media: Generating engaging and dynamic video content for marketing campaigns.
  • Cultural and Artistic Expression: Faithfully rendering traditional performing arts, such as Chinese opera, by capturing distinctive cadences and stylized gestures.
  • Multi-Lingual Content: Producing content in various languages and dialects with accurate lip-sync and intonation.

300以上のモデルから始める、

すべてのモデルを探索