alibaba/wan-2.6/text-to-video

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

TEXT-TO-VIDEOHOTNEW
teks-ke-video

A speed-optimized text-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Text-to-Video Model

Alibaba WAN 2.6 is an advanced text-to-video model provided by Alibaba Cloud's DashScope platform. This model generates high-quality 480p/720p/1080p videos from text prompts.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
480p$0.2$0.4
720p$0.4$0.8
1080p$0.6$1.2

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

Spesifikasi Lengkap

Gambaran Umum:

Penyedia Model:QWEN
Tipe Model:text-to-video
Deployment:API Inferensi; Playground
Harga:$0.0700/second

Spesifikasi Utama:

Batas Ukuran:hingga lebar × tinggi (dapat dikonfigurasi pengguna)
Dukungan LoRA:Tidak
Opsi Seed:N/A

Ciptakan Karya Agung Anda Berikutnya

🎬GENERASI VIDEO MULTI-SHOT

Wan 2.6Pembuatan Video AI Multi-Shot Profesional

Terobosan terbaru Alibaba dalam generasi video AI. Buat video 1080p hingga 15 detik dengan penceritaan multi-shot, konsistensi karakter berbasis referensi, dan sinkronisasi audiovisual native. Model pertama yang benar-benar memahami logika storyboard untuk narasi sinematik.

Terobosan Revolusioner

Apa yang membuat Wan 2.6 menjadi game-changer dalam generasi video AI

Penceritaan Multi-Shot

Model pertama yang memahami logika storyboard. Secara otomatis menghasilkan shot berurutan dengan transisi yang koheren, mempertahankan penampilan karakter dan konsistensi lingkungan melalui perubahan adegan—memungkinkan alur cerita lengkap dalam satu generasi 15 detik.

Referensi-ke-Video (R2V)

Unggah video referensi 2-30 detik untuk mengekstrak dan menjaga penampilan karakter, pola gerakan, dan karakteristik suara. Buat performa karakter yang konsisten di berbagai video dengan akurasi yang belum pernah terjadi sebelumnya.

Rendering Teks Akurat

Kemampuan rendering teks terdepan di industri untuk kemasan produk, signage, dan konten brand. Hasilkan teks yang jelas dan mudah dibaca di dalam frame video—esensial untuk aplikasi pemasaran dan komersial.

Kemampuan Inti

Durasi Diperpanjang 15 Detik

Hasilkan hingga 15 detik per video dengan struktur "Tiga Babak" lengkap (Setup → Aksi → Resolusi)

Kualitas 1080p Profesional

Output native 1080p pada 24fps dengan kualitas sinematik dan stabilitas visual yang ditingkatkan

Sinkronisasi Audio Native

Dialog cocok dengan gerakan bibir, musik latar diselaraskan dengan tempo, efek suara terpicu sempurna

Konsistensi Karakter

Pertahankan penampilan, kostum, dan identitas karakter di seluruh shot dan berbagai video

Kontrol Kamera Sinematik

Gerakan kamera profesional termasuk pan, zoom, tracking shot, dan gerakan dolly

Rasio Aspek Fleksibel

16:9 (YouTube), 9:16 (Reels), 1:1 (Persegi) - dioptimalkan untuk platform tanpa cropping pasca-produksi

Wan 2.6 vs Wan 2.5: Peningkatan Utama

Lihat apa yang baru di rilis terbaru

Durasi Video
Hingga 15 detik
Wan 2.5: Maksimal 10 detik
Kemampuan Multi-Shot
Memahami logika storyboard
Wan 2.5: Shot tunggal atau morphing yang berantakan
Dukungan Video Referensi
Mode R2V dengan pelestarian penuh
Wan 2.5: Referensi gambar saja
Konsistensi Karakter
Sangat baik di antara shot
Wan 2.5: Masalah drift karakter
Stabilitas Gerakan
Berkurangnya jitter dan artefak
Wan 2.5: Drift frame sesekali
Pemahaman Prompt
Adegan multi-karakter kompleks
Wan 2.5: Generasi adegan dasar

Tiga Mode Generasi Khusus

Pilih mode yang tepat untuk alur kerja kreatif Anda

Teks-ke-Video (T2V)

Paling Populer

Hasilkan video lengkap dari prompt teks dengan segmentasi multi-shot yang ditingkatkan dan penanganan prompt yang disempurnakan. Sempurna untuk penceritaan dan eksplorasi kreatif.

  • Segmentasi shot otomatis dari prompt tunggal
  • Pemahaman interaksi multi-karakter
  • Gerakan kamera dan isyarat emosional
  • Pelestarian detail lingkungan

Gambar-ke-Video (I2V)

Ditingkatkan

Ubah gambar diam menjadi video bergerak dengan koherensi gerakan yang ditingkatkan. Ideal untuk showcase produk, animasi foto, dan penceritaan visual.

  • Rendering teks akurat untuk produk
  • Konsistensi gaya di seluruh frame
  • Gerakan natural dari gambar diam
  • Optimisasi visual yang digerakkan oleh narasi

Referensi-ke-Video (R2V)

BARU

Unggah video referensi (2-30 detik) untuk menjaga penampilan karakter, pola gerakan, dan suara. Jaminan konsistensi terkuat untuk konten yang digerakkan oleh karakter.

  • Pelestarian identitas karakter lengkap
  • Ekstraksi karakteristik suara
  • Replikasi pola gerakan
  • Adegan co-acting multi-karakter

Sempurna Untuk

Pemasaran & Periklanan

Demo produk dengan rendering teks, kampanye brand dengan konsistensi karakter, dan video promosi

Pembuatan Konten

Video YouTube, reels media sosial, penceritaan multi-shot, dan alur kerja editing video

E-commerce

Showcase produk dengan teks akurat, video tutorial, dan rekreasi testimoni pelanggan

Pendidikan & Pelatihan

Konten instruksional, materi kursus, dan narasi pendidikan multi-adegan

Hiburan

Film pendek, cerita yang digerakkan karakter, sekuens sinematik, dan eksperimen kreatif

Pra-visualisasi

Pengembangan konsep film, pembuatan storyboard, dan perencanaan adegan untuk produksi

Integrasi API Wan 2.6 T2V, I2V, dan R2V

Suite API lengkap untuk generasi Teks-ke-Video, Gambar-ke-Video, dan Referensi-ke-Video

API Teks-ke-Video (T2V API)

API Wan 2.6 T2V kami mengubah prompt teks menjadi video sinematik multi-shot dengan segmentasi adegan otomatis. Hasilkan video profesional 1080p hingga 15 detik dengan sinkronisasi audio native.

Penceritaan multi-shot dari prompt tunggal
Durasi 15 detik dengan struktur Tiga Babak
Pemahaman prompt yang ditingkatkan untuk adegan kompleks
Rasio aspek fleksibel: 16:9, 9:16, 1:1

API Gambar-ke-Video (I2V API)

API Wan 2.6 I2V kami menghidupkan gambar diam dengan kontrol gerakan yang presisi dan rendering teks. Sempurna untuk video produk, animasi foto, dan pembuatan konten brand.

Rendering teks akurat untuk produk dan signage
Konsistensi gaya di frame animasi
Gerakan natural dengan koherensi yang ditingkatkan
Output visual yang dioptimalkan narasi

API Referensi-ke-Video (R2V API)

API Wan 2.6 R2V kami menjaga identitas karakter dari video referensi. Unggah klip 2-30 detik untuk mengekstrak penampilan, suara, dan pola gerakan untuk generasi karakter yang konsisten.

Pelestarian penampilan dan identitas karakter
Ekstraksi dan replikasi karakteristik suara
Analisis dan reproduksi pola gerakan
Dukungan adegan multi-karakter
💡

Suite API Lengkap

Ketiga mode API Wan 2.6 (T2V API, I2V API, R2V API) mendukung arsitektur RESTful dengan dokumentasi komprehensif. Mulai dengan SDK untuk Python, Node.js, dan lainnya. Setiap endpoint mencakup sinkronisasi audiovisual native dan hak penggunaan komersial penuh.

Cara Memulai dengan Wan 2.6

Mulai buat video profesional dalam hitungan menit dengan dua jalur sederhana

Integrasi API

Untuk pengembang yang membangun aplikasi

1

Daftar & Login

Buat akun Atlas Cloud Anda atau login untuk mengakses konsol

2

Tambahkan Metode Pembayaran

Hubungkan kartu kredit Anda di bagian Billing untuk mendanai akun

3

Hasilkan Kunci API

Navigasi ke Console → API Keys dan buat kunci autentikasi Anda

4

Mulai Membangun

Gunakan endpoint API T2V, I2V, atau R2V untuk mengintegrasikan Wan 2.6 ke dalam aplikasi Anda

Pengalaman Playground

Untuk pengujian cepat dan eksperimen

1

Daftar & Login

Buat akun Atlas Cloud Anda atau login untuk mengakses platform

2

Tambahkan Metode Pembayaran

Hubungkan kartu kredit Anda di bagian Billing untuk memulai

3

Gunakan Playground

Pergi ke playground Wan 2.6, pilih mode T2V/I2V/R2V, dan hasilkan video secara instan

💡
Tips Pro: Uji mode generasi berbeda di Playground terlebih dahulu untuk memahami mana yang paling cocok untuk kasus penggunaan Anda, kemudian integrasikan API yang sesuai untuk skala produksi.

Pertanyaan yang Sering Diajukan

Apa yang membuat kemampuan multi-shot Wan 2.6 unik?

Wan 2.6 adalah model pertama yang benar-benar memahami logika storyboard. Tidak seperti Wan 2.5 yang menciptakan efek "morphing" yang berantakan, Wan 2.6 dapat secara otomatis mensegmentasi prompt tunggal menjadi beberapa shot yang berbeda dengan transisi koheren, mempertahankan konsistensi karakter melalui perubahan adegan.

Bagaimana Referensi-ke-Video (R2V) bekerja?

Unggah video referensi 2-30 detik, dan Wan 2.6 mengekstrak penampilan karakter, pola gerakan, dan karakteristik suara. Anda kemudian dapat menghasilkan video baru yang menampilkan karakter yang sama dengan identitas yang konsisten—ideal untuk membuat seri konten yang digerakkan oleh karakter.

Format dan durasi video apa yang didukung?

Wan 2.6 menghasilkan video 1080p pada 24fps dengan durasi dari 5 hingga 15 detik. Rasio aspek yang didukung meliputi 16:9 (YouTube), 9:16 (Instagram Reels/TikTok), dan 1:1 (format persegi), dioptimalkan untuk setiap platform tanpa memerlukan cropping pasca-produksi.

Bisakah Wan 2.6 merender teks dalam video?

Ya! Wan 2.6 memiliki rendering teks terdepan di industri untuk kemasan produk, signage, dan konten brand. Model ini dapat menghasilkan teks yang jelas dan mudah dibaca di dalam frame video—fitur kritis yang tidak dimiliki Seedance dan sebagian besar kompetitor.

Apa perbedaan antara mode T2V, I2V, dan R2V?

T2V (Teks-ke-Video) menghasilkan dari prompt teks dengan kemampuan multi-shot. I2V (Gambar-ke-Video) menganimasikan gambar diam dengan rendering teks yang presisi. R2V (Referensi-ke-Video) menggunakan referensi video untuk menjaga identitas karakter di seluruh generasi. Pilih berdasarkan jenis input dan kebutuhan konsistensi Anda.

Apakah saya memiliki hak komersial atas video yang dihasilkan?

Ya! Setiap kreasi Wan 2.6 dilengkapi dengan hak penggunaan komersial penuh. Video siap produksi untuk kampanye pemasaran, deliverable klien, konten brand, dan aplikasi komersial tanpa persyaratan lisensi tambahan.

Mengapa Menggunakan Wan 2.6 di Atlas Cloud?

Manfaatkan infrastruktur tingkat enterprise untuk alur kerja generasi video profesional Anda

Infrastruktur yang Dibangun Khusus

Deploy generasi multi-shot dan kemampuan R2V Wan 2.6 pada infrastruktur yang dioptimalkan khusus untuk beban kerja video AI yang menuntut. Performa maksimal untuk generasi 1080p 15 detik.

API Terpadu untuk Semua Model

Akses Wan 2.6 (T2V, I2V, R2V) bersama 300+ model AI (LLM, gambar, video, audio) melalui satu API terpadu. Integrasi tunggal untuk semua kebutuhan AI generatif Anda dengan autentikasi yang konsisten.

Harga Kompetitif

Hemat hingga 70% dibandingkan AWS dengan harga bayar sesuai pemakaian yang transparan. Tanpa biaya tersembunyi, tanpa komitmen—skalakan dari prototipe ke produksi tanpa menguras kantong.

Keamanan Bersertifikat SOC I & II

Video referensi dan konten yang dihasilkan dilindungi dengan sertifikasi SOC I & II dan kepatuhan HIPAA. Keamanan tingkat enterprise dengan transmisi dan penyimpanan terenkripsi.

SLA Uptime 99,9%

Keandalan tingkat enterprise dengan jaminan uptime 99,9%. Generasi video multi-shot Wan 2.6 Anda selalu tersedia untuk kampanye produksi dan alur kerja konten kritis.

Integrasi Mudah

Integrasi lengkap dalam hitungan menit dengan REST API dan SDK multi-bahasa (Python, Node.js, Go). Beralih antara mode T2V, I2V, dan R2V dengan mulus dengan struktur endpoint terpadu.

99.9%
Uptime
70%
Biaya Lebih Rendah vs AWS
300+
Model Gen AI
24/7
Dukungan Pro

Spesifikasi Teknis

Architecture
Transformer Lanjutan dengan Pemahaman Multi-Modal
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 detik (tergantung mode)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
Sinkronisasi native dengan lip-sync
Commercial Rights
Penggunaan komersial penuh termasuk

Rasakan Generasi Video Multi-Shot Profesional

Bergabunglah dengan pembuat konten, pemasar, dan pembuat film di seluruh dunia yang merevolusi produksi video dengan kemampuan penceritaan multi-shot dan konsistensi karakter yang revolusioner dari Wan 2.6.

Mulai dari 300+ Model,

Hanya di Atlas Cloud.