alibaba/wan-2.6/image-to-video

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

IMAGE-TO-VIDEONEW
изображение-в-видео

A speed-optimized image-to-video option that prioritizes lower latency while retaining strong visual fidelity. Ideal for iteration, batch generation, and prompt testing.

Alibaba WAN 2.6 Image-to-Video Model

Alibaba WAN 2.6 is an advanced image-to-video model on Alibaba Cloud’s DashScope. It generates high-quality videos from images and supports output resolutions of 720p and 1080p.

What makes it stand out?

  • More affordable: Wan 2.6 is more streamlined and cost-effective - reducing creator expenses and offering more options.

  • One-pass A/V sync: Wan 2.6 creates a fully synchronized video (audio/voiceover + lip-sync) from a single, well-structured prompt - no separate recording or manual alignment required.

  • Multilingual friendly: Wan 2.6 reliably processes like Chinese prompts for A/V-synced videos.

  • Longer duration & more video size options: Wan 2.6 delivers up to 10 seconds and 6 aspect/size options, enabling more storytelling room and publishing flexibility.

  • Multi-shot storytelling: Generates cohesive multi-shot narratives, keeping key details consistent across shots and offering auto shot-split for simple prompts.

  • Video reference generation: Uses a reference video's appearance and voice to guide new videos; supports human or arbitrary subjects, single or dual performers.

  • 15s long videos: Produces videos up to 15 seconds, expanding temporal capacity for richer storytelling.

Designed For

  • Marketing teams: Fast, polished demos/tutorials—low cost, consistent style.

  • Global enterprises: Multilingual, lip-synced videos with subtitles for efficient localization.

  • Storytellers & YouTubers: Immersive narratives while maintaining cadence and quality—driving growth.

  • Corporate training teams: HD videos over docs—clearer key points, better communication.

Pricing

The table below lists prices for easy comparsion.

Output ResolutionDuration (5s)Duration (10s)
720p$0.5$1
1080p$0.75$1.5

Billing Rules

  • Minimum charge: 5 seconds

  • Per-second rate = (price per 5 seconds) ÷ 5

  • Billed duration = video length in seconds (rounded up), with a 5-second minimum

  • Total cost = billed duration × per-second rate (by output resolution)

How to Use

  1. Write your prompt.

  2. Upload an audio file (optional) for voice/music.

  3. Choose the video size (resolution/aspect).

  4. Select the video duration (e.g., 5s / 10s).

  5. Submit and wait for processing.

  6. Preview and download the result.

Подробные характеристики

Обзор:

Разработчик модели:QWEN
Тип модели:image-to-video
Развертывание:API вывода; Playground
Цены:$0.0700/second

Ключевые параметры:

Ограничение размера:до ширина × высота (настраивается пользователем)
Поддержка LoRA:Нет
Параметры seed:N/A

Создайте свой шедевр

🎬ГЕНЕРАЦИЯ МНОГОКАДРОВОГО ВИДЕО

Wan 2.6Профессиональное Создание Многокадрового AI-Видео

Новейший прорыв Alibaba в генерации AI-видео. Создавайте видео 1080p длительностью до 15 секунд с многокадровым повествованием, согласованностью персонажей на основе референсов и нативной аудиовизуальной синхронизацией. Первая модель, которая по-настоящему понимает логику раскадровки для кинематографического повествования.

Революционные Прорывы

Что делает Wan 2.6 переломным моментом в генерации AI-видео

Многокадровое Повествование

Первая модель, понимающая логику раскадровки. Автоматически генерирует последовательные кадры с согласованными переходами, сохраняя внешность персонажа и согласованность окружения при смене сцен—обеспечивая полные сюжетные арки в одной 15-секундной генерации.

Референс в Видео (R2V)

Загрузите референсное видео длительностью 2-30 секунд для извлечения и сохранения внешности персонажа, паттернов движения и голосовых характеристик. Создавайте согласованные выступления персонажей в нескольких видео с беспрецедентной точностью.

Точная Визуализация Текста

Ведущие в отрасли возможности визуализации текста для упаковки продукции, вывесок и брендированного контента. Генерируйте четкий, читаемый текст внутри видеокадров—необходимо для маркетинговых и коммерческих приложений.

Основные Возможности

Расширенная Длительность 15 Секунд

Генерируйте до 15 секунд на видео с полной структурой "Трёх Актов" (Завязка → Действие → Развязка)

Профессиональное Качество 1080p

Нативный вывод 1080p при 24fps с кинематографическим качеством и улучшенной визуальной стабильностью

Нативная Синхронизация Звука

Диалог соответствует движениям губ, фоновая музыка выравнивается с темпом, звуковые эффекты срабатывают идеально

Согласованность Персонажей

Сохраняйте внешность, костюмы и идентичность персонажей в кадрах и нескольких видео

Кинематографический Контроль Камеры

Профессиональные движения камеры, включая панорамирование, зуммирование, следящие кадры и движения на тележке

Гибкие Соотношения Сторон

16:9 (YouTube), 9:16 (Reels), 1:1 (Квадрат) - оптимизировано для платформ без постобработки обрезки

Wan 2.6 vs Wan 2.5: Основные Улучшения

Посмотрите, что нового в последнем релизе

Длительность Видео
До 15 секунд
Wan 2.5: Максимум 10 секунд
Многокадровая Способность
Понимает логику раскадровки
Wan 2.5: Один кадр или беспорядочный морфинг
Поддержка Референсного Видео
Режим R2V с полным сохранением
Wan 2.5: Только изображение-референс
Согласованность Персонажей
Отличная между кадрами
Wan 2.5: Проблемы дрейфа персонажей
Стабильность Движения
Уменьшенная дрожь и артефакты
Wan 2.5: Случайный дрейф кадров
Понимание Промптов
Сложные многоперсонажные сцены
Wan 2.5: Базовая генерация сцен

Три Специализированных Режима Генерации

Выберите правильный режим для вашего творческого рабочего процесса

Текст в Видео (T2V)

Самый Популярный

Генерируйте полные видео из текстовых промптов с улучшенной многокадровой сегментацией и усовершенствованной обработкой промптов. Идеально для повествования и творческого исследования.

  • Автоматическая сегментация кадров из одного промпта
  • Понимание многоперсонажного взаимодействия
  • Движение камеры и эмоциональные подсказки
  • Сохранение деталей окружения

Изображение в Видео (I2V)

Улучшенный

Превращайте неподвижные изображения в движущиеся видео с улучшенной согласованностью движения. Идеально для демонстраций продуктов, анимации фотографий и визуального повествования.

  • Точная визуализация текста для продуктов
  • Согласованность стиля во всех кадрах
  • Естественное движение из неподвижных изображений
  • Визуальная оптимизация, управляемая повествованием

Референс в Видео (R2V)

НОВЫЙ

Загрузите референсное видео (2-30с) для сохранения внешности персонажа, паттернов движения и голоса. Самая сильная гарантия согласованности для контента, управляемого персонажами.

  • Полное сохранение идентичности персонажа
  • Извлечение голосовых характеристик
  • Репликация паттернов движения
  • Сцены совместной игры нескольких персонажей

Идеально Для

Маркетинг и Реклама

Демонстрации продуктов с визуализацией текста, брендовые кампании с согласованностью персонажей и рекламные видео

Создание Контента

YouTube-видео, социальные сети reels, многокадровое повествование и рабочие процессы редактирования видео

Электронная Коммерция

Демонстрации продуктов с точным текстом, обучающие видео и воссоздание отзывов клиентов

Образование и Обучение

Обучающий контент, курсовые материалы и многосценовые образовательные повествования

Развлечения

Короткометражные фильмы, истории, управляемые персонажами, кинематографические последовательности и творческие эксперименты

Превизуализация

Разработка кинематографических концепций, создание раскадровок и планирование сцен для производства

Интеграция Wan 2.6 T2V, I2V и R2V API

Полный набор API для генерации Текст в Видео, Изображение в Видео и Референс в Видео

API Текст в Видео (T2V API)

Наш Wan 2.6 T2V API преобразует текстовые промпты в многокадровые кинематографические видео с автоматической сегментацией сцен. Генерируйте профессиональные видео 1080p до 15 секунд с нативной синхронизацией звука.

Многокадровое повествование из одного промпта
15-секундная длительность со структурой Трёх Актов
Улучшенное понимание промптов для сложных сцен
Гибкие соотношения сторон: 16:9, 9:16, 1:1

API Изображение в Видео (I2V API)

Наш Wan 2.6 I2V API оживляет неподвижные изображения с точным контролем движения и визуализацией текста. Идеально для продуктовых видео, анимации фотографий и создания брендированного контента.

Точная визуализация текста для продуктов и вывесок
Согласованность стиля в анимационных кадрах
Естественное движение с улучшенной согласованностью
Визуальный вывод, оптимизированный повествованием

API Референс в Видео (R2V API)

Наш Wan 2.6 R2V API сохраняет идентичность персонажа из референсных видео. Загружайте 2-30-секундные клипы для извлечения внешности, голоса и паттернов движения для согласованной генерации персонажей.

Сохранение внешности и идентичности персонажа
Извлечение и репликация голосовых характеристик
Анализ и воспроизведение паттернов движения
Поддержка многоперсонажных сцен
💡

Полный Набор API

Все три режима Wan 2.6 API (T2V API, I2V API, R2V API) поддерживают RESTful-архитектуру с полной документацией. Начните с SDK для Python, Node.js и других. Каждая конечная точка включает нативную аудиовизуальную синхронизацию и полные права на коммерческое использование.

Как Начать с Wan 2.6

Начните создавать профессиональные видео за считанные минуты двумя простыми путями

Интеграция API

Для разработчиков, создающих приложения

1

Зарегистрируйтесь и Войдите

Создайте свой аккаунт Atlas Cloud или войдите для доступа к консоли

2

Добавьте Способ Оплаты

Привяжите свою кредитную карту в разделе Биллинг для пополнения счёта

3

Сгенерируйте API Ключ

Перейдите в Консоль → API Ключи и создайте свой ключ аутентификации

4

Начните Создавать

Используйте конечные точки T2V, I2V или R2V API для интеграции Wan 2.6 в ваше приложение

Опыт Playground

Для быстрого тестирования и экспериментов

1

Зарегистрируйтесь и Войдите

Создайте свой аккаунт Atlas Cloud или войдите для доступа к платформе

2

Добавьте Способ Оплаты

Привяжите свою кредитную карту в разделе Биллинг для начала

3

Используйте Playground

Перейдите в Wan 2.6 playground, выберите режим T2V/I2V/R2V и генерируйте видео мгновенно

💡
Профессиональный Совет: Сначала протестируйте различные режимы генерации в Playground, чтобы понять, какой лучше всего подходит для вашего случая использования, затем интегрируйте соответствующий API для производственного масштаба.

Часто Задаваемые Вопросы

Что делает многокадровую способность Wan 2.6 уникальной?

Wan 2.6 - это первая модель, которая по-настоящему понимает логику раскадровки. В отличие от Wan 2.5, который создавал беспорядочные эффекты "морфинга", Wan 2.6 может автоматически сегментировать один промпт на несколько отдельных кадров с согласованными переходами, сохраняя согласованность персонажей при смене сцен.

Как работает Референс в Видео (R2V)?

Загрузите референсное видео длительностью 2-30 секунд, и Wan 2.6 извлечёт внешность персонажа, паттерны движения и голосовые характеристики. Затем вы можете генерировать новые видео с тем же персонажем с согласованной идентичностью—идеально для создания серий контента, управляемого персонажами.

Какие форматы и длительности видео поддерживаются?

Wan 2.6 генерирует видео 1080p при 24fps с длительностью от 5 до 15 секунд. Поддерживаемые соотношения сторон включают 16:9 (YouTube), 9:16 (Instagram Reels/TikTok) и 1:1 (квадратный формат), оптимизированные для каждой платформы без необходимости обрезки в постобработке.

Может ли Wan 2.6 визуализировать текст в видео?

Да! Wan 2.6 имеет ведущую в отрасли визуализацию текста для упаковки продукции, вывесок и брендированного контента. Модель может генерировать чёткий, читаемый текст внутри видеокадров—критическая функция, которой не хватает Seedance и большинству конкурентов.

В чём разница между режимами T2V, I2V и R2V?

T2V (Текст в Видео) генерирует из текстовых промптов с многокадровой способностью. I2V (Изображение в Видео) анимирует неподвижные изображения с точной визуализацией текста. R2V (Референс в Видео) использует видео-референсы для сохранения идентичности персонажа в генерациях. Выбирайте на основе вашего типа ввода и потребностей в согласованности.

Имею ли я коммерческие права на сгенерированные видео?

Да! Каждое создание Wan 2.6 поставляется с полными правами на коммерческое использование. Видео готовы к производству для маркетинговых кампаний, клиентских поставок, брендированного контента и коммерческих приложений без дополнительных лицензионных требований.

Почему Использовать Wan 2.6 на Atlas Cloud?

Используйте инфраструктуру корпоративного уровня для ваших профессиональных рабочих процессов генерации видео

Специально Построенная Инфраструктура

Развёртывайте многокадровую генерацию и возможности R2V Wan 2.6 на инфраструктуре, специально оптимизированной для требовательных рабочих нагрузок AI-видео. Максимальная производительность для генерации 1080p 15 секунд.

Единый API для Всех Моделей

Получайте доступ к Wan 2.6 (T2V, I2V, R2V) наряду с 300+ моделями AI (LLM, изображение, видео, аудио) через один единый API. Единая интеграция для всех ваших потребностей в генеративном AI с согласованной аутентификацией.

Конкурентные Цены

Экономьте до 70% по сравнению с AWS с прозрачным ценообразованием по мере использования. Без скрытых комиссий, без обязательств—масштабируйте от прототипа до производства без превышения бюджета.

Сертифицированная Безопасность SOC I & II

Ваши референсные видео и сгенерированный контент защищены сертификациями SOC I & II и соответствием HIPAA. Безопасность корпоративного уровня с зашифрованной передачей и хранением.

SLA 99,9% Времени Работы

Надёжность корпоративного уровня с гарантированным 99,9% временем работы. Ваша многокадровая генерация видео Wan 2.6 всегда доступна для производственных кампаний и критических рабочих процессов контента.

Лёгкая Интеграция

Полная интеграция за считанные минуты с REST API и многоязычными SDK (Python, Node.js, Go). Беспрепятственно переключайтесь между режимами T2V, I2V и R2V с единой структурой конечных точек.

99.9%
Время Работы
70%
Более Низкая Стоимость vs AWS
300+
Модели Gen AI
24/7
Профессиональная Поддержка

Технические Характеристики

Architecture
Продвинутый Трансформер с Мультимодальным Пониманием
Resolution
1080p (Full HD)
Frame Rate
24 FPS
Duration
5-15 секунд (зависит от режима)
Aspect Ratios
16:9, 9:16, 1:1
Generation Modes
T2V, I2V, R2V
Audio
Нативная синхронизация с lip-sync
Commercial Rights
Полное коммерческое использование включено

Испытайте Профессиональную Многокадровую Генерацию Видео

Присоединяйтесь к создателям контента, маркетологам и кинематографистам по всему миру, которые революционизируют производство видео с помощью передовых возможностей многокадрового повествования и согласованности персонажей Wan 2.6.

Начните с 300+ моделей,

только в Atlas Cloud.