z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
текст-в-изображение
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

Подробные характеристики

Обзор:

Разработчик модели:TONGYIMAI
Тип модели:text-to-image
Развертывание:API вывода; Playground
Цены:$0.0105/pic

Ключевые параметры:

Ограничение размера:до ширина × высота (настраивается пользователем)
Поддержка LoRA:Нет
Параметры seed:N/A

Создайте свой шедевр

Z-Image Turbo - Молниеносная Генерация Изображений из Текста

НОВИНКА

Модель на 6 Миллиардов Параметров от Alibaba TONGYIMAI

Z-Image Turbo — это модель преобразования текста в изображение с открытым исходным кодом №1, превосходящая FLUX.2 [dev], HunyuanImage 3.0 и Qwen-Image в Artificial Analysis Image Arena. Созданная командой Tongyi-MAI компании Alibaba (отдельное подразделение от Qwen/Wan), эта модель на 6 миллиардов параметров достигает генерации менее чем за секунду благодаря продвинутой дистилляции Decoupled-DMD, сохраняя при этом фотореалистичное качество. Всего с 8 шагами вывода она помещается в 16 ГБ VRAM и обеспечивает профессиональные результаты, оптимизированные для критичных по скорости производственных сред.

Ультрабыстрая Генерация
  • Всего 8 шагов вывода (против 20-50 у конкурентов)
  • Генерация менее чем за секунду на GPU H800
  • В 1.31-1.41× быстрее, чем Qwen Image за шаг
  • Помещается в 16 ГБ VRAM (RTX 3060/4090)
Фотореалистичное Качество
  • Модель с открытым исходным кодом №1 в AI Arena
  • Двуязычная отрисовка текста (английский и китайский)
  • Надёжное следование инструкциям
  • Превосходит FLUX.1 [dev] и Qwen во всех категориях

Стратегический Портфель Моделей Alibaba

Alibaba предлагает три специализированные системы генерации изображений ИИ, каждая оптимизирована для различных случаев использования

Чемпион по Скорости

Z-Image Turbo

Команда Tongyi-MAI

Best For: Критичные по скорости производственные нагрузки
  • ⚡ Самый быстрый: 8 шагов, генерация менее секунды
  • 🏆 Модель с открытым кодом №1
  • 💰 Наиболее экономичный ($0.005/изображение)
  • 🎯 Оптимизирован для быстрой итерации
Король Качества

Qwen-Image

Команда Qwen

Best For: Финальные рендеры максимального качества
  • 🎨 Непревзойдённый фотореализм и текстуры кожи
  • 💡 Превосходные световые взаимодействия
  • ⏱️ Медленнее (20с против 5-10с у Z-Image)
  • 🎯 Лучше всего для высококлассных работ
Профессионал Универсальности

Wan 2.5/2.6

Команда Wan

Best For: Мультимедийная универсальность
  • 🎬 Текст в Видео + Изображение в Видео
  • 📹 Поддержка мультиразрешения (480P-720P)
  • 🔄 Аудиовизуальная синхронизация
  • 🎯 Генерация кросс-модального контента

Key Insight: Z-Image Turbo в 1.31-1.41× быстрее, чем Qwen-Image за шаг, что делает его идеальным для приложений, требующих быстрой генерации. Хотя Qwen-Image предлагает немного лучший фотореализм для финальных рендеров, Z-Image Turbo обеспечивает лучший баланс скорости и качества для производственных сред.

Технические Особенности

Производительность
Архитектура S3-DiT

Использует архитектуру Single-Stream Diffusion Transformer (S3-DiT), которая унифицирует обработку различных условных входов. Эта конструкция на 6 миллиардов параметров достигает профессиональных результатов без вычислительных издержек больших моделей, сохраняя при этом передовое качество.

Скорость
Дистилляция Decoupled-DMD

Продвинутый алгоритм дистилляции с механизмами CFG Augmentation и Distribution Matching обеспечивает вывод за 8 шагов (против 20-50 у конкурентов). Достигает генерации менее чем за секунду на GPU H800 и работает плавно на потребительских RTX 3060/4090 с 16 ГБ VRAM.

Качество
Ведущая Производительность с Открытым Кодом

Занимает место №1 среди моделей с открытым исходным кодом в Artificial Analysis Image Arena, превосходя FLUX.2 [dev], HunyuanImage 3.0 и Qwen-Image. Превосходит в двуязычной отрисовке текста (английский и китайский), фотореалистичной генерации и надёжном следовании инструкциям. Выпущена под лицензией Apache 2.0 для коммерческого использования.

Идеально Для

🎨
Создания Цифрового Искусства
📸
Фотографии Продуктов
📊
Маркетинговых Материалов
🎬
Концепт-Арта
📱
Контента для Соцсетей
🖼️
Стоковой Фотографии
🎮
Игровых Ресурсов
Творческого Прототипирования

Почему Стоит Выбрать Z-Image Turbo

Мгновенные Результаты
Генерация менее чем за секунду с нулевой задержкой холодного старта. Получайте изображения мгновенно без ожидания.
💰
Экономически Выгодно
Доступная цена $0.005 за изображение. Масштабируйте творческие проекты без превышения бюджета.
🔌
Готовый к Использованию API
Простая интеграция REST API. Начните генерировать изображения за несколько минут с нашей исчерпывающей документацией.

Технические Характеристики

Архитектура Модели6 Миллиардов Параметров
Шаги Вывода8 NFEs (Количество Оценок Функции)
Скорость ГенерацииМенее секунды на H800, 5-10с на потребительских GPU
Требования к VRAM16 ГБ (совместимо с RTX 3060/4090)
АрхитектураSingle-Stream Diffusion Transformer (S3-DiT)
Метод ДистилляцииDecoupled-DMD с CFG Augmentation
ЛицензияApache 2.0 (Коммерческое Использование Разрешено)
Рейтинг№1 с Открытым Кодом в Artificial Analysis Arena
Цены$0.005 за Изображение

Начните Создавать с Z-Image Turbo

Испытайте молниеносную фотореалистичную генерацию изображений сегодня. Никакой настройки не требуется, просто вызовите наш API и начните создавать.

Без холодных стартов - мгновенная генерация
Доступная цена - $0.005 за изображение
Профессиональные результаты высокого качества
Начните с 300+ моделей,

только в Atlas Cloud.