z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
Texto para Imagem
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

Especificações Detalhadas

Visão Geral:

Provedor do Modelo:TONGYIMAI
Tipo de Modelo:text-to-image
Implantação:API de Inferência; Playground
Preços:$0.0105/pic

Especificações Principais:

Limite de Tamanho:Largura Máx. × Altura (configurável pelo usuário)
Suporte LoRA:Não
Opções de Seed:N/A

Crie Sua Próxima Obra-Prima

Z-Image Turbo - Geração de Texto para Imagem Ultrarrápida

NOVO

Modelo de 6 Bilhões de Parâmetros da Alibaba TONGYIMAI

Z-Image Turbo é o modelo de texto para imagem de código aberto classificado como #1, superando FLUX.2 [dev], HunyuanImage 3.0 e Qwen-Image no Artificial Analysis Image Arena. Construído pela equipe Tongyi-MAI da Alibaba (uma divisão separada de Qwen/Wan), este modelo de 6 bilhões de parâmetros alcança geração em menos de um segundo através de destilação avançada Decoupled-DMD mantendo qualidade fotorrealista. Com apenas 8 passos de inferência, cabe em 16GB VRAM e entrega resultados profissionais otimizados para ambientes de produção críticos em velocidade.

Geração Ultrarrápida
  • Apenas 8 passos de inferência (vs 20-50 de concorrentes)
  • Geração em menos de um segundo em GPUs H800
  • 1.31-1.41× mais rápido que Qwen Image por passo
  • Cabe em 16GB VRAM (RTX 3060/4090)
Qualidade Fotorrealista
  • Modelo de código aberto classificado #1 no AI Arena
  • Renderização de texto bilíngue (inglês e chinês)
  • Aderência robusta a instruções
  • Supera FLUX.1 [dev] e Qwen em todas as categorias

Portfólio Estratégico de Modelos da Alibaba

A Alibaba oferece três sistemas especializados de geração de imagens IA, cada um otimizado para diferentes casos de uso

Campeão de Velocidade

Z-Image Turbo

Equipe Tongyi-MAI

Best For: Cargas de trabalho de produção críticas em velocidade
  • ⚡ Mais rápido: 8 passos, geração em menos de um segundo
  • 🏆 Modelo de código aberto classificado #1
  • 💰 Mais econômico ($0.005/imagem)
  • 🎯 Otimizado para iteração rápida
Rei da Qualidade

Qwen-Image

Equipe Qwen

Best For: Renderizações finais de máxima qualidade
  • 🎨 Fotorrealismo e texturas de pele incomparáveis
  • 💡 Interações de iluminação superiores
  • ⏱️ Mais lento (20s vs 5-10s para Z-Image)
  • 🎯 Melhor para trabalho de produção de alta qualidade
Profissional Versátil

Wan 2.5/2.6

Equipe Wan

Best For: Versatilidade multimídia
  • 🎬 Texto para Vídeo + Imagem para Vídeo
  • 📹 Suporte multirresolução (480P-720P)
  • 🔄 Sincronização audiovisual
  • 🎯 Geração de conteúdo multimodal

Key Insight: Z-Image Turbo é 1.31-1.41× mais rápido que Qwen-Image por passo, tornando-o ideal para aplicações que requerem geração rápida. Embora Qwen-Image ofereça fotorrealismo ligeiramente melhor para renderizações finais, Z-Image Turbo proporciona o melhor equilíbrio entre velocidade e qualidade para ambientes de produção.

Destaques Técnicos

Desempenho
Arquitetura S3-DiT

Adota a arquitetura Single-Stream Diffusion Transformer (S3-DiT) que unifica o processamento de diversas entradas condicionais. Este design de 6 bilhões de parâmetros alcança resultados profissionais sem a sobrecarga computacional de modelos maiores enquanto mantém qualidade de ponta.

Velocidade
Destilação Decoupled-DMD

Algoritmo de destilação avançado com mecanismos de CFG Augmentation e Distribution Matching permite inferência de 8 passos (vs 20-50 para concorrentes). Alcança geração em menos de um segundo em GPUs H800 e roda suavemente em RTX 3060/4090 de consumo com 16GB VRAM.

Qualidade
Desempenho Líder em Código Aberto

Classificado como modelo de código aberto #1 no Artificial Analysis Image Arena, superando FLUX.2 [dev], HunyuanImage 3.0 e Qwen-Image. Destaca-se em renderização de texto bilíngue (inglês e chinês), geração fotorrealista e seguimento robusto de instruções. Lançado sob licença Apache 2.0 para uso comercial.

Perfeito Para

🎨
Criação de Arte Digital
📸
Fotografia de Produtos
📊
Materiais de Marketing
🎬
Arte Conceitual
📱
Conteúdo de Redes Sociais
🖼️
Fotografia de Stock
🎮
Ativos de Jogos
Prototipagem Criativa

Por Que Escolher Z-Image Turbo

Resultados Instantâneos
Geração em menos de um segundo com latência de inicialização fria zero. Obtenha suas imagens imediatamente sem esperar.
💰
Econômico
Preço acessível de $0.005 por imagem. Escale seus projetos criativos sem estourar o orçamento.
🔌
API Pronta para Usar
Integração simples de REST API. Comece a gerar imagens em minutos com nossa documentação abrangente.

Especificações Técnicas

Arquitetura do Modelo6 Bilhões de Parâmetros
Passos de Inferência8 NFEs (Número de Avaliações de Função)
Velocidade de GeraçãoMenos de um segundo em H800, 5-10s em GPUs de consumo
Requisito de VRAM16GB (compatível com RTX 3060/4090)
ArquiteturaSingle-Stream Diffusion Transformer (S3-DiT)
Método de DestilaçãoDecoupled-DMD com CFG Augmentation
LicençaApache 2.0 (Uso Comercial Permitido)
Classificação#1 de Código Aberto no Artificial Analysis Arena
Preço$0.005 por Imagem

Comece a Criar com Z-Image Turbo

Experimente geração de imagens fotorrealistas ultrarrápida hoje. Sem configuração necessária, apenas chame nossa API e comece a criar.

Sem inicializações frias - geração instantânea
Preço acessível - $0.005 por imagem
Resultados de qualidade profissional
Mais de 300 Modelos, Comece Agora,

Tudo no Atlas Cloud.