z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
text-to-image
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

Specifications in Depth

Overview:

Model Provider:TONGYIMAI
Model Type:text-to-image
Deployment:Inferencing API; Playground
Pricing:$0.0105/pic

Key Specs:

Size Cap:up to width × height (user-configurable)
LoRA Support:No
Seed Options:N/A

Create Your Next Masterpiece

Z-Image Turbo - Generazione Testo-Immagine Ultrarapida

NUOVO

Modello da 6 Miliardi di Parametri di Alibaba TONGYIMAI

Z-Image Turbo è il modello testo-immagine open source classificato #1, superando FLUX.2 [dev], HunyuanImage 3.0 e Qwen-Image nell'Artificial Analysis Image Arena. Costruito dal team Tongyi-MAI di Alibaba (una divisione separata da Qwen/Wan), questo modello da 6 miliardi di parametri raggiunge una generazione in meno di un secondo attraverso una distillazione avanzata Decoupled-DMD mantenendo una qualità fotorealistica. Con soli 8 passaggi di inferenza, si adatta a 16GB di VRAM e fornisce risultati professionali ottimizzati per ambienti di produzione critici per la velocità.

Generazione Ultrarapida
  • Solo 8 passaggi di inferenza (vs 20-50 dei concorrenti)
  • Generazione in meno di un secondo su GPU H800
  • 1.31-1.41× più veloce di Qwen Image per passaggio
  • Si adatta a 16GB di VRAM (RTX 3060/4090)
Qualità Fotorealistica
  • Modello open source classificato #1 su AI Arena
  • Rendering di testo bilingue (inglese e cinese)
  • Aderenza robusta alle istruzioni
  • Supera FLUX.1 [dev] e Qwen in tutte le categorie

Portfolio Strategico di Modelli di Alibaba

Alibaba offre tre sistemi specializzati di generazione di immagini IA, ciascuno ottimizzato per diversi casi d'uso

Campione di Velocità

Z-Image Turbo

Team Tongyi-MAI

Best For: Carichi di lavoro di produzione critici per la velocità
  • ⚡ Più veloce: 8 passaggi, generazione in meno di un secondo
  • 🏆 Modello open source classificato #1
  • 💰 Più conveniente ($0.005/immagine)
  • 🎯 Ottimizzato per iterazioni rapide
Re della Qualità

Qwen-Image

Team Qwen

Best For: Rendering finali di massima qualità
  • 🎨 Fotorealismo e texture della pelle ineguagliabili
  • 💡 Interazioni di illuminazione superiori
  • ⏱️ Più lento (20s vs 5-10s per Z-Image)
  • 🎯 Migliore per lavori di produzione di alta qualità
Professionista della Versatilità

Wan 2.5/2.6

Team Wan

Best For: Versatilità multimediale
  • 🎬 Testo-Video + Immagine-Video
  • 📹 Supporto multi-risoluzione (480P-720P)
  • 🔄 Sincronizzazione audiovisiva
  • 🎯 Generazione di contenuti multimodali

Key Insight: Z-Image Turbo è 1.31-1.41× più veloce di Qwen-Image per passaggio, rendendolo ideale per applicazioni che richiedono una generazione rapida. Sebbene Qwen-Image offra un fotorealismo leggermente migliore per i rendering finali, Z-Image Turbo fornisce il miglior equilibrio tra velocità e qualità per ambienti di produzione.

Punti Salienti Tecnici

Prestazioni
Architettura S3-DiT

Adotta l'architettura Single-Stream Diffusion Transformer (S3-DiT) che unifica l'elaborazione di vari input condizionali. Questo design da 6 miliardi di parametri raggiunge risultati professionali senza il sovraccarico computazionale di modelli più grandi mantenendo una qualità all'avanguardia.

Velocità
Distillazione Decoupled-DMD

Algoritmo di distillazione avanzato con meccanismi di CFG Augmentation e Distribution Matching consente un'inferenza in 8 passaggi (vs 20-50 per i concorrenti). Raggiunge una generazione in meno di un secondo su GPU H800 e funziona senza problemi su RTX 3060/4090 consumer con 16GB di VRAM.

Qualità
Prestazioni Leader Open Source

Classificato come modello open source #1 nell'Artificial Analysis Image Arena, superando FLUX.2 [dev], HunyuanImage 3.0 e Qwen-Image. Eccelle nel rendering di testo bilingue (inglese e cinese), generazione fotorealistica e seguimento robusto delle istruzioni. Rilasciato con licenza Apache 2.0 per uso commerciale.

Perfetto Per

🎨
Creazione di Arte Digitale
📸
Fotografia di Prodotti
📊
Materiali di Marketing
🎬
Concept Art
📱
Contenuti per Social Media
🖼️
Fotografia Stock
🎮
Asset di Gioco
Prototipazione Creativa

Perché Scegliere Z-Image Turbo

Risultati Istantanei
Generazione in meno di un secondo con latenza di avvio a freddo zero. Ottieni le tue immagini immediatamente senza attese.
💰
Conveniente
Prezzo accessibile di $0.005 per immagine. Scala i tuoi progetti creativi senza superare il budget.
🔌
API Pronta all'Uso
Integrazione semplice di REST API. Inizia a generare immagini in pochi minuti con la nostra documentazione completa.

Specifiche Tecniche

Architettura del Modello6 Miliardi di Parametri
Passaggi di Inferenza8 NFEs (Number of Function Evaluations)
Velocità di GenerazioneMeno di un secondo su H800, 5-10s su GPU consumer
Requisito VRAM16GB (compatibile RTX 3060/4090)
ArchitetturaSingle-Stream Diffusion Transformer (S3-DiT)
Metodo di DistillazioneDecoupled-DMD con CFG Augmentation
LicenzaApache 2.0 (Uso Commerciale Consentito)
Classifica#1 Open Source su Artificial Analysis Arena
Prezzo$0.005 per Immagine

Inizia a Creare con Z-Image Turbo

Sperimenta oggi la generazione di immagini fotorealistiche ultrarapida. Nessuna configurazione richiesta, basta chiamare la nostra API e iniziare a creare.

Nessun avvio a freddo - generazione istantanea
Prezzo accessibile - $0.005 per immagine
Risultati di qualità professionale
Inizia con Oltre 300 Modelli,

Solo su Atlas Cloud.