z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
texte-vers-image
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

Spécifications Détaillées

Aperçu :

Fournisseur du Modèle :TONGYIMAI
Type de Modèle :text-to-image
Déploiement :Inference API; Playground
Tarification :$0.0105/pic

Paramètres Clés :

Limite de Taille :Jusqu'à Largeur × Hauteur (configurable par l'utilisateur)
Support LoRA :Non
Options de Seed :N/A

Créez Votre Prochaine Chef-d'œuvre

Z-Image Turbo - Génération Texte vers Image Ultra-Rapide

NOUVEAU

Modèle de 6 Milliards de Paramètres d'Alibaba TONGYIMAI

Z-Image Turbo est le modèle texte vers image open source classé #1, surpassant FLUX.2 [dev], HunyuanImage 3.0 et Qwen-Image sur l'Artificial Analysis Image Arena. Construit par l'équipe Tongyi-MAI d'Alibaba (une division distincte de Qwen/Wan), ce modèle de 6 milliards de paramètres atteint une génération en moins d'une seconde grâce à une distillation avancée Decoupled-DMD tout en maintenant une qualité photoréaliste. Avec seulement 8 étapes d'inférence, il tient dans 16 Go de VRAM et livre des résultats professionnels optimisés pour les environnements de production critiques en vitesse.

Génération Ultra-Rapide
  • Seulement 8 étapes d'inférence (vs 20-50 pour les concurrents)
  • Génération en moins d'une seconde sur GPU H800
  • 1.31-1.41× plus rapide que Qwen Image par étape
  • Tient dans 16 Go de VRAM (RTX 3060/4090)
Qualité Photoréaliste
  • Modèle open source classé #1 sur AI Arena
  • Rendu de texte bilingue (anglais et chinois)
  • Adhérence robuste aux instructions
  • Surpasse FLUX.1 [dev] et Qwen dans toutes les catégories

Portefeuille Stratégique de Modèles d'Alibaba

Alibaba propose trois systèmes spécialisés de génération d'images IA, chacun optimisé pour différents cas d'usage

Champion de Vitesse

Z-Image Turbo

Équipe Tongyi-MAI

Best For: Charges de travail de production critiques en vitesse
  • ⚡ Plus rapide : 8 étapes, génération en moins d'une seconde
  • 🏆 Modèle open source classé #1
  • 💰 Plus rentable ($0.005/image)
  • 🎯 Optimisé pour l'itération rapide
Roi de la Qualité

Qwen-Image

Équipe Qwen

Best For: Rendus finaux de qualité maximale
  • 🎨 Photoréalisme et textures de peau incomparables
  • 💡 Interactions d'éclairage supérieures
  • ⏱️ Plus lent (20s vs 5-10s pour Z-Image)
  • 🎯 Meilleur pour le travail de production haut de gamme
Pro de la Polyvalence

Wan 2.5/2.6

Équipe Wan

Best For: Polyvalence multimédia
  • 🎬 Texte vers Vidéo + Image vers Vidéo
  • 📹 Support multi-résolutions (480P-720P)
  • 🔄 Synchronisation audiovisuelle
  • 🎯 Génération de contenu multimodal

Key Insight: Z-Image Turbo est 1.31-1.41× plus rapide que Qwen-Image par étape, ce qui le rend idéal pour les applications nécessitant une génération rapide. Bien que Qwen-Image offre un photoréalisme légèrement meilleur pour les rendus finaux, Z-Image Turbo offre le meilleur équilibre entre vitesse et qualité pour les environnements de production.

Points Forts Techniques

Performance
Architecture S3-DiT

Adopte l'architecture Single-Stream Diffusion Transformer (S3-DiT) qui unifie le traitement de diverses entrées conditionnelles. Cette conception de 6 milliards de paramètres atteint des résultats professionnels sans la surcharge de calcul des modèles plus grands tout en maintenant une qualité de pointe.

Vitesse
Distillation Decoupled-DMD

Algorithme de distillation avancé avec mécanismes de CFG Augmentation et Distribution Matching permet une inférence en 8 étapes (vs 20-50 pour les concurrents). Atteint une génération en moins d'une seconde sur GPU H800 et fonctionne en douceur sur RTX 3060/4090 grand public avec 16 Go de VRAM.

Qualité
Performance Open Source de Premier Plan

Classé modèle open source #1 sur Artificial Analysis Image Arena, battant FLUX.2 [dev], HunyuanImage 3.0 et Qwen-Image. Excelle dans le rendu de texte bilingue (anglais et chinois), la génération photoréaliste et le suivi robuste des instructions. Publié sous licence Apache 2.0 pour usage commercial.

Parfait Pour

🎨
Création d'Art Numérique
📸
Photographie de Produits
📊
Matériel Marketing
🎬
Art Conceptuel
📱
Contenu Réseaux Sociaux
🖼️
Photographie de Stock
🎮
Actifs de Jeux
Prototypage Créatif

Pourquoi Choisir Z-Image Turbo

Résultats Instantanés
Génération en moins d'une seconde avec zéro latence de démarrage à froid. Obtenez vos images immédiatement sans attendre.
💰
Rentable
Prix abordable de $0.005 par image. Développez vos projets créatifs sans faire exploser le budget.
🔌
API Prête à l'Emploi
Intégration simple de REST API. Commencez à générer des images en quelques minutes avec notre documentation complète.

Spécifications Techniques

Architecture du Modèle6 Milliards de Paramètres
Étapes d'Inférence8 NFEs (Nombre d'Évaluations de Fonction)
Vitesse de GénérationMoins d'une seconde sur H800, 5-10s sur GPU grand public
Exigence VRAM16 Go (compatible RTX 3060/4090)
ArchitectureSingle-Stream Diffusion Transformer (S3-DiT)
Méthode de DistillationDecoupled-DMD avec CFG Augmentation
LicenceApache 2.0 (Usage Commercial Autorisé)
Classement#1 Open Source sur Artificial Analysis Arena
Prix$0.005 par Image

Commencez à Créer avec Z-Image Turbo

Découvrez la génération d'images photoréalistes ultra-rapide dès aujourd'hui. Aucune configuration requise, appelez simplement notre API et commencez à créer.

Pas de démarrage à froid - génération instantanée
Prix abordable - $0.005 par image
Résultats de qualité professionnelle
Commencez avec Plus de 300 Modèles,

Uniquement chez Atlas Cloud.