z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
text-till-bild
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Inmatning

Laddar parameterkonfiguration...

Utmatning

Vilande
Dina genererade bilder visas här
Konfigurera parametrar och klicka på Kör för att börja generera

Varje körning kostar 0.01. För $10 kan du köra cirka 1000 gånger.

Du kan fortsätta med:

Parametrar

Queue

Integrationer

Input Schema

Följande parametrar accepteras i förfrågningsinnehållet.

Totalt: 0Obligatorisk: 0Valfri: 0

Inga parametrar tillgängliga.

Exempel på förfrågningsinnehåll

json
{
  "model": "z-image/turbo"
}

Logga in för att visa förfrågningshistorik

Du måste vara inloggad för att få tillgång till din modellförfrågningshistorik.

Logga In

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

Z-Image Turbo - Blixtsnabb Text-till-Bild-Generering

NYT

6 Miljarder Parametermodell från Alibaba TONGYIMAI

Z-Image Turbo är den #1-rankade öppen källkod text-till-bild-modellen som överträffar FLUX.2 [dev], HunyuanImage 3.0 och Qwen-Image i Artificial Analysis Image Arena. Byggd av Alibabas Tongyi-MAI-team (en separat avdelning från Qwen/Wan) uppnår denna 6 miljarders parametermodell generering under en sekund genom avancerad Decoupled-DMD-destillation medan den bibehåller fotorealistisk kvalitet. Med endast 8 inferenssteg ryms den i 16GB VRAM och levererar professionella resultat optimerade för hastighetskritiska produktionsmiljöer.

Ultrasnabb Generering
  • Endast 8 inferenssteg (vs 20-50 för konkurrenter)
  • Generering under en sekund på H800 GPU:er
  • 1.31-1.41× snabbare än Qwen Image per steg
  • Ryms i 16GB VRAM (RTX 3060/4090)
Fotorealistisk Kvalitet
  • #1-rankad öppen källkod-modell på AI Arena
  • Tvåspråkig textrendering (engelska & kinesiska)
  • Robust instruktionsefterlevnad
  • Slår FLUX.1 [dev] och Qwen i alla kategorier

Alibabas Strategiska Modellportfölj

Alibaba erbjuder tre specialiserade AI-bildgenereringssystem, var och en optimerad för olika användningsfall

Hastighetsmästare

Z-Image Turbo

Tongyi-MAI Team

Best For: Hastighetskritiska produktionsarbetsbelastningar
  • ⚡ Snabbast: 8 steg, generering under en sekund
  • 🏆 #1-rankad öppen källkod-modell
  • 💰 Mest kostnadseffektiv ($0.005/bild)
  • 🎯 Optimerad för snabb iteration
Kvalitetskung

Qwen-Image

Qwen Team

Best For: Slutliga renderingar av maximal kvalitet
  • 🎨 Oöverträffad fotorealism & hudtexturer
  • 💡 Överlägsna ljusinteraktioner
  • ⏱️ Långsammare (20s vs 5-10s för Z-Image)
  • 🎯 Bäst för högklassigt produktionsarbete
Mångsidighetsprofi

Wan 2.5/2.6

Wan Team

Best For: Multimedia-mångsidighet
  • 🎬 Text-till-Video + Bild-till-Video
  • 📹 Stöd för flera upplösningar (480P-720P)
  • 🔄 Audio-visuell synkronisering
  • 🎯 Korsmodal innehållsgenerering

Key Insight: Z-Image Turbo är 1.31-1.41× snabbare än Qwen-Image per steg, vilket gör den idealisk för applikationer som kräver snabb generering. Medan Qwen-Image erbjuder något bättre fotorealism för slutliga renderingar, ger Z-Image Turbo den bästa balansen mellan hastighet och kvalitet för produktionsmiljöer.

Tekniska Höjdpunkter

Prestanda
S3-DiT-Arkitektur

Anammar Single-Stream Diffusion Transformer (S3-DiT)-arkitekturen som förenar bearbetningen av olika villkorade ingångar. Denna 6 miljarders parameterdesign uppnår professionella resultat utan beräkningsoverheaden hos större modeller samtidigt som den bibehåller toppmodern kvalitet.

Hastighet
Decoupled-DMD-Destillation

Avancerad destillationsalgoritm med CFG Augmentation och Distribution Matching-mekanismer möjliggör 8-stegs inferens (vs 20-50 för konkurrenter). Uppnår generering under en sekund på H800 GPU:er och körs smidigt på konsument-RTX 3060/4090 med 16GB VRAM.

Kvalitet
Ledande Öppen Källkod-Prestanda

Rankad som #1 öppen källkod-modell i Artificial Analysis Image Arena och slår FLUX.2 [dev], HunyuanImage 3.0 och Qwen-Image. Utmärker sig i tvåspråkig textrendering (engelska & kinesiska), fotorealistisk generering och robust instruktionsföljning. Släppt under Apache 2.0-licens för kommersiellt bruk.

Perfekt För

🎨
Digital Konstskapande
📸
Produktfotografering
📊
Marknadsföringsmaterial
🎬
Konceptkonst
📱
Innehåll för Sociala Medier
🖼️
Stockfotografering
🎮
Speltillgångar
Kreativ Prototypframställning

Varför Välja Z-Image Turbo

Omedelbara Resultat
Generering under en sekund med noll kallstartslatens. Få dina bilder omedelbart utan väntan.
💰
Kostnadseffektiv
Överkomligt pris på $0.005 per bild. Skala dina kreativa projekt utan att spränga budgeten.
🔌
Färdigt API
Enkel REST API-integration. Börja generera bilder på några minuter med vår omfattande dokumentation.

Tekniska Specifikationer

Modellarkitektur6 Miljarder Parametrar
Inferenssteg8 NFEs (Antal Funktionsutvärderingar)
GenereringshastighetUnder en sekund på H800, 5-10s på konsument-GPU:er
VRAM-Krav16GB (RTX 3060/4090-kompatibel)
ArkitekturSingle-Stream Diffusion Transformer (S3-DiT)
DestillationsmetodDecoupled-DMD med CFG Augmentation
LicensApache 2.0 (Kommersiellt Bruk Tillåtet)
Ranking#1 Öppen Källkod på Artificial Analysis Arena
Prissättning$0.005 per Bild

Börja Skapa med Z-Image Turbo

Upplev blixtsnabb, fotorealistisk bildgenerering idag. Ingen installation krävs, ring bara vårt API och börja skapa.

Inga kallstarter - omedelbar generering
Överkomligt pris - $0.005 per bild
Professionella kvalitetsresultat

Börja från 300+ Modeller,

Utforska alla modeller