z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
文生圖
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

詳細規格

概覽:

模型提供商:TONGYIMAI
模型類型:text-to-image
部署方式:推理 API;Playground
定價:$0.0105/pic

關鍵參數:

尺寸上限:最大寬度 × 高度(使用者可設定)
LoRA 支援:
種子選項:N/A

創作你的下一件傑作

Z-Image Turbo - 極速文生圖模型

最新

阿里巴巴通義萬相團隊 60 億參數模型

Z-Image Turbo 是排名第一的開源文生圖模型,在 Artificial Analysis Image Arena 上超越了 FLUX.2 [dev]、HunyuanImage 3.0 和 Qwen-Image。由阿里巴巴通義萬相團隊(獨立於 Qwen/Wan 團隊)打造,這款 60 億參數模型透過先進的 Decoupled-DMD 蒸餾技術實現亞秒級生成,同時保持逼真的圖像品質。僅需 8 個推理步驟,適配 16GB 顯存,為速度關鍵的生產環境提供專業級結果。

超快速生成
  • 僅需 8 個推理步驟(競品需 20-50 步)
  • H800 GPU 上實現亞秒級生成
  • 比 Qwen Image 每步快 1.31-1.41 倍
  • 適配 16GB 顯存(RTX 3060/4090)
逼真品質
  • AI Arena 開源模型排名第一
  • 中英文雙語文本渲染
  • 強大的指令遵循能力
  • 全方位超越 FLUX.1 [dev] 和 Qwen

阿里巴巴戰略模型矩陣

阿里巴巴提供三大專業 AI 圖像生成系統,各自針對不同應用場景優化

速度冠軍

Z-Image Turbo

通義萬相團隊

Best For: 速度關鍵的生產工作負載
  • ⚡ 最快:8 步推理,亞秒生成
  • 🏆 開源模型排名第一
  • 💰 最具性價比($0.005/張)
  • 🎯 快速迭代優化
品質之王

Qwen-Image

通義千問團隊

Best For: 最高品質的最終渲染
  • 🎨 無與倫比的真實感和皮膚紋理
  • 💡 卓越的光照交互效果
  • ⏱️ 較慢(20秒 vs Z-Image 的 5-10秒)
  • 🎯 適合高端製作工作
多功能專家

Wan 2.5/2.6

通義萬相團隊

Best For: 多媒體多樣性
  • 🎬 文生視頻 + 圖生視頻
  • 📹 多解析度支援(480P-720P)
  • 🔄 音視頻同步
  • 🎯 跨模態內容生成

Key Insight: Z-Image Turbo 比 Qwen-Image 每步快 1.31-1.41 倍,非常適合需要快速生成的應用場景。雖然 Qwen-Image 在最終渲染的真實感方面略勝一籌,但 Z-Image Turbo 在生產環境中提供了速度和品質的最佳平衡。

技術亮點

性能
S3-DiT 架構

採用單流擴散 Transformer(S3-DiT)架構,統一處理各種條件輸入。這種 60 億參數設計在不增加大模型計算開銷的情況下實現專業級結果,同時保持最先進的品質。

速度
Decoupled-DMD 蒸餾

先進的蒸餾演算法配合 CFG 增強和分佈匹配機制,實現 8 步推理(競品需 20-50 步)。在 H800 GPU 上實現亞秒級生成,在消費級 RTX 3060/4090(16GB 顯存)上流暢運行。

品質
領先的開源性能

在 Artificial Analysis Image Arena 上排名第一的開源模型,超越 FLUX.2 [dev]、HunyuanImage 3.0 和 Qwen-Image。擅長中英文雙語文本渲染、逼真圖像生成和強大的指令遵循。採用 Apache 2.0 許可證,允許商業使用。

完美適用於

🎨
數位藝術創作
📸
產品攝影
📊
行銷素材
🎬
概念設計
📱
社群媒體內容
🖼️
圖庫攝影
🎮
遊戲資產
創意原型設計

為什麼選擇 Z-Image Turbo

即時生成
亞秒級生成,零冷啟動延遲。立即獲得您的圖像,無需任何等待。
💰
高性價比
實惠的價格,每張圖片僅需 $0.005。輕鬆擴展您的創意專案,無需擔心預算。
🔌
開箱即用的 API
簡單的 REST API 整合。透過我們完善的文檔,幾分鐘內即可開始生成圖像。

技術規格

模型架構60 億參數
推理步驟8 NFEs(函數評估次數)
生成速度H800 亞秒級,消費級 GPU 5-10 秒
顯存要求16GB(相容 RTX 3060/4090)
架構單流擴散 Transformer(S3-DiT)
蒸餾方法Decoupled-DMD 配合 CFG 增強
許可證Apache 2.0(允許商業使用)
排名Artificial Analysis Arena 開源第一
價格每張圖片 $0.005

立即開始使用 Z-Image Turbo

體驗極速、逼真的圖像生成。無需設定,呼叫我們的 API 即可開始創作。

零冷啟動 - 即時生成
實惠價格 - 每張 $0.005
專業級品質結果
300+ 模型,即刻開啟,

盡在 Atlas Cloud。