z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
テキストから画像
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

詳細仕様

概要:

モデルプロバイダー:TONGYIMAI
モデルタイプ:text-to-image
デプロイメント:推論API; Playground
料金:$0.0105/pic

主要仕様:

サイズ上限:幅×高さまで(ユーザー設定可能)
LoRAサポート:いいえ
シードオプション:N/A

次の傑作を作成

Z-Image Turbo - 超高速テキスト to 画像生成

最新

Alibaba TONGYIMAI チームによる 60 億パラメータモデル

Z-Image Turbo は、Artificial Analysis Image Arena で FLUX.2 [dev]、HunyuanImage 3.0、Qwen-Image を上回る第 1 位のオープンソーステキスト to 画像モデルです。Alibaba の通義万相チーム(Qwen/Wan とは別部門)が構築したこの 60 億パラメータモデルは、先進的な Decoupled-DMD 蒸留により、写真のようなクオリティを維持しながら 1 秒未満の生成を実現します。推論ステップはわずか 8 回で、16GB VRAM に収まり、速度重視の本番環境向けにプロフェッショナルな結果を提供します。

超高速生成
  • 推論ステップはわずか 8 回(競合は 20-50 回)
  • H800 GPU で 1 秒未満の生成
  • Qwen Image より 1 ステップあたり 1.31-1.41 倍高速
  • 16GB VRAM に対応(RTX 3060/4090)
写真のようなクオリティ
  • AI Arena でオープンソースモデル第 1 位
  • 英語と中国語のバイリンガルテキストレンダリング
  • 強力な指示追従能力
  • すべてのカテゴリで FLUX.1 [dev] と Qwen を凌駕

Alibaba の戦略的モデルポートフォリオ

Alibaba は、それぞれ異なるユースケースに最適化された 3 つの専門的な AI 画像生成システムを提供しています

スピードチャンピオン

Z-Image Turbo

通義万相チーム

Best For: 速度重視の本番ワークロード
  • ⚡ 最速:8 ステップ、1 秒未満の生成
  • 🏆 オープンソースモデル第 1 位
  • 💰 最もコスト効率的($0.005/画像)
  • 🎯 高速イテレーションに最適化
クオリティキング

Qwen-Image

Qwen チーム

Best For: 最高品質の最終レンダリング
  • 🎨 比類なき写真リアリズムと肌の質感
  • 💡 優れた照明インタラクション
  • ⏱️ 遅い(20秒 vs Z-Image の 5-10秒)
  • 🎯 ハイエンド制作作業に最適
多機能プロ

Wan 2.5/2.6

Wan チーム

Best For: マルチメディアの多様性
  • 🎬 テキスト to ビデオ + 画像 to ビデオ
  • 📹 マルチ解像度サポート(480P-720P)
  • 🔄 オーディオビジュアル同期
  • 🎯 クロスモーダルコンテンツ生成

Key Insight: Z-Image Turbo は Qwen-Image より 1 ステップあたり 1.31-1.41 倍高速で、高速生成を必要とするアプリケーションに最適です。最終レンダリングの写真リアリズムでは Qwen-Image がやや優れていますが、Z-Image Turbo は本番環境において速度と品質の最適なバランスを提供します。

技術的ハイライト

パフォーマンス
S3-DiT アーキテクチャ

さまざまな条件入力の処理を統一する Single-Stream Diffusion Transformer(S3-DiT)アーキテクチャを採用。この 60 億パラメータ設計は、大規模モデルの計算オーバーヘッドなしにプロフェッショナルな結果を実現し、最先端の品質を維持します。

スピード
Decoupled-DMD 蒸留

CFG 拡張と分布マッチングメカニズムを備えた先進的な蒸留アルゴリズムにより、8 ステップ推論を実現(競合は 20-50 ステップ)。H800 GPU で 1 秒未満の生成を達成し、16GB VRAM のコンシューマー向け RTX 3060/4090 でスムーズに動作します。

クオリティ
オープンソースのリーディングパフォーマンス

Artificial Analysis Image Arena でオープンソースモデル第 1 位にランク、FLUX.2 [dev]、HunyuanImage 3.0、Qwen-Image を凌駕。英語と中国語のバイリンガルテキストレンダリング、写真のような生成、強力な指示追従に優れています。商用利用可能な Apache 2.0 ライセンスでリリース。

最適な用途

🎨
デジタルアート制作
📸
商品写真
📊
マーケティング素材
🎬
コンセプトアート
📱
ソーシャルメディアコンテンツ
🖼️
ストック写真
🎮
ゲームアセット
クリエイティブプロトタイピング

Z-Image Turbo を選ぶ理由

即座の結果
コールドスタートレイテンシゼロで 1 秒未満の生成。待ち時間なしで即座に画像を取得できます。
💰
コスト効率的
1 画像あたり $0.005 のお手頃価格。予算を気にせずクリエイティブプロジェクトを拡大できます。
🔌
すぐに使える API
シンプルな REST API 統合。包括的なドキュメントで数分以内に画像生成を開始できます。

技術仕様

モデルアーキテクチャ60 億パラメータ
推論ステップ8 NFEs(関数評価回数)
生成速度H800 で 1 秒未満、コンシューマー GPU で 5-10 秒
VRAM 要件16GB(RTX 3060/4090 互換)
アーキテクチャSingle-Stream Diffusion Transformer(S3-DiT)
蒸留方法CFG 拡張を伴う Decoupled-DMD
ライセンスApache 2.0(商用利用可能)
ランキングArtificial Analysis Arena でオープンソース第 1 位
価格1 画像あたり $0.005

Z-Image Turbo で制作を開始

超高速で写真のような画像生成を今すぐ体験。セットアップ不要、API を呼び出すだけで制作を開始できます。

コールドスタートなし - 即座の生成
お手頃価格 - 1 画像 $0.005
プロフェッショナルな品質の結果
300以上のモデルから始める、

Atlas Cloudでのみ。