z-image/turbo

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

TEXT-TO-IMAGENEWHOT
Văn bản-Hình ảnh
TURBO

Z-Image-Turbo is a 6 billion parameter text-to-image model that generates photorealistic images in sub-second time. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Z-Image-Turbo — 6B-parameter, ultra-fast text-to-image

Z-Image-Turbo is a 6B-parameter text-to-image model from Tongyi-MAI, engineered for production workloads where latency and throughput really matter. It uses only 8 sampling steps to render a full image, achieving sub-second latency on data-center GPUs and running comfortably on many 16 GB VRAM consumer cards.

Ultra-fast generation with production-ready quality

Where many diffusion models need dozens of steps, Z-Image-Turbo is aggressively optimised around an 8-step sampler. That keeps inference extremely fast while still delivering photorealistic images and reliable on-image text, making it a strong fit for interactive products, dashboards, and large-scale backends—not just offline batch jobs.

Why it looks so good?

  • Photorealistic output at speed Generates high-fidelity, realistic images that work for product photos, hero banners, and UI visuals without multi-second waits.
  • Bilingual prompts and text Understands prompts in English and Chinese, and can render multilingual text directly in the image—helpful for cross-market campaigns, posters, and screenshots.
  • Low-latency, low-step design Only 8 function evaluations per image deliver extremely low latency, ideal for chatbots, configuration tools, design assistants, and any “click → image” experience.
  • Friendly VRAM footprint Runs well in 16 GB VRAM environments, reducing hardware costs and making local or edge deployments more realistic.
  • Scales for bulk generation Its efficiency makes large jobs—catalogues, continuous feed images, or auto-generated thumbnails—practical without blowing up compute budgets.
  • Reproducible generations A controllable seed parameter lets you recreate a previous image or generate small, controlled variations for brand safety and experimentation.

How to use

  • prompt – natural-language description of the scene, style, and any on-image text (English or Chinese).
  • size (width / height) – choose the output resolution; supports square and rectangular images up to high resolutions (for example, 1536 × 1536).
  • seed – set to -1 for random results, or use a fixed integer to make outputs reproducible.

Pricing

Simple per-image billing:

  • Without prompt rewriting (prompt_extend=false): $0.015 per generated image
  • With prompt rewriting (prompt_extend=true): $0.03 per generated image

Try more models and see their difference!

  • Nano Banana Pro – Text-to-Image – Google’s Nano Banana Pro (Gemini 3.0 Pro Image family) delivers high-quality multi-image generation with extremely low cost per image, ideal for large-scale applications.
  • Seedream V4 – Text-to-Image – ByteDance’s high-resolution text-to-image model with rich detail and diverse styles, well suited for creative illustration and commercial visuals.
  • FLUX.2 [dev] – Text-to-Image – A lightweight FLUX.2-based base model hosted by AtlasCloud, optimised for efficient inference and LoRA-friendly training.

Paper

Tongyi-MAI/Z-Image-Turbo

Thông số kỹ thuật Chi tiết

Tổng quan:

Nhà cung cấp Mô hình:TONGYIMAI
Loại Mô hình:text-to-image
Triển khai:API Suy luận; Playground
Giá cả:$0.0105/pic

Thông số chính:

Giới hạn Kích thước:Chiều rộng × chiều cao tối đa (tùy chỉnh)
Hỗ trợ LoRA:Không
Tùy chọn Seed:N/A

Tạo Kiệt tác Tiếp theo của Bạn

Z-Image Turbo - Tạo Ảnh Từ Văn Bản Cực Nhanh

MỚI

Mô Hình 6 Tỷ Tham Số Của Alibaba TONGYIMAI

Z-Image Turbo là mô hình văn bản sang hình ảnh mã nguồn mở xếp hạng #1, vượt trội hơn FLUX.2 [dev], HunyuanImage 3.0 và Qwen-Image trên Artificial Analysis Image Arena. Được xây dựng bởi đội ngũ Tongyi-MAI của Alibaba (một bộ phận riêng biệt với Qwen/Wan), mô hình 6 tỷ tham số này đạt được tốc độ tạo dưới một giây thông qua chưng cất Decoupled-DMD tiên tiến trong khi vẫn duy trì chất lượng như ảnh thật. Chỉ với 8 bước suy luận, phù hợp với 16GB VRAM và mang lại kết quả chuyên nghiệp được tối ưu hóa cho môi trường sản xuất yêu cầu tốc độ cao.

Tạo Cực Nhanh
  • Chỉ 8 bước suy luận (so với 20-50 của đối thủ)
  • Tạo dưới một giây trên GPU H800
  • Nhanh hơn Qwen Image 1.31-1.41× mỗi bước
  • Phù hợp với 16GB VRAM (RTX 3060/4090)
Chất Lượng Như Ảnh Thật
  • Mô hình mã nguồn mở xếp hạng #1 trên AI Arena
  • Hiển thị văn bản song ngữ (tiếng Anh & tiếng Trung)
  • Tuân thủ hướng dẫn mạnh mẽ
  • Vượt trội hơn FLUX.1 [dev] và Qwen ở mọi danh mục

Danh Mục Mô Hình Chiến Lược Của Alibaba

Alibaba cung cấp ba hệ thống tạo ảnh AI chuyên biệt, mỗi hệ thống được tối ưu hóa cho các trường hợp sử dụng khác nhau

Nhà Vô Địch Tốc Độ

Z-Image Turbo

Đội Tongyi-MAI

Best For: Khối lượng công việc sản xuất yêu cầu tốc độ cao
  • ⚡ Nhanh nhất: 8 bước, tạo dưới một giây
  • 🏆 Mô hình mã nguồn mở xếp hạng #1
  • 💰 Tiết kiệm chi phí nhất ($0.005/ảnh)
  • 🎯 Tối ưu hóa cho lặp lại nhanh
Vua Chất Lượng

Qwen-Image

Đội Qwen

Best For: Kết xuất cuối cùng chất lượng tối đa
  • 🎨 Chất lượng như ảnh thật & kết cấu da vô song
  • 💡 Tương tác ánh sáng vượt trội
  • ⏱️ Chậm hơn (20s so với 5-10s của Z-Image)
  • 🎯 Tốt nhất cho công việc sản xuất cao cấp
Chuyên Gia Đa Năng

Wan 2.5/2.6

Đội Wan

Best For: Tính đa năng đa phương tiện
  • 🎬 Văn Bản-Video + Ảnh-Video
  • 📹 Hỗ trợ đa độ phân giải (480P-720P)
  • 🔄 Đồng bộ hóa âm thanh-hình ảnh
  • 🎯 Tạo nội dung đa phương thức

Key Insight: Z-Image Turbo nhanh hơn Qwen-Image 1.31-1.41× mỗi bước, làm cho nó lý tưởng cho các ứng dụng yêu cầu tạo nhanh. Mặc dù Qwen-Image cung cấp chất lượng như ảnh thật tốt hơn một chút cho kết xuất cuối cùng, Z-Image Turbo mang lại sự cân bằng tốt nhất giữa tốc độ và chất lượng cho môi trường sản xuất.

Điểm Nổi Bật Kỹ Thuật

Hiệu Năng
Kiến Trúc S3-DiT

Áp dụng kiến trúc Single-Stream Diffusion Transformer (S3-DiT) thống nhất xử lý các đầu vào có điều kiện khác nhau. Thiết kế 6 tỷ tham số này đạt được kết quả chuyên nghiệp mà không có chi phí tính toán của các mô hình lớn hơn trong khi vẫn duy trì chất lượng tiên tiến.

Tốc Độ
Chưng Cất Decoupled-DMD

Thuật toán chưng cất tiên tiến với cơ chế CFG Augmentation và Distribution Matching cho phép suy luận 8 bước (so với 20-50 của đối thủ). Đạt được tạo dưới một giây trên GPU H800 và chạy mượt mà trên RTX 3060/4090 dành cho người tiêu dùng với 16GB VRAM.

Chất Lượng
Hiệu Năng Mã Nguồn Mở Hàng Đầu

Xếp hạng mô hình mã nguồn mở #1 trên Artificial Analysis Image Arena, vượt trội hơn FLUX.2 [dev], HunyuanImage 3.0 và Qwen-Image. Xuất sắc trong hiển thị văn bản song ngữ (tiếng Anh & tiếng Trung), tạo như ảnh thật và tuân thủ hướng dẫn mạnh mẽ. Được phát hành theo giấy phép Apache 2.0 cho mục đích thương mại.

Hoàn Hảo Cho

🎨
Tạo Nghệ Thuật Số
📸
Chụp Ảnh Sản Phẩm
📊
Tài Liệu Marketing
🎬
Nghệ Thuật Khái Niệm
📱
Nội Dung Mạng Xã Hội
🖼️
Chụp Ảnh Stock
🎮
Tài Sản Trò Chơi
Tạo Mẫu Sáng Tạo

Tại Sao Chọn Z-Image Turbo

Kết Quả Tức Thì
Tạo dưới một giây với độ trễ khởi động lạnh bằng không. Nhận ảnh của bạn ngay lập tức mà không cần chờ đợi.
💰
Tiết Kiệm Chi Phí
Giá cả phải chăng $0.005 mỗi ảnh. Mở rộng các dự án sáng tạo của bạn mà không vượt quá ngân sách.
🔌
API Sẵn Sàng Sử Dụng
Tích hợp REST API đơn giản. Bắt đầu tạo ảnh trong vài phút với tài liệu toàn diện của chúng tôi.

Thông Số Kỹ Thuật

Kiến Trúc Mô Hình6 Tỷ Tham Số
Bước Suy Luận8 NFEs (Số Lần Đánh Giá Hàm)
Tốc Độ TạoDưới một giây trên H800, 5-10s trên GPU người tiêu dùng
Yêu Cầu VRAM16GB (tương thích RTX 3060/4090)
Kiến TrúcSingle-Stream Diffusion Transformer (S3-DiT)
Phương Pháp Chưng CấtDecoupled-DMD với CFG Augmentation
Giấy PhépApache 2.0 (Cho Phép Sử Dụng Thương Mại)
Xếp Hạng#1 Mã Nguồn Mở trên Artificial Analysis Arena
Giá$0.005 Mỗi Ảnh

Bắt Đầu Tạo Với Z-Image Turbo

Trải nghiệm tạo ảnh như ảnh thật cực nhanh ngay hôm nay. Không cần thiết lập, chỉ cần gọi API của chúng tôi và bắt đầu tạo.

Không khởi động lạnh - tạo tức thì
Giá phải chăng - $0.005 mỗi ảnh
Kết quả chất lượng chuyên nghiệp
Bắt đầu với 300+ Mô hình,

Chỉ có tại Atlas Cloud.