Z.ai Models on AtlasCloud | GLM

Atlas Cloud héberge la série complète GLM via l'API Z-AI, de GLM-4.6 à GLM-5.1. Tous les modèles sont bilingues et disponibles en paiement à l'usage avec une fenêtre de contexte de 202K.

Large Language Models by Z.ai

Propulsez le chat, le raisonnement et les agents à grande échelle avec les meilleurs grands modèles de langage, servis rapidement et à moindre coût sur Atlas Cloud.

Voir tous les modèles

Z.ai Models API Pricing Details

Compare standard vs. our pricing across every Z.ai model.

ModelStandard Price (USD)Our Price (USD)Discount
GLM 5.1
$1.4/$4.4per 1M tokens202.8K context
$1.26/$3.96M in/outper 1M tokens202.8K context
-10%View
GLM 5 Turbo
$1.2/$4per 1M tokens262.1K context
$1.2/$4M in/outper 1M tokens262.1K context
View
GLM 5
$1/$3.2per 1M tokens202.8K context
$0.95/$3.15M in/outper 1M tokens202.8K context
View
GLM 4.7
$0.6/$2.2per 1M tokens202.8K context
$0.52/$1.85M in/outper 1M tokens202.8K context
View
GLM 4.6
$0.6/$2.2per 1M tokens202.8K context
$0.6/$2.2M in/outper 1M tokens202.8K context
View

Explore models from other providers

Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.

Cas d'usage de la Z-AI API que vous pouvez développer sur Atlas Cloud

Les niveaux de modèles de GLM couvrent tout, des tâches de chat bilingue rapides aux agents de codage autonomes de plusieurs heures. Les équipes utilisent GLM-5.1 pour les travaux d'ingénierie à long terme et GLM-4.7 ou GLM-5 Turbo lorsque la rentabilité et la vitesse sont prioritaires.

Optimisation des performances de la base de données à long terme

Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.

Refactorisation Autonome de Code à l'Échelle du Dépôt

Les équipes de développement utilisent GLM-5.1 pour exécuter des transformations complètes de bases de code lors de sessions de plusieurs heures sans points de contrôle humains. Le modèle planifie, écrit, teste et itère les modifications en continu jusqu'à 8 heures, gérant 655 itérations dans une démonstration de construction d'un système Linux à partir de zéro. Cela remplace des semaines de travail de refactorisation manuelle sur de vastes bases de code héritées.

Intégration de l'Agent de Codage IDE

Les équipes d'outils pour développeurs intègrent GLM-5.1 et GLM-5 Turbo comme modèle sous-jacent pour les flux de travail de codage IA dans Claude Code, Kilo Code, Cline, Roo Code et OpenCode. La Z-AI API sur Atlas Cloud est compatible avec OpenAI, le changement de la base URL est donc la seule modification requise pour acheminer l'un de ces outils via GLM. La fenêtre de contexte de 262K de GLM-5 Turbo le rend particulièrement adapté au contexte de fichiers volumineux dans les flux de travail des IDE.

Automatisation des Requêtes de Support de Niveau 1

Les équipes d'exploitation créent des agents de support à l'aide de GLM-5 qui combinent l'accès à la base de données de tickets, la recherche dans la base de connaissances et les outils d'escalade pour traiter les requêtes répétitives sans intervention humaine. La capacité d'appel multi-outils et la prise en charge du streaming du modèle le rendent pratique pour les déploiements en temps réel orientés client. Le support bilingue signifie que le même agent traite les tickets en chinois et en anglais à partir d'un seul point de terminaison de modèle sur Atlas Cloud.

Génération de documents bilingues à grande échelle

Les équipes de contenu et commerciales utilisent GLM-4.7 pour générer des documents Word, des présentations PowerPoint, des PDF et des rapports Excel en chinois et en anglais à partir de prompts structurés. À 0,52 $ par million de tokens d'entrée, il s'agit du niveau GLM le plus rentable pour les flux de travail documentaires à volume élevé qui ne nécessitent pas de raisonnement de niveau frontière. La fenêtre de contexte de 202K est suffisante pour contenir des plans de documents complets et des documents sources en un seul appel.

Optimisation du noyau pour les charges de travail ML

Les équipes d'infrastructure d'IA utilisent GLM-5.1 pour exécuter des pipelines d'optimisation axés sur des benchmarks sur des charges de travail d'apprentissage automatique. Sur des tâches de style KernelBench, GLM-5.1 effectue des milliers de cycles d'optimisation pilotés par des outils et atteint une accélération moyenne géométrique de 3,6x. La capacité d'exécution continue de 8 heures signifie que l'agent exécute la boucle d'optimisation complète sans nécessiter de redémarrages manuels entre les sessions.

Concrétisez la vision de votre entreprise avec Atlas Cloud AI.

Contacter les ventes

Foire aux questions sur les modèles Z.ai

Z-AI (également écrit Z.ai) est le développeur derrière la série GLM de grands modèles de langage, également connue sous le nom de ZhipuAI. GLM signifie Modèle de Langage Général (General Language Model), une famille allant de GLM-4.6 à l'actuel modèle phare GLM-5.1. La série est conçue pour la programmation, les flux de travail basés sur des agents et une utilisation en production bilingue chinois-anglais.

GLM-5.1 a atteint la première place sur SWE-Bench Pro avec un score de 58,4 le 7 avril 2026, surpassant GPT-5.4 (57,7) et Claude Opus 4.6 (57,3). Il est également en tête de CyberGym avec 68,7. Cela en fait le modèle open-source le mieux classé pour le codage en production au deuxième trimestre 2026.

Oui. GLM-5.1 prend en charge une exécution autonome continue jusqu'à 8 heures sur une seule tâche sans intervention humaine. Il gère la boucle complète de planification, d'exécution, d'optimisation itérative et de livraison. Ceci est conçu spécifiquement pour les flux de travail des agents de codage à long terme dans des environnements tels que Claude Code et les configurations compatibles avec OpenClaw.

GLM-5 est le modèle de fondation de base construit sur une architecture MoE de 744 milliards de paramètres, entraîné sur 28,5 billions de tokens, et a atteint la première place du classement Elo sur Chatbot Arena pour les modèles open source. GLM-5.1 est une mise à niveau post-entraînement de cette même base avec des capacités de codage, d'utilisation d'outils et d'exécution autonome considérablement renforcées. GLM-5 est proposé au prix de 0,95 $ par million de tokens d'entrée sur Atlas Cloud ; GLM-5.1 est à 1,26 $ par million de tokens d'entrée.

Oui. GLM-5.1 est publié sous une licence MIT, qui autorise l'utilisation commerciale, le fine-tuning et la redistribution sans restriction. Les poids ouverts sont disponibles pour un déploiement auto-hébergé. Atlas Cloud fournit GLM-5.1 via API pour les équipes qui préfèrent un accès géré sans la charge de l'infrastructure.

GLM-4.6, GLM-4.7, GLM-5 et GLM-5.1 prennent tous en charge une fenêtre de contexte de 202 750 tokens sur Atlas Cloud. GLM-5 Turbo fait exception avec une fenêtre de contexte plus grande de 262 144 tokens et une longueur de sortie maximale de 131 072 tokens. GLM-5.1 est adapté pour générer de longs fichiers de code et des traces d'exécution étendues dans sa limite de contexte.

Oui. Tous les modèles GLM sont optimisés pour le chinois et l'anglais avec une compétence égale dans les deux langues. Vous pouvez rédiger des prompts dans l'une ou l'autre langue et recevoir en retour des résultats d'une qualité constante. Cela rend GLM très pratique pour les équipes qui développent des produits desservant à la fois le marché chinois et le marché international à partir d'un modèle unique.

GLM-4.7 commence à 0,52 $ par million de tokens d'entrée et constitue le niveau le plus rentable. GLM-4.6 est à 0,60 $, GLM-5 à 0,95 $ et GLM-5 Turbo à 1,20 $ par million de tokens d'entrée. GLM-5.1, le modèle phare, est à 1,26 $ par million de tokens d'entrée et 3,96 $ par million de tokens de sortie. Tous les modèles sont facturés à l'usage (pay-as-you-go), sans engagement mensuel.

Explorer Plus de Familles

Seedance 2.0 Models

Seedance 2.0(by Bytedance) is a multimodal video generation model that redefines "controllable creation," moving beyond the limitations of text or start/end frames. It supports quad-modal inputs—text, image, video, and audio—and introduces an industry-leading "Universal Reference" system. By precisely replicating the composition, camera movement, and character actions from reference assets, Seedance 2.0 solves critical issues with character consistency and physical coherence, empowering creators to act as true "directors" with deep control over their output.

Voir la Famille

Grok-Imagine Models

Grok Imagine Image Quality is xAI's latest AI image generation model, delivering studio-grade visuals with up to 2K resolution and razor-sharp detail. It offers best-in-class text rendering across multiple languages, photorealistic outputs with natural lighting, rich textures, and believable physics, plus tighter prompt following and image editing with reference inputs for precise creative control. Ideal for hero images, ad creatives, product renders, and brand-grade visuals.

Voir la Famille

Gemini Omni

Gemini Omni (by Google DeepMind) is a video generation and editing model launched on May 20, 2026 at Google I/O that redefines the standard for "reasoning-driven creation," built specifically to solve the core challenge of AI video: making output that actually understands what you mean, not just what you type. It fuses Gemini's reasoning engine with generative capability, accepting any mix of images, text, video, and audio to produce consistent, knowledge-grounded output. Unlike models that start from scratch each time, Omni lets you edit through natural conversation — swapping objects, rewriting scenes, shifting styles — while keeping physics, characters, and continuity intact across every turn.

Voir la Famille

GPT Image 2 Models

GPT Image 2 is a state-of-the-art multimodal foundation model engineered for exceptional text-to-image generation with unprecedented photorealism and creative versatility. Developed by OpenAI as the evolution of the DALL-E lineage, it transforms detailed natural language descriptions into hyper-realistic imagery at up to 4K resolution. With proprietary "Neural Rendering Engine" technology for precise visual control, GPT Image 2 delivers studio-quality results with accurate anatomy, lighting, and composition—making it the premier AI tool for professional creators, enterprises, and developers demanding production-ready visual assets.

Voir la Famille

Google Models on Atlas Cloud | Gemini, Nano Bananas & Veo

Les modèles créatifs les plus puissants de Google sont tous disponibles sur Atlas Cloud. Veo 3.1 offre une génération de vidéos cinématographiques, Nano Banana 2 permet de créer des images haute fidélité, et Gemini apporte une intelligence multimodale à chaque flux de travail. Accédez à la suite complète de modèles Google via une seule API key avec une disponibilité Day-0 et une tarification à l'usage (pay-as-you-go).

Voir la Famille

ByteDance Models on Atlas Cloud | Seedance & Seedream

De la génération de vidéos cinématiques à la création d'images haute fidélité, les modèles les plus puissants de ByteDance sont disponibles sur Atlas Cloud. Exécutez Seedance et Seedream à grande échelle avec les prix d'inférence les plus bas et aucune surcharge d'infrastructure.

Voir la Famille

Alibaba Models on Atlas Cloud | Wan & Qwen

Atlas Cloud rassemble l'ensemble de la gamme de modèles d'Alibaba sous une seule API : Qwen pour les tâches linguistiques et d'imagerie, et Wan pour la génération de vidéos jusqu'en 1080p. Accédez à chaque modèle avec une tarification à l'usage (pay-as-you-go) sans abonnement. L'API Alibaba est disponible via une URL de base unique en utilisant votre client existant compatible avec OpenAI.

Voir la Famille

MAI Image 2.5 Models

MAI-Image-2.5 est la dernière famille de modèles de génération et d'édition d'images photoréalistes de Microsoft, conçue pour le design commercial, la photographie de produits et la création de contenu prêt pour les marques. Disponible dans les variantes standard et Flash pour la génération de texte en image et l'édition d'images, il offre les meilleurs scores Arena ELO de sa catégorie à des prix compétitifs, à partir de 0,03 $ par image. Avec un rendu de texte précis, une capacité d'édition chirurgicale et une génération de portraits naturels, MAI-Image-2.5 est conçu pour les équipes qui ont besoin de visuels de qualité de production sans les frais généraux de post-traitement.

Voir la Famille

Wan2.7 Models

Launching this March, Wan2.7 is the latest powerhouse in the Qwen ecosystem, delivering a massive upgrade in visual fidelity, audio synchronization, and motion consistency over version 2.6. This all-in-one AI video generator supports advanced features like first-and-last frame control, 3x3 grid synthesis, and instruction-based video editing. Outperforming competitors like Jimeng, Wan2.7 offers superior flexibility with support for real-person image inputs, up to five video references, and 1080P high-definition outputs spanning 2 to 15 seconds, making it the premier choice for professional digital storytelling and high-end content marketing.

Voir la Famille

Nano Banana2 Models

Nano Banana 2 (by Google), is a generative image model that perfectly balances lightning-fast rendering with exceptional visual quality. With an improved price-performance ratio, it achieves breakthrough micro-detail depiction, accurate native text rendering, and complex physical structure reconstruction. It serves as a highly efficient, commercial-grade visual production tool for developers, marketing teams, and content creators.

Voir la Famille

Doubao Models

Doubao est la famille de grands modèles de langage de ByteDance, conçue pour le raisonnement de niveau production, le codage et les charges de travail d'agents à volume élevé. Couvrant le fleuron Seed 2.0 Pro, une variante dédiée Code Preview, les niveaux rentables Lite et Mini, ainsi que les générations éprouvées Seed 1.8 et Seed 1.6, la gamme offre aux développeurs une interface unique compatible avec OpenAI pour évoluer du raisonnement de pointe aux tâches à haut débit et sensibles à la latence. Chaque modèle Doubao sur Atlas Cloud est doté d'une fenêtre de contexte de 256K jetons, du streaming et d'une compatibilité SDK prête à l'emploi — vous permettant ainsi d'associer le bon modèle à chaque tâche sans avoir à réécrire votre stack.

Voir la Famille

Hunyuan 3D Generation Models

Hunyuan3D is a state-of-the-art 3D generative foundation model from Tencent that turns text prompts and single images into high-quality, textured 3D meshes. Built on a two-stage pipeline—Hunyuan3D-DiT for shape generation via flow-matching diffusion and Hunyuan3D-Paint for multi-view texture synthesis—it produces clean geometry with full PBR materials ready for game engines, AR/VR, 3D printing, and DCC tools. Available in Pro (up to 1.5M faces, 4K PBR textures) and Rapid (2–3 minute lightweight generation) tiers, with both Text-to-3D and Image-to-3D entry points, Hunyuan3D is the premier AI 3D toolkit for game developers, e-commerce teams, and 3D content studios. Generations start at $0.02 each.

Voir la Famille

Articles recommandés

Guides, tutoriels et actualités produit pour tirer le meilleur d'Atlas Cloud.

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.