
Atlas Cloud héberge la série complète GLM via l'API Z-AI, de GLM-4.6 à GLM-5.1. Tous les modèles sont bilingues et disponibles en paiement à l'usage avec une fenêtre de contexte de 202K.
Propulsez le chat, le raisonnement et les agents à grande échelle avec les meilleurs grands modèles de langage, servis rapidement et à moindre coût sur Atlas Cloud.
Compare standard vs. our pricing across every Z.ai model.
| Model | Standard Price (USD) | Our Price (USD) | Discount | |
|---|---|---|---|---|
| GLM 5.1 | $1.4/$4.4per 1M tokens202.8K context | $1.26/$3.96M in/outper 1M tokens202.8K context | -10% | View |
| GLM 5 Turbo | $1.2/$4per 1M tokens262.1K context | $1.2/$4M in/outper 1M tokens262.1K context | — | View |
| GLM 5 | $1/$3.2per 1M tokens202.8K context | $0.95/$3.15M in/outper 1M tokens202.8K context | — | View |
| GLM 4.7 | $0.6/$2.2per 1M tokens202.8K context | $0.52/$1.85M in/outper 1M tokens202.8K context | — | View |
| GLM 4.6 | $0.6/$2.2per 1M tokens202.8K context | $0.6/$2.2M in/outper 1M tokens202.8K context | — | View |
Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.
Les niveaux de modèles de GLM couvrent tout, des tâches de chat bilingue rapides aux agents de codage autonomes de plusieurs heures. Les équipes utilisent GLM-5.1 pour les travaux d'ingénierie à long terme et GLM-4.7 ou GLM-5 Turbo lorsque la rentabilité et la vitesse sont prioritaires.
Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.
Les équipes de développement utilisent GLM-5.1 pour exécuter des transformations complètes de bases de code lors de sessions de plusieurs heures sans points de contrôle humains. Le modèle planifie, écrit, teste et itère les modifications en continu jusqu'à 8 heures, gérant 655 itérations dans une démonstration de construction d'un système Linux à partir de zéro. Cela remplace des semaines de travail de refactorisation manuelle sur de vastes bases de code héritées.
Les équipes d'outils pour développeurs intègrent GLM-5.1 et GLM-5 Turbo comme modèle sous-jacent pour les flux de travail de codage IA dans Claude Code, Kilo Code, Cline, Roo Code et OpenCode. La Z-AI API sur Atlas Cloud est compatible avec OpenAI, le changement de la base URL est donc la seule modification requise pour acheminer l'un de ces outils via GLM. La fenêtre de contexte de 262K de GLM-5 Turbo le rend particulièrement adapté au contexte de fichiers volumineux dans les flux de travail des IDE.
Les équipes d'exploitation créent des agents de support à l'aide de GLM-5 qui combinent l'accès à la base de données de tickets, la recherche dans la base de connaissances et les outils d'escalade pour traiter les requêtes répétitives sans intervention humaine. La capacité d'appel multi-outils et la prise en charge du streaming du modèle le rendent pratique pour les déploiements en temps réel orientés client. Le support bilingue signifie que le même agent traite les tickets en chinois et en anglais à partir d'un seul point de terminaison de modèle sur Atlas Cloud.
Les équipes de contenu et commerciales utilisent GLM-4.7 pour générer des documents Word, des présentations PowerPoint, des PDF et des rapports Excel en chinois et en anglais à partir de prompts structurés. À 0,52 $ par million de tokens d'entrée, il s'agit du niveau GLM le plus rentable pour les flux de travail documentaires à volume élevé qui ne nécessitent pas de raisonnement de niveau frontière. La fenêtre de contexte de 202K est suffisante pour contenir des plans de documents complets et des documents sources en un seul appel.
Les équipes d'infrastructure d'IA utilisent GLM-5.1 pour exécuter des pipelines d'optimisation axés sur des benchmarks sur des charges de travail d'apprentissage automatique. Sur des tâches de style KernelBench, GLM-5.1 effectue des milliers de cycles d'optimisation pilotés par des outils et atteint une accélération moyenne géométrique de 3,6x. La capacité d'exécution continue de 8 heures signifie que l'agent exécute la boucle d'optimisation complète sans nécessiter de redémarrages manuels entre les sessions.
Z-AI (également écrit Z.ai) est le développeur derrière la série GLM de grands modèles de langage, également connue sous le nom de ZhipuAI. GLM signifie Modèle de Langage Général (General Language Model), une famille allant de GLM-4.6 à l'actuel modèle phare GLM-5.1. La série est conçue pour la programmation, les flux de travail basés sur des agents et une utilisation en production bilingue chinois-anglais.
GLM-5.1 a atteint la première place sur SWE-Bench Pro avec un score de 58,4 le 7 avril 2026, surpassant GPT-5.4 (57,7) et Claude Opus 4.6 (57,3). Il est également en tête de CyberGym avec 68,7. Cela en fait le modèle open-source le mieux classé pour le codage en production au deuxième trimestre 2026.
Oui. GLM-5.1 prend en charge une exécution autonome continue jusqu'à 8 heures sur une seule tâche sans intervention humaine. Il gère la boucle complète de planification, d'exécution, d'optimisation itérative et de livraison. Ceci est conçu spécifiquement pour les flux de travail des agents de codage à long terme dans des environnements tels que Claude Code et les configurations compatibles avec OpenClaw.
GLM-5 est le modèle de fondation de base construit sur une architecture MoE de 744 milliards de paramètres, entraîné sur 28,5 billions de tokens, et a atteint la première place du classement Elo sur Chatbot Arena pour les modèles open source. GLM-5.1 est une mise à niveau post-entraînement de cette même base avec des capacités de codage, d'utilisation d'outils et d'exécution autonome considérablement renforcées. GLM-5 est proposé au prix de 0,95 $ par million de tokens d'entrée sur Atlas Cloud ; GLM-5.1 est à 1,26 $ par million de tokens d'entrée.
Oui. GLM-5.1 est publié sous une licence MIT, qui autorise l'utilisation commerciale, le fine-tuning et la redistribution sans restriction. Les poids ouverts sont disponibles pour un déploiement auto-hébergé. Atlas Cloud fournit GLM-5.1 via API pour les équipes qui préfèrent un accès géré sans la charge de l'infrastructure.
GLM-4.6, GLM-4.7, GLM-5 et GLM-5.1 prennent tous en charge une fenêtre de contexte de 202 750 tokens sur Atlas Cloud. GLM-5 Turbo fait exception avec une fenêtre de contexte plus grande de 262 144 tokens et une longueur de sortie maximale de 131 072 tokens. GLM-5.1 est adapté pour générer de longs fichiers de code et des traces d'exécution étendues dans sa limite de contexte.
Oui. Tous les modèles GLM sont optimisés pour le chinois et l'anglais avec une compétence égale dans les deux langues. Vous pouvez rédiger des prompts dans l'une ou l'autre langue et recevoir en retour des résultats d'une qualité constante. Cela rend GLM très pratique pour les équipes qui développent des produits desservant à la fois le marché chinois et le marché international à partir d'un modèle unique.
GLM-4.7 commence à 0,52 $ par million de tokens d'entrée et constitue le niveau le plus rentable. GLM-4.6 est à 0,60 $, GLM-5 à 0,95 $ et GLM-5 Turbo à 1,20 $ par million de tokens d'entrée. GLM-5.1, le modèle phare, est à 1,26 $ par million de tokens d'entrée et 3,96 $ par million de tokens de sortie. Tous les modèles sont facturés à l'usage (pay-as-you-go), sans engagement mensuel.
Guides, tutoriels et actualités produit pour tirer le meilleur d'Atlas Cloud.
Join the Discord community for the latest model updates, prompts, and support.