
Atlas Cloud hostet die gesamte GLM-Serie über die Z-AI API, von GLM-4.6 bis GLM-5.1. Alle Modelle sind zweisprachig und als Pay-as-you-go-Modell mit einem Kontextfenster von 202K verfügbar.
Treiben Sie Chat, Reasoning und Agenten im großen Maßstab mit führenden großen Sprachmodellen an – schnell und kostengünstig bereitgestellt auf Atlas Cloud.
Compare standard vs. our pricing across every Z.ai model.
| Model | Standard Price (USD) | Our Price (USD) | Discount | |
|---|---|---|---|---|
| GLM 5.1 | $1.4/$4.4per 1M tokens202.8K context | $1.26/$3.96M in/outper 1M tokens202.8K context | -10% | View |
| GLM 5 Turbo | $1.2/$4per 1M tokens262.1K context | $1.2/$4M in/outper 1M tokens262.1K context | — | View |
| GLM 5 | $1/$3.2per 1M tokens202.8K context | $0.95/$3.15M in/outper 1M tokens202.8K context | — | View |
| GLM 4.7 | $0.6/$2.2per 1M tokens202.8K context | $0.52/$1.85M in/outper 1M tokens202.8K context | — | View |
| GLM 4.6 | $0.6/$2.2per 1M tokens202.8K context | $0.6/$2.2M in/outper 1M tokens202.8K context | — | View |
Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.
Die Modellstufen von GLM decken alles ab, von schnellen zweisprachigen Chat-Aufgaben bis hin zu mehrstündigen autonomen Coding-Agenten. Teams verwenden GLM-5.1 für langfristige Ingenieursarbeiten und GLM-4.7 oder GLM-5 Turbo, wenn Kosteneffizienz und Geschwindigkeit im Vordergrund stehen.
Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.
Entwicklungsteams nutzen GLM-5.1, um vollständige Codebasis-Transformationen über mehrstündige Sitzungen hinweg ohne menschliche Checkpoints durchzuführen. Das Modell plant, schreibt, testet und iteriert Änderungen kontinuierlich für bis zu 8 Stunden und verarbeitete in einer demonstrierten Erstellung eines Linux-Systems von Grund auf 655 Iterationen. Dies ersetzt wochenlange manuelle Refactoring-Arbeit an großen, Legacy-Codebasen.
Entwicklertools-Teams integrieren GLM-5.1 und GLM-5 Turbo als zugrunde liegendes Modell für KI-Programmier-Workflows in Claude Code, Kilo Code, Cline, Roo Code und OpenCode. Die Z-AI API auf Atlas Cloud ist OpenAI-kompatibel, sodass der Austausch der base URL die einzige Änderung ist, die erforderlich ist, um eines dieser Tools über GLM zu leiten. Das 262K-Kontextfenster von GLM-5 Turbo macht es besonders geeignet für großen Dateikontext in IDE-Workflows.
Betriebsteams entwickeln mit GLM-5 Support-Agenten, die den Zugriff auf die Ticket-Datenbank, die Suche in der Wissensdatenbank und Eskalationswerkzeuge kombinieren, um wiederkehrende Anfragen ohne menschliches Eingreifen zu bearbeiten. Die Multi-Tool-Aufrufe und die Streaming-Unterstützung des Modells machen es praktisch für Echtzeit-Einsätze mit Kundenkontakt. Durch die zweisprachige Unterstützung bearbeitet derselbe Agent chinesische und englische Tickets über einen einzigen Modell-Endpoint auf Atlas Cloud.
Content- und Business-Teams nutzen GLM-4.7, um aus strukturierten Prompts Word-Dokumente, PowerPoint-Präsentationen, PDFs und Excel-Berichte sowohl in Chinesisch als auch in Englisch zu erstellen. Mit 0,52 $ pro Million Input-Tokens ist es die kosteneffizienteste GLM-Stufe für hochvolumige Dokumenten-Workflows, die keine Argumentation auf Frontier-Niveau erfordern. Das Kontextfenster von 202K reicht aus, um vollständige Dokumentstrukturen und Quellmaterial in einem einzigen Aufruf zu erfassen.
KI-Infrastrukturteams nutzen GLM-5.1, um Benchmark-gesteuerte Optimierungspipelines für Machine-Learning-Workloads auszuführen. Bei Aufgaben im KernelBench-Stil führt GLM-5.1 Tausende von werkzeuggesteuerten Optimierungszyklen durch und erzielt eine 3,6-fache geometrische mittlere Beschleunigung. Die 8-stündige kontinuierliche Ausführungskapazität bedeutet, dass der Agent die vollständige Optimierungsschleife ausführt, ohne dass manuelle Neustarts zwischen den Sitzungen erforderlich sind.
Z-AI (auch Z.ai geschrieben) ist der Entwickler hinter der GLM-Serie von großen Sprachmodellen, die auch als ZhipuAI bekannt ist. GLM steht für General Language Model, eine Modellfamilie, die von GLM-4.6 bis zum aktuellen Flaggschiff GLM-5.1 reicht. Die Serie wurde für die Programmierung, agentenbasierte Workflows und den zweisprachigen chinesisch-englischen Produktionseinsatz entwickelt.
GLM-5.1 erreichte am 7. April 2026 mit einer Punktzahl von 58,4 den ersten Platz bei SWE-Bench Pro und übertraf damit GPT-5.4 (57,7) und Claude Opus 4.6 (57,3). Mit 68,7 ist es auch bei CyberGym führend. Damit ist es ab dem zweiten Quartal 2026 das am besten bewertete Open-Source-Modell für das Coding in Produktionsumgebungen.
Ja. GLM-5.1 unterstützt eine kontinuierliche autonome Ausführung von bis zu 8 Stunden für eine einzelne Aufgabe ohne menschliche Eingaben. Es übernimmt die gesamte Schleife aus Planung, Ausführung, iterativer Optimierung und Bereitstellung. Dies wurde speziell für langfristige Coding-Agent-Workflows in Umgebungen wie Claude Code und OpenClaw-kompatiblen Setups entwickelt.
GLM-5 ist das grundlegende Foundation-Modell, das auf einer MoE-Architektur mit 744 Milliarden Parametern basiert, mit 28,5 Billionen Token trainiert wurde und auf der Chatbot Arena Platz 1 im Elo-Ranking für Open-Source-Modelle erreichte. GLM-5.1 ist ein Post-Training-Upgrade derselben Basis mit deutlich stärkeren Fähigkeiten in den Bereichen Programmierung, Werkzeugnutzung und autonome Ausführung. GLM-5 kostet 0,95 $ pro Million Eingabe-Token in der Atlas Cloud; GLM-5.1 kostet 1,26 $ pro Million Eingabe-Token.
Ja. GLM-5.1 wird unter einer MIT-Lizenz veröffentlicht, die kommerzielle Nutzung, Fine-Tuning und Weiterverbreitung ohne Einschränkungen erlaubt. Offene Gewichte stehen für selbst gehostete Deployments zur Verfügung. Atlas Cloud bietet GLM-5.1 via API für Teams an, die einen verwalteten Zugriff ohne Infrastruktur-Overhead bevorzugen.
GLM-4.6, GLM-4.7, GLM-5 und GLM-5.1 unterstützen alle ein Kontextfenster von 202.750 Tokens auf Atlas Cloud. GLM-5 Turbo bildet eine Ausnahme mit einem größeren Kontextfenster von 262.144 Tokens und einer maximalen Ausgabelänge von 131.072 Tokens. GLM-5.1 eignet sich für die Generierung langer Codedateien und erweiterter Ausführungsverfolgungen innerhalb seines Kontextlimits.
Ja. Alle GLM-Modelle sind für Chinesisch und Englisch optimiert und beherrschen beide Sprachen gleichermaßen. Sie können Prompts in beiden Sprachen verfassen und erhalten im Gegenzug eine konstant hohe Ausgabequalität. Dies macht GLM besonders praktisch für Teams, die Produkte entwickeln, welche mit einem einzigen Modell sowohl den chinesischen als auch den internationalen Markt bedienen.
GLM-4.7 beginnt bei 0,52 $ pro Million Input-Tokens und ist die kosteneffizienteste Stufe. GLM-4.6 kostet 0,60 $, GLM-5 kostet 0,95 $ und GLM-5 Turbo kostet 1,20 $ pro Million Input-Tokens. Das Flaggschiffmodell GLM-5.1 kostet 1,26 $ pro Million Input-Tokens und 3,96 $ pro Million Output-Tokens. Alle Modelle basieren auf einem Pay-as-you-go-Modell ohne monatliche Bindung.
Anleitungen, Tutorials und Produkt-Updates, mit denen Sie das Beste aus Atlas Cloud herausholen.
Join the Discord community for the latest model updates, prompts, and support.