Z.ai Models on AtlasCloud | GLM

Atlas Cloud hostet die gesamte GLM-Serie über die Z-AI API, von GLM-4.6 bis GLM-5.1. Alle Modelle sind zweisprachig und als Pay-as-you-go-Modell mit einem Kontextfenster von 202K verfügbar.

Large Language Models by Z.ai

Treiben Sie Chat, Reasoning und Agenten im großen Maßstab mit führenden großen Sprachmodellen an – schnell und kostengünstig bereitgestellt auf Atlas Cloud.

Alle Modelle ansehen

Z.ai Models API Pricing Details

Compare standard vs. our pricing across every Z.ai model.

ModelStandard Price (USD)Our Price (USD)Discount
GLM 5.1
$1.4/$4.4per 1M tokens202.8K context
$1.26/$3.96M in/outper 1M tokens202.8K context
-10%View
GLM 5 Turbo
$1.2/$4per 1M tokens262.1K context
$1.2/$4M in/outper 1M tokens262.1K context
View
GLM 5
$1/$3.2per 1M tokens202.8K context
$0.95/$3.15M in/outper 1M tokens202.8K context
View
GLM 4.7
$0.6/$2.2per 1M tokens202.8K context
$0.52/$1.85M in/outper 1M tokens202.8K context
View
GLM 4.6
$0.6/$2.2per 1M tokens202.8K context
$0.6/$2.2M in/outper 1M tokens202.8K context
View

Explore models from other providers

Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.

Z-AI API-Anwendungsfälle, die Sie auf Atlas Cloud erstellen können

Die Modellstufen von GLM decken alles ab, von schnellen zweisprachigen Chat-Aufgaben bis hin zu mehrstündigen autonomen Coding-Agenten. Teams verwenden GLM-5.1 für langfristige Ingenieursarbeiten und GLM-4.7 oder GLM-5 Turbo, wenn Kosteneffizienz und Geschwindigkeit im Vordergrund stehen.

Langfristige Datenbank-Leistungsoptimierung

Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.

Autonomes Code-Refactoring auf Repository-Ebene

Entwicklungsteams nutzen GLM-5.1, um vollständige Codebasis-Transformationen über mehrstündige Sitzungen hinweg ohne menschliche Checkpoints durchzuführen. Das Modell plant, schreibt, testet und iteriert Änderungen kontinuierlich für bis zu 8 Stunden und verarbeitete in einer demonstrierten Erstellung eines Linux-Systems von Grund auf 655 Iterationen. Dies ersetzt wochenlange manuelle Refactoring-Arbeit an großen, Legacy-Codebasen.

IDE-Coding-Agent-Integration

Entwicklertools-Teams integrieren GLM-5.1 und GLM-5 Turbo als zugrunde liegendes Modell für KI-Programmier-Workflows in Claude Code, Kilo Code, Cline, Roo Code und OpenCode. Die Z-AI API auf Atlas Cloud ist OpenAI-kompatibel, sodass der Austausch der base URL die einzige Änderung ist, die erforderlich ist, um eines dieser Tools über GLM zu leiten. Das 262K-Kontextfenster von GLM-5 Turbo macht es besonders geeignet für großen Dateikontext in IDE-Workflows.

Automatisierung von Tier-1-Supportanfragen

Betriebsteams entwickeln mit GLM-5 Support-Agenten, die den Zugriff auf die Ticket-Datenbank, die Suche in der Wissensdatenbank und Eskalationswerkzeuge kombinieren, um wiederkehrende Anfragen ohne menschliches Eingreifen zu bearbeiten. Die Multi-Tool-Aufrufe und die Streaming-Unterstützung des Modells machen es praktisch für Echtzeit-Einsätze mit Kundenkontakt. Durch die zweisprachige Unterstützung bearbeitet derselbe Agent chinesische und englische Tickets über einen einzigen Modell-Endpoint auf Atlas Cloud.

Zweisprachige Dokumentengenerierung in großem Maßstab

Content- und Business-Teams nutzen GLM-4.7, um aus strukturierten Prompts Word-Dokumente, PowerPoint-Präsentationen, PDFs und Excel-Berichte sowohl in Chinesisch als auch in Englisch zu erstellen. Mit 0,52 $ pro Million Input-Tokens ist es die kosteneffizienteste GLM-Stufe für hochvolumige Dokumenten-Workflows, die keine Argumentation auf Frontier-Niveau erfordern. Das Kontextfenster von 202K reicht aus, um vollständige Dokumentstrukturen und Quellmaterial in einem einzigen Aufruf zu erfassen.

Kernel-Optimierung für ML-Workloads

KI-Infrastrukturteams nutzen GLM-5.1, um Benchmark-gesteuerte Optimierungspipelines für Machine-Learning-Workloads auszuführen. Bei Aufgaben im KernelBench-Stil führt GLM-5.1 Tausende von werkzeuggesteuerten Optimierungszyklen durch und erzielt eine 3,6-fache geometrische mittlere Beschleunigung. Die 8-stündige kontinuierliche Ausführungskapazität bedeutet, dass der Agent die vollständige Optimierungsschleife ausführt, ohne dass manuelle Neustarts zwischen den Sitzungen erforderlich sind.

Verwandeln Sie Ihre Unternehmensvision mit Atlas Cloud AI in Realität.

Vertrieb kontaktieren

Häufig gestellte Fragen zu Z.ai-Modellen

Z-AI (auch Z.ai geschrieben) ist der Entwickler hinter der GLM-Serie von großen Sprachmodellen, die auch als ZhipuAI bekannt ist. GLM steht für General Language Model, eine Modellfamilie, die von GLM-4.6 bis zum aktuellen Flaggschiff GLM-5.1 reicht. Die Serie wurde für die Programmierung, agentenbasierte Workflows und den zweisprachigen chinesisch-englischen Produktionseinsatz entwickelt.

GLM-5.1 erreichte am 7. April 2026 mit einer Punktzahl von 58,4 den ersten Platz bei SWE-Bench Pro und übertraf damit GPT-5.4 (57,7) und Claude Opus 4.6 (57,3). Mit 68,7 ist es auch bei CyberGym führend. Damit ist es ab dem zweiten Quartal 2026 das am besten bewertete Open-Source-Modell für das Coding in Produktionsumgebungen.

Ja. GLM-5.1 unterstützt eine kontinuierliche autonome Ausführung von bis zu 8 Stunden für eine einzelne Aufgabe ohne menschliche Eingaben. Es übernimmt die gesamte Schleife aus Planung, Ausführung, iterativer Optimierung und Bereitstellung. Dies wurde speziell für langfristige Coding-Agent-Workflows in Umgebungen wie Claude Code und OpenClaw-kompatiblen Setups entwickelt.

GLM-5 ist das grundlegende Foundation-Modell, das auf einer MoE-Architektur mit 744 Milliarden Parametern basiert, mit 28,5 Billionen Token trainiert wurde und auf der Chatbot Arena Platz 1 im Elo-Ranking für Open-Source-Modelle erreichte. GLM-5.1 ist ein Post-Training-Upgrade derselben Basis mit deutlich stärkeren Fähigkeiten in den Bereichen Programmierung, Werkzeugnutzung und autonome Ausführung. GLM-5 kostet 0,95 $ pro Million Eingabe-Token in der Atlas Cloud; GLM-5.1 kostet 1,26 $ pro Million Eingabe-Token.

Ja. GLM-5.1 wird unter einer MIT-Lizenz veröffentlicht, die kommerzielle Nutzung, Fine-Tuning und Weiterverbreitung ohne Einschränkungen erlaubt. Offene Gewichte stehen für selbst gehostete Deployments zur Verfügung. Atlas Cloud bietet GLM-5.1 via API für Teams an, die einen verwalteten Zugriff ohne Infrastruktur-Overhead bevorzugen.

GLM-4.6, GLM-4.7, GLM-5 und GLM-5.1 unterstützen alle ein Kontextfenster von 202.750 Tokens auf Atlas Cloud. GLM-5 Turbo bildet eine Ausnahme mit einem größeren Kontextfenster von 262.144 Tokens und einer maximalen Ausgabelänge von 131.072 Tokens. GLM-5.1 eignet sich für die Generierung langer Codedateien und erweiterter Ausführungsverfolgungen innerhalb seines Kontextlimits.

Ja. Alle GLM-Modelle sind für Chinesisch und Englisch optimiert und beherrschen beide Sprachen gleichermaßen. Sie können Prompts in beiden Sprachen verfassen und erhalten im Gegenzug eine konstant hohe Ausgabequalität. Dies macht GLM besonders praktisch für Teams, die Produkte entwickeln, welche mit einem einzigen Modell sowohl den chinesischen als auch den internationalen Markt bedienen.

GLM-4.7 beginnt bei 0,52 $ pro Million Input-Tokens und ist die kosteneffizienteste Stufe. GLM-4.6 kostet 0,60 $, GLM-5 kostet 0,95 $ und GLM-5 Turbo kostet 1,20 $ pro Million Input-Tokens. Das Flaggschiffmodell GLM-5.1 kostet 1,26 $ pro Million Input-Tokens und 3,96 $ pro Million Output-Tokens. Alle Modelle basieren auf einem Pay-as-you-go-Modell ohne monatliche Bindung.

Weitere Familien Erkunden

Seedance 2.0 Models

Seedance 2.0(by Bytedance) is a multimodal video generation model that redefines "controllable creation," moving beyond the limitations of text or start/end frames. It supports quad-modal inputs—text, image, video, and audio—and introduces an industry-leading "Universal Reference" system. By precisely replicating the composition, camera movement, and character actions from reference assets, Seedance 2.0 solves critical issues with character consistency and physical coherence, empowering creators to act as true "directors" with deep control over their output.

Familie Anzeigen

Grok-Imagine Models

Grok Imagine Image Quality is xAI's latest AI image generation model, delivering studio-grade visuals with up to 2K resolution and razor-sharp detail. It offers best-in-class text rendering across multiple languages, photorealistic outputs with natural lighting, rich textures, and believable physics, plus tighter prompt following and image editing with reference inputs for precise creative control. Ideal for hero images, ad creatives, product renders, and brand-grade visuals.

Familie Anzeigen

Gemini Omni

Gemini Omni (by Google DeepMind) is a video generation and editing model launched on May 20, 2026 at Google I/O that redefines the standard for "reasoning-driven creation," built specifically to solve the core challenge of AI video: making output that actually understands what you mean, not just what you type. It fuses Gemini's reasoning engine with generative capability, accepting any mix of images, text, video, and audio to produce consistent, knowledge-grounded output. Unlike models that start from scratch each time, Omni lets you edit through natural conversation — swapping objects, rewriting scenes, shifting styles — while keeping physics, characters, and continuity intact across every turn.

Familie Anzeigen

GPT Image 2 Models

GPT Image 2 is a state-of-the-art multimodal foundation model engineered for exceptional text-to-image generation with unprecedented photorealism and creative versatility. Developed by OpenAI as the evolution of the DALL-E lineage, it transforms detailed natural language descriptions into hyper-realistic imagery at up to 4K resolution. With proprietary "Neural Rendering Engine" technology for precise visual control, GPT Image 2 delivers studio-quality results with accurate anatomy, lighting, and composition—making it the premier AI tool for professional creators, enterprises, and developers demanding production-ready visual assets.

Familie Anzeigen

Google Models on Atlas Cloud | Gemini, Nano Bananas & Veo

Die leistungsstärksten kreativen Modelle von Google sind alle auf Atlas Cloud verfügbar. Veo 3.1 liefert kinoreife Videogenerierung, Nano Banana 2 ermöglicht die Erstellung von High-Fidelity-Bildern und Gemini bringt multimodale Intelligenz in jeden Workflow. Greifen Sie über einen einzigen API key mit Day-0-Verfügbarkeit und Pay-as-you-go-Preisen auf die vollständige Google-Modellsuite zu.

Familie Anzeigen

ByteDance Models on Atlas Cloud | Seedance & Seedream

Von der Generierung kinoreifer Videos bis zur Erstellung von High-Fidelity-Bildern sind die leistungsstärksten Modelle von ByteDance jetzt auf der Atlas Cloud verfügbar. Führen Sie Seedance und Seedream in großem Maßstab zu den niedrigsten Inferenzpreisen und ohne Infrastruktur-Overhead aus.

Familie Anzeigen

Alibaba Models on Atlas Cloud | Wan & Qwen

Atlas Cloud vereint das gesamte Modell-Lineup von Alibaba unter einer einzigen API: Qwen für Sprach- und Bildaufgaben sowie Wan für die Videogenerierung mit bis zu 1080p. Greifen Sie auf jedes Modell im Pay-as-you-go-Verfahren ohne Abonnements zu. Die Alibaba API ist über eine einzige Base-URL mit Ihrem bestehenden OpenAI-kompatiblen Client verfügbar.

Familie Anzeigen

MAI Image 2.5 Models

MAI-Image-2.5 ist die neueste Familie von Microsofts Modellen zur fotorealistischen Bilderzeugung und -bearbeitung, die für kommerzielles Design, Produktfotografie und markenreife Inhaltserstellung entwickelt wurde. Sie ist in den Varianten Standard und Flash sowohl für Text-zu-Bild als auch für die Bildbearbeitung verfügbar und liefert branchenbeste Arena ELO-Werte zu wettbewerbsfähigen Preisen – ab 0,03 $ pro Bild. Mit präzisem Text-Rendering, chirurgischer Bearbeitungsfähigkeit und natürlicher Porträtgenerierung wurde MAI-Image-2.5 für Teams entwickelt, die visuelle Inhalte in Produktionsqualität ohne den Aufwand einer Nachbearbeitung benötigen.

Familie Anzeigen

Wan2.7 Models

Launching this March, Wan2.7 is the latest powerhouse in the Qwen ecosystem, delivering a massive upgrade in visual fidelity, audio synchronization, and motion consistency over version 2.6. This all-in-one AI video generator supports advanced features like first-and-last frame control, 3x3 grid synthesis, and instruction-based video editing. Outperforming competitors like Jimeng, Wan2.7 offers superior flexibility with support for real-person image inputs, up to five video references, and 1080P high-definition outputs spanning 2 to 15 seconds, making it the premier choice for professional digital storytelling and high-end content marketing.

Familie Anzeigen

Nano Banana2 Models

Nano Banana 2 (by Google), is a generative image model that perfectly balances lightning-fast rendering with exceptional visual quality. With an improved price-performance ratio, it achieves breakthrough micro-detail depiction, accurate native text rendering, and complex physical structure reconstruction. It serves as a highly efficient, commercial-grade visual production tool for developers, marketing teams, and content creators.

Familie Anzeigen

Doubao Models

Doubao ist die Familie großer Sprachmodelle von ByteDance, die für logisches Schließen auf Produktionsniveau, Programmierung und hochvolumige agentenbasierte Workloads entwickelt wurde. Mit dem Flaggschiff Seed 2.0 Pro, einer dedizierten Code Preview-Variante, kosteneffizienten Lite- und Mini-Stufen sowie den bewährten Generationen Seed 1.8 und Seed 1.6 bietet die Produktreihe Entwicklern eine einzige, OpenAI-kompatible Schnittstelle, um von modernstem logischem Schließen bis hin zu latenzempfindlichen Aufgaben mit hohem Durchsatz zu skalieren. Jedes Doubao-Modell auf der Atlas Cloud verfügt über ein Kontextfenster von 256K Tokens, Streaming und sofort einsatzbereite SDK-Kompatibilität – so können Sie für jede Aufgabe das richtige Modell auswählen, ohne Ihren Stack neu schreiben zu müssen.

Familie Anzeigen

Hunyuan 3D Generation Models

Hunyuan3D is a state-of-the-art 3D generative foundation model from Tencent that turns text prompts and single images into high-quality, textured 3D meshes. Built on a two-stage pipeline—Hunyuan3D-DiT for shape generation via flow-matching diffusion and Hunyuan3D-Paint for multi-view texture synthesis—it produces clean geometry with full PBR materials ready for game engines, AR/VR, 3D printing, and DCC tools. Available in Pro (up to 1.5M faces, 4K PBR textures) and Rapid (2–3 minute lightweight generation) tiers, with both Text-to-3D and Image-to-3D entry points, Hunyuan3D is the premier AI 3D toolkit for game developers, e-commerce teams, and 3D content studios. Generations start at $0.02 each.

Familie Anzeigen

Empfohlene Artikel

Anleitungen, Tutorials und Produkt-Updates, mit denen Sie das Beste aus Atlas Cloud herausholen.

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.