
Atlas Cloud ospita l'intera serie GLM tramite l'API Z-AI, da GLM-4.6 a GLM-5.1. Tutti i modelli sono bilingue e disponibili in modalità pay-as-you-go con una finestra di contesto di 202K.
Alimenta chat, ragionamento e agenti su larga scala con i migliori modelli linguistici di grandi dimensioni, erogati in modo rapido ed economico su Atlas Cloud.
Compare standard vs. our pricing across every Z.ai model.
| Model | Standard Price (USD) | Our Price (USD) | Discount | |
|---|---|---|---|---|
| GLM 5.1 | $1.4/$4.4per 1M tokens202.8K context | $1.26/$3.96M in/outper 1M tokens202.8K context | -10% | View |
| GLM 5 Turbo | $1.2/$4per 1M tokens262.1K context | $1.2/$4M in/outper 1M tokens262.1K context | — | View |
| GLM 5 | $1/$3.2per 1M tokens202.8K context | $0.95/$3.15M in/outper 1M tokens202.8K context | — | View |
| GLM 4.7 | $0.6/$2.2per 1M tokens202.8K context | $0.52/$1.85M in/outper 1M tokens202.8K context | — | View |
| GLM 4.6 | $0.6/$2.2per 1M tokens202.8K context | $0.6/$2.2M in/outper 1M tokens202.8K context | — | View |
Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.
I livelli dei modelli di GLM coprono tutto, dalle rapide attività di chat bilingue agli agenti di codifica autonomi di diverse ore. I team utilizzano GLM-5.1 per lavori di ingegneria a lungo termine e GLM-4.7 o GLM-5 Turbo quando l'efficienza dei costi e la velocità sono prioritarie.
Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.
I team di sviluppo utilizzano GLM-5.1 per eseguire trasformazioni complete delle codebase in sessioni di diverse ore senza checkpoint umani. Il modello pianifica, scrive, testa e itera le modifiche continuamente fino a 8 ore, gestendo 655 iterazioni in una dimostrazione di costruzione di un sistema Linux da zero. Questo sostituisce settimane di lavoro di refactoring manuale su codebase grandi e legacy.
I team di strumenti per sviluppatori integrano GLM-5.1 e GLM-5 Turbo come modello sottostante per i flussi di lavoro di codifica basati sull'IA in Claude Code, Kilo Code, Cline, Roo Code e OpenCode. La Z-AI API su Atlas Cloud è compatibile con OpenAI, quindi la sostituzione della base URL è l'unica modifica necessaria per indirizzare uno qualsiasi di questi strumenti tramite GLM. La finestra di contesto da 262K di GLM-5 Turbo lo rende particolarmente adatto per il contesto di file di grandi dimensioni nei flussi di lavoro degli IDE.
I team operativi creano agenti di supporto utilizzando GLM-5 che combinano l'accesso al database dei ticket, la ricerca nella knowledge base e gli strumenti di escalation per gestire query ripetitive senza intervento umano. Le funzionalità di chiamata multi-strumento e il supporto streaming del modello lo rendono pratico per le implementazioni in tempo reale rivolte ai clienti. Il supporto bilingue significa che lo stesso agente gestisce i ticket in cinese e inglese da un singolo endpoint del modello su Atlas Cloud.
I team di contenuti e aziendali utilizzano GLM-4.7 per generare documenti Word, presentazioni PowerPoint, PDF e report Excel sia in cinese che in inglese a partire da prompt strutturati. A 0,52 $ per milione di token di input, è il livello GLM più conveniente per flussi di lavoro di documenti ad alto volume che non richiedono ragionamenti di livello frontier. La finestra di contesto di 202K è sufficiente per contenere schemi di documenti completi e materiale sorgente in una singola chiamata.
I team di infrastruttura IA utilizzano GLM-5.1 per eseguire pipeline di ottimizzazione guidate da benchmark su carichi di lavoro di machine learning. Su attività in stile KernelBench, GLM-5.1 esegue migliaia di cicli di ottimizzazione guidati da strumenti e ottiene un'accelerazione media geometrica di 3,6x. La capacità di esecuzione continua di 8 ore significa che l'agente esegue l'intero ciclo di ottimizzazione senza richiedere riavvii manuali tra una sessione e l'altra.
Z-AI (scritto anche come Z.ai) è lo sviluppatore dietro la serie GLM di modelli linguistici di grandi dimensioni, nota anche come ZhipuAI. GLM sta per Modello Linguistico Generale (General Language Model), una famiglia che spazia dal GLM-4.6 all'attuale modello di punta GLM-5.1. La serie è progettata per la programmazione, i flussi di lavoro basati su agenti e l'uso in produzione bilingue cinese-inglese.
GLM-5.1 ha raggiunto il primo posto su SWE-Bench Pro con un punteggio di 58,4 il 7 aprile 2026, superando GPT-5.4 (57,7) e Claude Opus 4.6 (57,3). È anche al primo posto su CyberGym con 68,7. Questo lo rende il modello open-source con il punteggio più alto per la programmazione in produzione a partire dal secondo trimestre del 2026.
Sì. GLM-5.1 supporta l'esecuzione autonoma continua fino a 8 ore su una singola attività senza alcun input umano. Gestisce l'intero ciclo di pianificazione, esecuzione, ottimizzazione iterativa e consegna. Questo è progettato specificamente per i flussi di lavoro di agenti di codifica a lungo termine in ambienti come Claude Code e configurazioni compatibili con OpenClaw.
GLM-5 è il modello fondazionale di base costruito su un'architettura MoE da 744 miliardi di parametri, addestrato su 28,5 trilioni di token, e ha raggiunto il primo posto nella classifica Elo su Chatbot Arena per i modelli open source. GLM-5.1 è un aggiornamento post-addestramento della stessa base con capacità di programmazione, uso di strumenti ed esecuzione autonoma significativamente potenziate. GLM-5 ha un prezzo di 0,95 $ per milione di token di input su Atlas Cloud; GLM-5.1 ha un prezzo di 1,26 $ per milione di token di input.
Sì. GLM-5.1 è rilasciato con licenza MIT, che consente l'uso commerciale, il fine-tuning e la ridistribuzione senza restrizioni. I pesi aperti sono disponibili per l'implementazione self-hosted. Atlas Cloud fornisce GLM-5.1 tramite API per i team che preferiscono l'accesso gestito senza i costi generali dell'infrastruttura.
GLM-4.6, GLM-4.7, GLM-5 e GLM-5.1 supportano tutti una finestra di contesto di 202.750 token su Atlas Cloud. GLM-5 Turbo fa eccezione con una finestra di contesto più ampia di 262.144 token e una lunghezza di output massima di 131.072 token. GLM-5.1 è adatto per generare file di codice lunghi e tracce di esecuzione estese entro il suo limite di contesto.
Sì. Tutti i modelli GLM sono ottimizzati per il cinese e l'inglese con uguale competenza in entrambe le lingue. È possibile scrivere prompt in entrambe le lingue e ricevere in cambio output di qualità costante. Ciò rende GLM una soluzione pratica per i team che sviluppano prodotti destinati sia al mercato cinese che a quello internazionale utilizzando un unico modello.
GLM-4.7 parte da 0,52 $ per milione di token di input ed è il livello più conveniente. GLM-4.6 costa 0,60 $, GLM-5 costa 0,95 $ e GLM-5 Turbo costa 1,20 $ per milione di token di input. GLM-5.1, il modello di punta, costa 1,26 $ per milione di token di input e 3,96 $ per milione di token di output. Tutti i modelli sono a consumo (pay-as-you-go) e non prevedono alcun impegno mensile.
Guide, tutorial e novità di prodotto per sfruttare al meglio Atlas Cloud.
Join the Discord community for the latest model updates, prompts, and support.