
O Atlas Cloud hospeda toda a série GLM por meio da API Z-AI, desde o GLM-4.6 até o GLM-5.1. Todos os modelos são bilíngues e estão disponíveis no modelo de pagamento conforme o uso com uma janela de contexto de 202K.
Impulsione chat, raciocínio e agentes em larga escala com os principais grandes modelos de linguagem, entregues de forma rápida e acessível na Atlas Cloud.
Compare standard vs. our pricing across every Z.ai model.
| Model | Standard Price (USD) | Our Price (USD) | Discount | |
|---|---|---|---|---|
| GLM 5.1 | $1.4/$4.4per 1M tokens202.8K context | $1.26/$3.96M in/outper 1M tokens202.8K context | -10% | View |
| GLM 5 Turbo | $1.2/$4per 1M tokens262.1K context | $1.2/$4M in/outper 1M tokens262.1K context | — | View |
| GLM 5 | $1/$3.2per 1M tokens202.8K context | $0.95/$3.15M in/outper 1M tokens202.8K context | — | View |
| GLM 4.7 | $0.6/$2.2per 1M tokens202.8K context | $0.52/$1.85M in/outper 1M tokens202.8K context | — | View |
| GLM 4.6 | $0.6/$2.2per 1M tokens202.8K context | $0.6/$2.2M in/outper 1M tokens202.8K context | — | View |
Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.
Os níveis de modelo do GLM cobrem tudo, desde tarefas rápidas de chat bilíngue até agentes de codificação autônomos de várias horas. As equipes usam o GLM-5.1 para trabalhos de engenharia de longo prazo e o GLM-4.7 ou GLM-5 Turbo onde a eficiência de custos e a velocidade são prioridades.
Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.
As equipes de desenvolvimento usam o GLM-5.1 para executar transformações completas em bases de código durante sessões de várias horas sem pontos de verificação humanos. O modelo planeja, escreve, testa e itera as mudanças continuamente por até 8 horas, lidando com 655 iterações em uma demonstração de construção de um sistema Linux do zero. Isso substitui semanas de trabalho manual de refatoração em bases de código grandes e legadas.
As equipes de ferramentas para desenvolvedores integram o GLM-5.1 e o GLM-5 Turbo como o modelo subjacente para fluxos de trabalho de codificação de IA no Claude Code, Kilo Code, Cline, Roo Code e OpenCode. A Z-AI API na Atlas Cloud é compatível com a OpenAI, portanto, a troca da base URL é a única alteração necessária para rotear qualquer uma dessas ferramentas pelo GLM. A janela de contexto de 262K do GLM-5 Turbo o torna especialmente adequado para o contexto de arquivos grandes em fluxos de trabalho de IDE.
As equipes de operações constroem agentes de suporte usando GLM-5 que combinam acesso ao banco de dados de chamados, pesquisa na base de conhecimento e ferramentas de escalonamento para lidar com consultas repetitivas sem intervenção humana. A capacidade de chamada de múltiplas ferramentas e o suporte a streaming do modelo o tornam prático para implantações em tempo real voltadas para o cliente. O suporte bilíngue significa que o mesmo agente lida com chamados em chinês e inglês a partir de um único endpoint de modelo no Atlas Cloud.
As equipes de conteúdo e negócios usam o GLM-4.7 para gerar documentos do Word, apresentações do PowerPoint, PDFs e relatórios do Excel tanto em chinês quanto em inglês a partir de prompts estruturados. A US$ 0,52 por milhão de tokens de entrada, é o nível GLM mais econômico para fluxos de trabalho de documentos de alto volume que não exigem raciocínio de nível de fronteira. A janela de contexto de 202K é suficiente para conter esboços completos de documentos e material de origem em uma única chamada.
As equipes de infraestrutura de IA usam o GLM-5.1 para executar pipelines de otimização orientados por benchmarks em cargas de trabalho de aprendizado de máquina. Em tarefas no estilo KernelBench, o GLM-5.1 realiza milhares de ciclos de otimização orientados por ferramentas e alcança uma aceleração média geométrica de 3,6x. A capacidade de execução contínua de 8 horas significa que o agente executa o loop de otimização completo sem exigir reinicializações manuais entre as sessões.
A Z-AI (também escrita como Z.ai) é a desenvolvedora por trás da série GLM de grandes modelos de linguagem, também conhecida como ZhipuAI. GLM significa Modelo de Linguagem Geral (General Language Model), uma família que abrange desde o GLM-4.6 até o atual modelo principal, o GLM-5.1. A série foi desenvolvida para programação, fluxos de trabalho baseados em agentes e uso em ambientes de produção bilíngues chinês-inglês.
O GLM-5.1 alcançou o primeiro lugar no SWE-Bench Pro com uma pontuação de 58,4 em 7 de abril de 2026, superando o GPT-5.4 (57,7) e o Claude Opus 4.6 (57,3). Ele também lidera o CyberGym com 68,7. Isso o torna o modelo de código aberto com a melhor classificação para codificação em ambiente de produção a partir do segundo trimestre de 2026.
Sim. O GLM-5.1 suporta execução autônoma contínua por até 8 horas em uma única tarefa sem intervenção humana. Ele gerencia o ciclo completo de planejamento, execução, otimização iterativa e entrega. Isso foi projetado especificamente para fluxos de trabalho de agentes de codificação de longo prazo em ambientes como Claude Code e configurações compatíveis com OpenClaw.
O GLM-5 é o modelo fundacional base construído sobre uma arquitetura MoE de 744 bilhões de parâmetros, treinado com 28,5 trilhões de tokens, e alcançou o 1º lugar em Elo no Chatbot Arena para modelos de código aberto. O GLM-5.1 é uma atualização pós-treinamento da mesma base com capacidades significativamente mais fortes de codificação, uso de ferramentas e execução autônoma. O GLM-5 tem o preço de US$ 0,95 por milhão de tokens de entrada na Atlas Cloud; o GLM-5.1 custa US$ 1,26 por milhão de tokens de entrada.
Sim. O GLM-5.1 é lançado sob uma licença MIT, que permite uso comercial, ajuste fino e redistribuição sem restrições. Os pesos abertos estão disponíveis para implantação auto-hospedada. A Atlas Cloud fornece o GLM-5.1 via API para equipes que preferem acesso gerenciado sem sobrecarga de infraestrutura.
GLM-4.6, GLM-4.7, GLM-5 e GLM-5.1 suportam uma janela de contexto de 202.750 tokens no Atlas Cloud. O GLM-5 Turbo é a exceção, com uma janela de contexto maior de 262.144 tokens e um comprimento máximo de saída de 131.072 tokens. O GLM-5.1 é adequado para gerar arquivos de código longos e rastreamentos de execução estendidos dentro do seu limite de contexto.
Sim. Todos os modelos GLM são otimizados para chinês e inglês com igual proficiência em ambos os idiomas. Você pode escrever prompts em qualquer um dos idiomas e receber resultados de qualidade consistente em troca. Isso torna o GLM prático para equipes que desenvolvem produtos que atendem tanto ao mercado chinês quanto ao internacional a partir de um único modelo.
O GLM-4.7 começa em US$ 0,52 por milhão de tokens de entrada e é o nível mais econômico. O GLM-4.6 custa US$ 0,60, o GLM-5 custa US$ 0,95 e o GLM-5 Turbo custa US$ 1,20 por milhão de tokens de entrada. O GLM-5.1, o modelo principal, custa US$ 1,26 por milhão de tokens de entrada e US$ 3,96 por milhão de tokens de saída. Todos os modelos funcionam com base no sistema pay-as-you-go, sem compromisso mensal.
Guias, tutoriais e novidades de produto para você aproveitar ao máximo a Atlas Cloud.
Join the Discord community for the latest model updates, prompts, and support.