Z.ai API for Top Open-Source GLM Coding

A API da Z.ai leva toda a série GLM da ZhipuAI para a sua pilha tecnológica, do GLM-4.6 ao modelo principal GLM-5.1, que ocupa o primeiro lugar entre os modelos open-source no SWE-Bench Pro e executa agentes de programação autónomos durante horas seguidas. O GLM combina um contexto de 202K tokens com saída equilibrada em chinês e inglês sob uma licença MIT permissiva. O Atlas Cloud disponibiliza cada modelo através de uma única chave compatível com OpenAI, com acesso no Day-0 e preços transparentes por chamada. Comece hoje.

Large Language Models by Z.ai

Impulsione chat, raciocínio e agentes em larga escala com os principais grandes modelos de linguagem, entregues de forma rápida e acessível na Atlas Cloud.

Ver todos os modelos

LLM

GLM

GLM é a principal série de LLMs da Z.ai, da Zhipu AI, e a GLM API abrange desde o GLM-5 agêntico até o eficiente GLM-4.6 MoE de 357B. Esses modelos são especializados em execução autônoma de tarefas, orquestração complexa de agentes e programação em nível de produção. No Atlas Cloud, um único endpoint unificado oferece acesso Day-0 a toda a família GLM, com preços baseados no uso e disponibilidade confiável para produção. Comece a criar hoje mesmo.

6 modelosExplorar GLM

Z.ai Models API Pricing Details

Compare standard vs. our pricing across every Z.ai model.

Model	Standard Price (USD)	Our Price (USD)	Discount
GLM 5.2	$1.4/$4.4per 1M tokens1048.6K context	$1.26/$3.96M in/outper 1M tokens1048.6K context	-10%	View
GLM 5.1	$1.4/$4.4per 1M tokens202.8K context	$1.26/$3.96M in/outper 1M tokens202.8K context	-10%	View
GLM 5v Turbo	$1.2/$4per 1M tokens202.8K context	$1.2/$4M in/outper 1M tokens202.8K context	—	View
GLM 5	$1/$3.2per 1M tokens202.8K context	$0.95/$3.15M in/outper 1M tokens202.8K context	—	View
GLM 4.7	$0.6/$2.2per 1M tokens202.8K context	$0.52/$1.85M in/outper 1M tokens202.8K context	—	View
GLM 4.6	$0.6/$2.2per 1M tokens202.8K context	$0.6/$2.2M in/outper 1M tokens202.8K context	—	View

Explore models from other providers

Instantly explore and experiment with 400+ production-ready models in the Atlas Playground. Start customizing with one click.

xAI

Casos de uso da Z-AI API que você pode construir na Atlas Cloud

Os níveis de modelo do GLM cobrem tudo, desde tarefas rápidas de chat bilíngue até agentes de codificação autônomos de várias horas. As equipes usam o GLM-5.1 para trabalhos de engenharia de longo prazo e o GLM-4.7 ou GLM-5 Turbo onde a eficiência de custos e a velocidade são prioridades.

Otimização de desempenho de banco de dados a longo prazo

Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.

Refatoração Autônoma de Código em Escala de Repositório

As equipes de desenvolvimento usam o GLM-5.1 para executar transformações completas em bases de código durante sessões de várias horas sem pontos de verificação humanos. O modelo planeja, escreve, testa e itera as mudanças continuamente por até 8 horas, lidando com 655 iterações em uma demonstração de construção de um sistema Linux do zero. Isso substitui semanas de trabalho manual de refatoração em bases de código grandes e legadas.

Integração de Agente de Codificação no IDE

As equipes de ferramentas para desenvolvedores integram o GLM-5.1 e o GLM-5 Turbo como o modelo subjacente para fluxos de trabalho de codificação de IA no Claude Code, Kilo Code, Cline, Roo Code e OpenCode. A Z-AI API na Atlas Cloud é compatível com a OpenAI, portanto, a troca da base URL é a única alteração necessária para rotear qualquer uma dessas ferramentas pelo GLM. A janela de contexto de 262K do GLM-5 Turbo o torna especialmente adequado para o contexto de arquivos grandes em fluxos de trabalho de IDE.

Automação de Consultas de Suporte de Nível 1

As equipes de operações constroem agentes de suporte usando GLM-5 que combinam acesso ao banco de dados de chamados, pesquisa na base de conhecimento e ferramentas de escalonamento para lidar com consultas repetitivas sem intervenção humana. A capacidade de chamada de múltiplas ferramentas e o suporte a streaming do modelo o tornam prático para implantações em tempo real voltadas para o cliente. O suporte bilíngue significa que o mesmo agente lida com chamados em chinês e inglês a partir de um único endpoint de modelo no Atlas Cloud.

Geração de documentos bilíngues em larga escala

As equipes de conteúdo e negócios usam o GLM-4.7 para gerar documentos do Word, apresentações do PowerPoint, PDFs e relatórios do Excel tanto em chinês quanto em inglês a partir de prompts estruturados. A US$ 0,52 por milhão de tokens de entrada, é o nível GLM mais econômico para fluxos de trabalho de documentos de alto volume que não exigem raciocínio de nível de fronteira. A janela de contexto de 202K é suficiente para conter esboços completos de documentos e material de origem em uma única chamada.

Otimização de Kernel para Cargas de Trabalho de ML

As equipes de infraestrutura de IA usam o GLM-5.1 para executar pipelines de otimização orientados por benchmarks em cargas de trabalho de aprendizado de máquina. Em tarefas no estilo KernelBench, o GLM-5.1 realiza milhares de ciclos de otimização orientados por ferramentas e alcança uma aceleração média geométrica de 3,6x. A capacidade de execução contínua de 8 horas significa que o agente executa o loop de otimização completo sem exigir reinicializações manuais entre as sessões.

Transforme a visão da sua empresa em realidade com a Atlas Cloud AI.

Fale com vendas

O que os desenvolvedores perguntam sobre a Z.ai API

A Z.ai API dá aos desenvolvedores acesso programático à série GLM de grandes modelos de linguagem criados pela Z.ai, a empresa também conhecida como Zhipu AI. GLM significa General Language Model e abrange versões de GLM-4.6 até o carro-chefe GLM-5.1, ajustadas para programação, fluxos de trabalho agênticos e uso em produção bilíngue em chinês e inglês. No Atlas Cloud, você acessa toda a linha por meio de um único endpoint compatível com OpenAI.

O Atlas Cloud hospeda a série GLM, de GLM-4.6 até o carro-chefe GLM-5.1, com GLM-4.7 e GLM-5 entre eles. Camadas mais leves lidam com tarefas cotidianas de alto volume a um custo menor, enquanto GLM-5.1 mira os trabalhos de programação e agênticos mais exigentes. Todos os modelos rodam em modalidade pay-as-you-go com a mesma chave.

Sim. Os pesos abertos de GLM, incluindo GLM-5.1, são lançados sob a licença MIT, que permite uso comercial, fine-tuning e redistribuição sem restrições. Se preferir evitar a sobrecarga de infraestrutura, o Atlas Cloud disponibiliza os mesmos modelos por API para acesso gerenciado em vez de self-hosting.

Aponte seu SDK OpenAI existente para a URL base do Atlas Cloud, configure sua chave e passe o nome do modelo GLM que deseja usar. Como a Z.ai API é compatível com OpenAI, a maioria dos projetos migra alterando apenas a URL base e a string do modelo, e os modelos se integram diretamente a ferramentas de agentes como Claude Code, Cline e Roo Code. Comece a criar hoje.

Tanto chinês quanto inglês são idiomas de primeira classe para GLM, que é treinado para ter forte proficiência em ambos. Escreva o prompt em qualquer um dos idiomas e você receberá qualidade consistente, o que torna a linha prática para equipes que atendem usuários chineses e internacionais com um único modelo, em vez de manter stacks separados.

De GLM-4.6 a GLM-5.1, os modelos oferecem suporte a uma janela de contexto de 200K tokens, suficiente para conter grandes codebases, documentos longos ou traces extensos de agentes em uma única requisição. Se o seu fluxo de trabalho gerar saídas longas, a mesma janela cobre arquivos de código grandes e logs de execução em várias etapas sem truncamento antecipado.

GLM-5.1 liderou o SWE-Bench Pro com uma pontuação de 58.4 em abril de 2026, colocando-o entre os modelos open-source mais fortes para programação no mundo real. Ele também oferece suporte à execução autônoma contínua por até oito horas em uma única tarefa, executando planejamento, iteração e entrega em um único loop, o que é adequado para fluxos de trabalho agênticos de longo horizonte em ambientes como Claude Code.

Todos os modelos GLM na Z.ai API usam preços transparentes em modalidade pay-as-you-go, cobrados por token, sem assinatura ou compromisso mensal. Tokens de entrada e saída são medidos separadamente, e camadas mais leves, como GLM-4.7, custam menos por token do que o carro-chefe GLM-5.1, para que você possa alinhar a escolha do modelo ao orçamento. Confira a tarifa atual por token no card de cada modelo no Atlas Cloud.

Explorar Mais Séries

Seedance 2.0

A API do Seedance 2.0 oferece acesso de produção ao modelo de vídeo multimodal da ByteDance — entradas quadrimodais (texto, imagem, vídeo, áudio) e um sistema "Universal Reference" líder do setor que fixa a composição, o movimento da câmera e as ações dos personagens entre as cenas. Integre um controle de nível de diretor com uma única chamada de API, uma taxa fixa de $0,09/s, chave instantânea e sem lista de espera — respaldado por tempo de atividade e conformidade de nível corporativo. O Seedance 2.0 Native 4K já está no ar!

Ver Série

GPT Image 2

A API do GPT Image 2 dá aos desenvolvedores acesso ao mais recente modelo de imagem da OpenAI, o sucessor do GPT Image 1.5. Ele gera e edita imagens com renderização de texto precisa em caracteres latinos e CJK, além de uma forte composição para pôsteres, mockups e infográficos. Na Atlas Cloud, você o acessa através de uma API unificada junto a mais de 300 modelos, com créditos gratuitos, 99,99% de tempo de atividade e sem a necessidade de verificação de organização da OpenAI.

Ver Série

Seedream 5.0 Pro

A API do Seedream 5.0 Pro fornece aos desenvolvedores o modelo de edição de imagens controlável da ByteDance no Atlas Cloud. Ela posiciona as edições com precisão usando âncoras e coordenadas, separa as imagens em camadas editáveis, funde múltiplas referências e combina cores e materiais exatos, com texto multilíngue em 2K e 3K. No Atlas Cloud, você pode acessá-lo por meio de uma única chave!

Ver Série

Gemini Omni Flash

A Gemini Omni API traz para o seu stack o modelo multimodal de geração e edição de vídeo do Google DeepMind, apresentado no Google I/O 2026. O Gemini Omni funde o motor de raciocínio do Gemini com mídia generativa, aceitando qualquer combinação de texto, imagens, vídeo e áudio para produzir resultados consistentes e fundamentados em conhecimento. Refine os resultados por meio de conversas naturais — troque objetos, reescreva cenas e mude estilos, enquanto a física, os personagens e a continuidade permanecem intactos. A Atlas Cloud oferece toda a linha Gemini Omni Flash — texto para vídeo, imagem para vídeo com até 7 imagens de referência e referência para vídeo — por meio de uma única API unificada, com preços transparentes por segundo a partir de $0.112 e sem assinatura. Comece a construir hoje mesmo.

Ver Série

Grok Imagine

A Grok Imagine API oferece aos desenvolvedores a geração de imagens, vídeos e áudio da xAI em um único pacote. Ela produz imagens de até 2K com renderização de texto multilíngue, além de vídeos de até 15 segundos com áudio nativo sincronizado e edição baseada em referências. Na Atlas Cloud, uma única chave executa todos os modos do Grok Imagine, permitindo que você alterne entre imagem, vídeo e áudio sem configurações separadas, a partir de US$ 0,02 por imagem e US$ 0,05 por segundo.

Ver Série

Google

Os modelos criativos mais poderosos do Google estão todos disponíveis na Atlas Cloud. O Veo 3.1 oferece geração de vídeo cinematográfico, o Nano Banana 2 impulsiona a criação de imagens de alta fidelidade e o Gemini traz inteligência multimodal para cada fluxo de trabalho. Acesse o pacote completo de modelos do Google por meio de uma única API key com disponibilidade Day-0 e preços de pagamento conforme o uso (pay-as-you-go).

Ver Série

Seedance 2.0 Mini

O Seedance 2.0 Mini leva a geração de vídeo multimodal da ByteDance para fluxos de trabalho onde a velocidade e o custo são essenciais. Ele oferece os principais recursos do Seedance 2.0 com menor impacto — geração mais rápida, menor custo por vídeo e a mesma integração de API que você já usa. Para equipes que executam pipelines de alto volume ou prototipagem em escala, o Mini é a opção padrão prática.

Ver Série

ByteDance

Da geração de vídeo cinematográfico à criação de imagens de alta fidelidade, os modelos mais poderosos da ByteDance estão disponíveis no Atlas Cloud. Execute o Seedance e o Seedream em grande escala com os preços de inferência mais baixos e zero custos indiretos de infraestrutura.

Ver Série

Alibaba

O Atlas Cloud reúne toda a linha de modelos da Alibaba sob uma única API: Qwen para tarefas de linguagem e imagem, e Wan para geração de vídeo em até 1080p. Acesse cada modelo no formato pré-pago (pay-as-you-go) sem necessidade de assinaturas. A API da Alibaba está disponível por meio de uma única URL base usando seu cliente compatível com OpenAI existente.

Ver Série

OpenAI

O Atlas Cloud oferece acesso a toda a linha da API da OpenAI, desde o GPT Image 2 para geração de imagens até o Sora 2 para vídeo. Todos os modelos estão disponíveis na modalidade de pagamento conforme o uso, sem compromisso mensal. Integre-se trocando apenas uma URL base usando a API compatível com a OpenAI.

Ver Série

xAI

Construa pipelines completos de imagem e vídeo usando a xAI API no Atlas Cloud. Gere em 2K, edite com imagens de referência e anime imagens em clipes sincronizados com áudio.

Ver Série

Kwaivgi

A API da Kwaivgi com preço 15% abaixo do padrão. A Atlas Cloud oferece acesso Day-0 a novos lançamentos da Kling com preços de pagamento conforme o uso e sem limite de assentos. Uma conta, uma chave, todos os modelos da Kling do nível padrão ao nível master.

Ver Série