Z.ai Models on AtlasCloud | GLM

O Atlas Cloud hospeda toda a série GLM por meio da API Z-AI, desde o GLM-4.6 até o GLM-5.1. Todos os modelos são bilíngues e estão disponíveis no modelo de pagamento conforme o uso com uma janela de contexto de 202K.

Large Language Models by Z.ai

Impulsione chat, raciocínio e agentes em larga escala com os principais grandes modelos de linguagem, entregues de forma rápida e acessível na Atlas Cloud.

Ver todos os modelos

Z.ai Models API Pricing Details

Compare standard vs. our pricing across every Z.ai model.

ModelStandard Price (USD)Our Price (USD)Discount
GLM 5.1
$1.4/$4.4per 1M tokens202.8K context
$1.26/$3.96M in/outper 1M tokens202.8K context
-10%View
GLM 5 Turbo
$1.2/$4per 1M tokens262.1K context
$1.2/$4M in/outper 1M tokens262.1K context
View
GLM 5
$1/$3.2per 1M tokens202.8K context
$0.95/$3.15M in/outper 1M tokens202.8K context
View
GLM 4.7
$0.6/$2.2per 1M tokens202.8K context
$0.52/$1.85M in/outper 1M tokens202.8K context
View
GLM 4.6
$0.6/$2.2per 1M tokens202.8K context
$0.6/$2.2M in/outper 1M tokens202.8K context
View

Explore models from other providers

Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.

Casos de uso da Z-AI API que você pode construir na Atlas Cloud

Os níveis de modelo do GLM cobrem tudo, desde tarefas rápidas de chat bilíngue até agentes de codificação autônomos de várias horas. As equipes usam o GLM-5.1 para trabalhos de engenharia de longo prazo e o GLM-4.7 ou GLM-5 Turbo onde a eficiência de custos e a velocidade são prioridades.

Otimização de desempenho de banco de dados a longo prazo

Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.

Refatoração Autônoma de Código em Escala de Repositório

As equipes de desenvolvimento usam o GLM-5.1 para executar transformações completas em bases de código durante sessões de várias horas sem pontos de verificação humanos. O modelo planeja, escreve, testa e itera as mudanças continuamente por até 8 horas, lidando com 655 iterações em uma demonstração de construção de um sistema Linux do zero. Isso substitui semanas de trabalho manual de refatoração em bases de código grandes e legadas.

Integração de Agente de Codificação no IDE

As equipes de ferramentas para desenvolvedores integram o GLM-5.1 e o GLM-5 Turbo como o modelo subjacente para fluxos de trabalho de codificação de IA no Claude Code, Kilo Code, Cline, Roo Code e OpenCode. A Z-AI API na Atlas Cloud é compatível com a OpenAI, portanto, a troca da base URL é a única alteração necessária para rotear qualquer uma dessas ferramentas pelo GLM. A janela de contexto de 262K do GLM-5 Turbo o torna especialmente adequado para o contexto de arquivos grandes em fluxos de trabalho de IDE.

Automação de Consultas de Suporte de Nível 1

As equipes de operações constroem agentes de suporte usando GLM-5 que combinam acesso ao banco de dados de chamados, pesquisa na base de conhecimento e ferramentas de escalonamento para lidar com consultas repetitivas sem intervenção humana. A capacidade de chamada de múltiplas ferramentas e o suporte a streaming do modelo o tornam prático para implantações em tempo real voltadas para o cliente. O suporte bilíngue significa que o mesmo agente lida com chamados em chinês e inglês a partir de um único endpoint de modelo no Atlas Cloud.

Geração de documentos bilíngues em larga escala

As equipes de conteúdo e negócios usam o GLM-4.7 para gerar documentos do Word, apresentações do PowerPoint, PDFs e relatórios do Excel tanto em chinês quanto em inglês a partir de prompts estruturados. A US$ 0,52 por milhão de tokens de entrada, é o nível GLM mais econômico para fluxos de trabalho de documentos de alto volume que não exigem raciocínio de nível de fronteira. A janela de contexto de 202K é suficiente para conter esboços completos de documentos e material de origem em uma única chamada.

Otimização de Kernel para Cargas de Trabalho de ML

As equipes de infraestrutura de IA usam o GLM-5.1 para executar pipelines de otimização orientados por benchmarks em cargas de trabalho de aprendizado de máquina. Em tarefas no estilo KernelBench, o GLM-5.1 realiza milhares de ciclos de otimização orientados por ferramentas e alcança uma aceleração média geométrica de 3,6x. A capacidade de execução contínua de 8 horas significa que o agente executa o loop de otimização completo sem exigir reinicializações manuais entre as sessões.

Transforme a visão da sua empresa em realidade com a Atlas Cloud AI.

Fale com vendas

Perguntas frequentes sobre os modelos Z.ai

A Z-AI (também escrita como Z.ai) é a desenvolvedora por trás da série GLM de grandes modelos de linguagem, também conhecida como ZhipuAI. GLM significa Modelo de Linguagem Geral (General Language Model), uma família que abrange desde o GLM-4.6 até o atual modelo principal, o GLM-5.1. A série foi desenvolvida para programação, fluxos de trabalho baseados em agentes e uso em ambientes de produção bilíngues chinês-inglês.

O GLM-5.1 alcançou o primeiro lugar no SWE-Bench Pro com uma pontuação de 58,4 em 7 de abril de 2026, superando o GPT-5.4 (57,7) e o Claude Opus 4.6 (57,3). Ele também lidera o CyberGym com 68,7. Isso o torna o modelo de código aberto com a melhor classificação para codificação em ambiente de produção a partir do segundo trimestre de 2026.

Sim. O GLM-5.1 suporta execução autônoma contínua por até 8 horas em uma única tarefa sem intervenção humana. Ele gerencia o ciclo completo de planejamento, execução, otimização iterativa e entrega. Isso foi projetado especificamente para fluxos de trabalho de agentes de codificação de longo prazo em ambientes como Claude Code e configurações compatíveis com OpenClaw.

O GLM-5 é o modelo fundacional base construído sobre uma arquitetura MoE de 744 bilhões de parâmetros, treinado com 28,5 trilhões de tokens, e alcançou o 1º lugar em Elo no Chatbot Arena para modelos de código aberto. O GLM-5.1 é uma atualização pós-treinamento da mesma base com capacidades significativamente mais fortes de codificação, uso de ferramentas e execução autônoma. O GLM-5 tem o preço de US$ 0,95 por milhão de tokens de entrada na Atlas Cloud; o GLM-5.1 custa US$ 1,26 por milhão de tokens de entrada.

Sim. O GLM-5.1 é lançado sob uma licença MIT, que permite uso comercial, ajuste fino e redistribuição sem restrições. Os pesos abertos estão disponíveis para implantação auto-hospedada. A Atlas Cloud fornece o GLM-5.1 via API para equipes que preferem acesso gerenciado sem sobrecarga de infraestrutura.

GLM-4.6, GLM-4.7, GLM-5 e GLM-5.1 suportam uma janela de contexto de 202.750 tokens no Atlas Cloud. O GLM-5 Turbo é a exceção, com uma janela de contexto maior de 262.144 tokens e um comprimento máximo de saída de 131.072 tokens. O GLM-5.1 é adequado para gerar arquivos de código longos e rastreamentos de execução estendidos dentro do seu limite de contexto.

Sim. Todos os modelos GLM são otimizados para chinês e inglês com igual proficiência em ambos os idiomas. Você pode escrever prompts em qualquer um dos idiomas e receber resultados de qualidade consistente em troca. Isso torna o GLM prático para equipes que desenvolvem produtos que atendem tanto ao mercado chinês quanto ao internacional a partir de um único modelo.

O GLM-4.7 começa em US$ 0,52 por milhão de tokens de entrada e é o nível mais econômico. O GLM-4.6 custa US$ 0,60, o GLM-5 custa US$ 0,95 e o GLM-5 Turbo custa US$ 1,20 por milhão de tokens de entrada. O GLM-5.1, o modelo principal, custa US$ 1,26 por milhão de tokens de entrada e US$ 3,96 por milhão de tokens de saída. Todos os modelos funcionam com base no sistema pay-as-you-go, sem compromisso mensal.

Explorar Mais Séries

Seedance 2.0 Models

Seedance 2.0(by Bytedance) is a multimodal video generation model that redefines "controllable creation," moving beyond the limitations of text or start/end frames. It supports quad-modal inputs—text, image, video, and audio—and introduces an industry-leading "Universal Reference" system. By precisely replicating the composition, camera movement, and character actions from reference assets, Seedance 2.0 solves critical issues with character consistency and physical coherence, empowering creators to act as true "directors" with deep control over their output.

Ver Série

Grok-Imagine Models

Grok Imagine Image Quality is xAI's latest AI image generation model, delivering studio-grade visuals with up to 2K resolution and razor-sharp detail. It offers best-in-class text rendering across multiple languages, photorealistic outputs with natural lighting, rich textures, and believable physics, plus tighter prompt following and image editing with reference inputs for precise creative control. Ideal for hero images, ad creatives, product renders, and brand-grade visuals.

Ver Série

Gemini Omni

Gemini Omni (by Google DeepMind) is a video generation and editing model launched on May 20, 2026 at Google I/O that redefines the standard for "reasoning-driven creation," built specifically to solve the core challenge of AI video: making output that actually understands what you mean, not just what you type. It fuses Gemini's reasoning engine with generative capability, accepting any mix of images, text, video, and audio to produce consistent, knowledge-grounded output. Unlike models that start from scratch each time, Omni lets you edit through natural conversation — swapping objects, rewriting scenes, shifting styles — while keeping physics, characters, and continuity intact across every turn.

Ver Série

GPT Image 2 Models

GPT Image 2 is a state-of-the-art multimodal foundation model engineered for exceptional text-to-image generation with unprecedented photorealism and creative versatility. Developed by OpenAI as the evolution of the DALL-E lineage, it transforms detailed natural language descriptions into hyper-realistic imagery at up to 4K resolution. With proprietary "Neural Rendering Engine" technology for precise visual control, GPT Image 2 delivers studio-quality results with accurate anatomy, lighting, and composition—making it the premier AI tool for professional creators, enterprises, and developers demanding production-ready visual assets.

Ver Série

Google Models on Atlas Cloud | Gemini, Nano Bananas & Veo

Os modelos criativos mais poderosos do Google estão todos disponíveis na Atlas Cloud. O Veo 3.1 oferece geração de vídeo cinematográfico, o Nano Banana 2 impulsiona a criação de imagens de alta fidelidade e o Gemini traz inteligência multimodal para cada fluxo de trabalho. Acesse o pacote completo de modelos do Google por meio de uma única API key com disponibilidade Day-0 e preços de pagamento conforme o uso (pay-as-you-go).

Ver Série

ByteDance Models on Atlas Cloud | Seedance & Seedream

Da geração de vídeo cinematográfico à criação de imagens de alta fidelidade, os modelos mais poderosos da ByteDance estão disponíveis no Atlas Cloud. Execute o Seedance e o Seedream em grande escala com os preços de inferência mais baixos e zero custos indiretos de infraestrutura.

Ver Série

Alibaba Models on Atlas Cloud | Wan & Qwen

O Atlas Cloud reúne toda a linha de modelos da Alibaba sob uma única API: Qwen para tarefas de linguagem e imagem, e Wan para geração de vídeo em até 1080p. Acesse cada modelo no formato pré-pago (pay-as-you-go) sem necessidade de assinaturas. A API da Alibaba está disponível por meio de uma única URL base usando seu cliente compatível com OpenAI existente.

Ver Série

MAI Image 2.5 Models

O MAI-Image-2.5 é a mais recente família de modelos de geração e edição de imagens fotorrealistas da Microsoft, criada para design comercial, fotografia de produtos e criação de conteúdo pronto para marcas. Disponível nas variantes padrão e Flash tanto para conversão de texto em imagem quanto para edição de imagens, ele oferece as melhores pontuações Arena ELO da categoria a preços competitivos — a partir de US$ 0,03 por imagem. Com renderização de texto precisa, capacidade de edição cirúrgica e geração natural de retratos, o MAI-Image-2.5 foi projetado para equipes que precisam de recursos visuais com qualidade de produção sem sobrecarga de pós-processamento.

Ver Série

Wan2.7 Models

Launching this March, Wan2.7 is the latest powerhouse in the Qwen ecosystem, delivering a massive upgrade in visual fidelity, audio synchronization, and motion consistency over version 2.6. This all-in-one AI video generator supports advanced features like first-and-last frame control, 3x3 grid synthesis, and instruction-based video editing. Outperforming competitors like Jimeng, Wan2.7 offers superior flexibility with support for real-person image inputs, up to five video references, and 1080P high-definition outputs spanning 2 to 15 seconds, making it the premier choice for professional digital storytelling and high-end content marketing.

Ver Série

Nano Banana2 Models

Nano Banana 2 (by Google), is a generative image model that perfectly balances lightning-fast rendering with exceptional visual quality. With an improved price-performance ratio, it achieves breakthrough micro-detail depiction, accurate native text rendering, and complex physical structure reconstruction. It serves as a highly efficient, commercial-grade visual production tool for developers, marketing teams, and content creators.

Ver Série

Doubao Models

Doubao é a família de grandes modelos de linguagem da ByteDance, projetada para raciocínio em nível de produção, codificação e cargas de trabalho agênticas de alto volume. Abrangendo o carro-chefe Seed 2.0 Pro, uma variante dedicada Code Preview, os níveis econômicos Lite e Mini, além das comprovadas gerações Seed 1.8 e Seed 1.6, a linha oferece aos desenvolvedores uma interface única compatível com OpenAI para escalar desde o raciocínio de ponta até tarefas de alta taxa de transferência e sensíveis à latência. Cada modelo Doubao na Atlas Cloud vem com uma janela de contexto de 256K tokens, streaming e compatibilidade direta com SDK — para que você possa combinar o modelo certo para cada trabalho sem reescrever a sua stack.

Ver Série

Hunyuan 3D Generation Models

Hunyuan3D is a state-of-the-art 3D generative foundation model from Tencent that turns text prompts and single images into high-quality, textured 3D meshes. Built on a two-stage pipeline—Hunyuan3D-DiT for shape generation via flow-matching diffusion and Hunyuan3D-Paint for multi-view texture synthesis—it produces clean geometry with full PBR materials ready for game engines, AR/VR, 3D printing, and DCC tools. Available in Pro (up to 1.5M faces, 4K PBR textures) and Rapid (2–3 minute lightweight generation) tiers, with both Text-to-3D and Image-to-3D entry points, Hunyuan3D is the premier AI 3D toolkit for game developers, e-commerce teams, and 3D content studios. Generations start at $0.02 each.

Ver Série

Artigos recomendados

Guias, tutoriais e novidades de produto para você aproveitar ao máximo a Atlas Cloud.

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.