Z.ai Models on AtlasCloud | GLM

Atlas Cloud aloja la serie completa GLM a través de la API Z-AI, desde GLM-4.6 hasta GLM-5.1. Todos los modelos son bilingües y están disponibles en la modalidad de pago por uso con una ventana de contexto de 202K.

Large Language Models by Z.ai

Impulsa chat, razonamiento y agentes a gran escala con los principales grandes modelos de lenguaje, servidos de forma rápida y asequible en Atlas Cloud.

Ver todos los modelos

Z.ai Models API Pricing Details

Compare standard vs. our pricing across every Z.ai model.

ModelStandard Price (USD)Our Price (USD)Discount
GLM 5.1
$1.4/$4.4per 1M tokens202.8K context
$1.26/$3.96M in/outper 1M tokens202.8K context
-10%View
GLM 5 Turbo
$1.2/$4per 1M tokens262.1K context
$1.2/$4M in/outper 1M tokens262.1K context
View
GLM 5
$1/$3.2per 1M tokens202.8K context
$0.95/$3.15M in/outper 1M tokens202.8K context
View
GLM 4.7
$0.6/$2.2per 1M tokens202.8K context
$0.52/$1.85M in/outper 1M tokens202.8K context
View
GLM 4.6
$0.6/$2.2per 1M tokens202.8K context
$0.6/$2.2M in/outper 1M tokens202.8K context
View

Explore models from other providers

Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.

Casos de uso de la Z-AI API que puede construir en Atlas Cloud

Los niveles de los modelos de GLM abarcan desde tareas rápidas de chat bilingüe hasta agentes de codificación autónomos de varias horas. Los equipos utilizan GLM-5.1 para trabajos de ingeniería a largo plazo y GLM-4.7 o GLM-5 Turbo cuando la rentabilidad y la velocidad son la prioridad.

Optimización del rendimiento de la base de datos a largo plazo

Engineering teams use GLM-5.1 to run autonomous optimization agents that iterate on production systems over hundreds of rounds. In a documented run, GLM-5.1 improved a vector database through 600 iterations and 6,000 tool calls, reaching 21,500 queries per second — six times the result achievable in a single 50-turn session. Atlas Cloud's pay-as-you-go pricing makes it practical to run these extended sessions without pre-purchasing capacity.

Refactorización Autónoma de Código a Escala de Repositorio

Los equipos de desarrollo utilizan GLM-5.1 para ejecutar transformaciones completas de bases de código durante sesiones de varias horas sin puntos de control humanos. El modelo planifica, escribe, prueba e itera los cambios continuamente hasta por 8 horas, manejando 655 iteraciones en una demostración de construcción de un sistema Linux desde cero. Esto reemplaza semanas de trabajo de refactorización manual en bases de código heredadas y de gran tamaño.

Integración de Agente de Codificación en IDE

Los equipos de herramientas para desarrolladores integran GLM-5.1 y GLM-5 Turbo como el modelo subyacente para los flujos de trabajo de programación con IA en Claude Code, Kilo Code, Cline, Roo Code y OpenCode. La Z-AI API en Atlas Cloud es compatible con OpenAI, por lo que el cambio de la base URL es la única modificación necesaria para enrutar cualquiera de estas herramientas a través de GLM. La ventana de contexto de 262K de GLM-5 Turbo lo hace especialmente adecuado para el contexto de archivos grandes en flujos de trabajo de IDE.

Automatización de Consultas de Soporte de Nivel 1

Los equipos de operaciones construyen agentes de soporte utilizando GLM-5 que combinan el acceso a la base de datos de tickets, la búsqueda en la base de conocimientos y las herramientas de escalamiento para manejar consultas repetitivas sin intervención humana. La capacidad de llamada a múltiples herramientas y el soporte de streaming del modelo lo hacen práctico para implementaciones en tiempo real orientadas al cliente. El soporte bilingüe significa que el mismo agente maneja tickets en chino e inglés desde un único endpoint de modelo en Atlas Cloud.

Generación de documentos bilingües a gran escala

Los equipos de contenido y negocios utilizan GLM-4.7 para generar documentos de Word, presentaciones de PowerPoint, PDFs y reportes de Excel tanto en chino como en inglés a partir de prompts estructurados. A 0,52 $ por cada millón de tokens de entrada, es el nivel de GLM más rentable para flujos de trabajo de documentos de gran volumen que no requieren razonamiento de nivel de frontera. La ventana de contexto de 202K es suficiente para mantener esquemas completos de documentos y material fuente en una sola llamada.

Optimización del kernel para cargas de trabajo de ML

Los equipos de infraestructura de IA utilizan GLM-5.1 para ejecutar canalizaciones de optimización impulsadas por puntos de referencia en cargas de trabajo de aprendizaje automático. En tareas de estilo KernelBench, GLM-5.1 realiza miles de ciclos de optimización impulsados por herramientas y logra una aceleración media geométrica de 3.6x. La capacidad de ejecución continua de 8 horas significa que el agente ejecuta el ciclo de optimización completo sin requerir reinicios manuales entre sesiones.

Haz realidad la visión de tu empresa con Atlas Cloud AI.

Contactar con ventas

Preguntas frecuentes sobre los modelos de Z.ai

Z-AI (también escrito como Z.ai) es el desarrollador detrás de la serie GLM de grandes modelos de lenguaje, también conocida como ZhipuAI. GLM significa Modelo de Lenguaje General (General Language Model), una familia que abarca desde GLM-4.6 hasta el actual modelo insignia GLM-5.1. La serie está diseñada para la programación, flujos de trabajo basados en agentes y el uso en entornos de producción bilingües chino-inglés.

GLM-5.1 alcanzó el primer lugar en SWE-Bench Pro con una puntuación de 58,4 el 7 de abril de 2026, superando a GPT-5.4 (57,7) y Claude Opus 4.6 (57,3). También lidera CyberGym con 68,7. Esto lo convierte en el modelo de código abierto mejor clasificado para la programación en entornos de producción a partir del segundo trimestre de 2026.

Sí. GLM-5.1 admite la ejecución autónoma continua durante un máximo de 8 horas en una sola tarea sin intervención humana. Gestiona el ciclo completo de planificación, ejecución, optimización iterativa y entrega. Esto está diseñado específicamente para flujos de trabajo de agentes de codificación a largo plazo en entornos como Claude Code y configuraciones compatibles con OpenClaw.

GLM-5 es el modelo fundacional base construido sobre una arquitectura MoE de 744 mil millones de parámetros, entrenado con 28.5 billones de tokens, y alcanzó el n.º 1 de Elo en Chatbot Arena para modelos de código abierto. GLM-5.1 es una actualización posterior al entrenamiento de la misma base con una capacidad significativamente mayor en programación, uso de herramientas y ejecución autónoma. GLM-5 tiene un precio de $0.95 por millón de tokens de entrada en Atlas Cloud; GLM-5.1 cuesta $1.26 por millón de tokens de entrada.

Sí. GLM-5.1 se publica bajo una licencia MIT, que permite el uso comercial, el ajuste fino y la redistribución sin restricciones. Los pesos abiertos están disponibles para la implementación autoalojada. Atlas Cloud proporciona GLM-5.1 a través de API para los equipos que prefieren el acceso gestionado sin gastos generales de infraestructura.

GLM-4.6, GLM-4.7, GLM-5 y GLM-5.1 admiten una ventana de contexto de 202.750 tokens en Atlas Cloud. GLM-5 Turbo es la excepción con una ventana de contexto más grande de 262.144 tokens y una longitud máxima de salida de 131.072 tokens. GLM-5.1 es adecuado para generar archivos de código largos y trazas de ejecución extendidas dentro de su límite de contexto.

Sí. Todos los modelos GLM están optimizados para chino e inglés con la misma competencia en ambos idiomas. Puede escribir prompts en cualquiera de los dos idiomas y recibir resultados de calidad constante. Esto hace que GLM sea práctico para los equipos que desarrollan productos que atienden tanto al mercado chino como al internacional desde un único modelo.

GLM-4.7 tiene un precio inicial de 0,52 $ por millón de tokens de entrada y es el nivel más rentable. GLM-4.6 cuesta 0,60 $, GLM-5 cuesta 0,95 $ y GLM-5 Turbo cuesta 1,20 $ por millón de tokens de entrada. GLM-5.1, el modelo insignia, cuesta 1,26 $ por millón de tokens de entrada y 3,96 $ por millón de tokens de salida. Todos los modelos son de pago por uso, sin compromiso mensual.

Explorar Más Series

Seedance 2.0 Models

Seedance 2.0(by Bytedance) is a multimodal video generation model that redefines "controllable creation," moving beyond the limitations of text or start/end frames. It supports quad-modal inputs—text, image, video, and audio—and introduces an industry-leading "Universal Reference" system. By precisely replicating the composition, camera movement, and character actions from reference assets, Seedance 2.0 solves critical issues with character consistency and physical coherence, empowering creators to act as true "directors" with deep control over their output.

Ver Serie

Grok-Imagine Models

Grok Imagine Image Quality is xAI's latest AI image generation model, delivering studio-grade visuals with up to 2K resolution and razor-sharp detail. It offers best-in-class text rendering across multiple languages, photorealistic outputs with natural lighting, rich textures, and believable physics, plus tighter prompt following and image editing with reference inputs for precise creative control. Ideal for hero images, ad creatives, product renders, and brand-grade visuals.

Ver Serie

Gemini Omni

Gemini Omni (by Google DeepMind) is a video generation and editing model launched on May 20, 2026 at Google I/O that redefines the standard for "reasoning-driven creation," built specifically to solve the core challenge of AI video: making output that actually understands what you mean, not just what you type. It fuses Gemini's reasoning engine with generative capability, accepting any mix of images, text, video, and audio to produce consistent, knowledge-grounded output. Unlike models that start from scratch each time, Omni lets you edit through natural conversation — swapping objects, rewriting scenes, shifting styles — while keeping physics, characters, and continuity intact across every turn.

Ver Serie

GPT Image 2 Models

GPT Image 2 is a state-of-the-art multimodal foundation model engineered for exceptional text-to-image generation with unprecedented photorealism and creative versatility. Developed by OpenAI as the evolution of the DALL-E lineage, it transforms detailed natural language descriptions into hyper-realistic imagery at up to 4K resolution. With proprietary "Neural Rendering Engine" technology for precise visual control, GPT Image 2 delivers studio-quality results with accurate anatomy, lighting, and composition—making it the premier AI tool for professional creators, enterprises, and developers demanding production-ready visual assets.

Ver Serie

Google Models on Atlas Cloud | Gemini, Nano Bananas & Veo

Los modelos creativos más potentes de Google están todos disponibles en Atlas Cloud. Veo 3.1 ofrece generación de video cinematográfico, Nano Banana 2 impulsa la creación de imágenes de alta fidelidad y Gemini aporta inteligencia multimodal a cada flujo de trabajo. Acceda a la suite completa de modelos de Google a través de una sola API key con disponibilidad Day-0 y precios de pago por uso (pay-as-you-go).

Ver Serie

ByteDance Models on Atlas Cloud | Seedance & Seedream

Desde la generación de video cinematográfico hasta la creación de imágenes de alta fidelidad, los modelos más potentes de ByteDance están disponibles en Atlas Cloud. Ejecute Seedance y Seedream a gran escala con los precios de inferencia más bajos y cero gastos generales de infraestructura.

Ver Serie

Alibaba Models on Atlas Cloud | Wan & Qwen

Atlas Cloud reúne toda la línea de modelos de Alibaba bajo una sola API: Qwen para tareas de lenguaje e imagen, y Wan para la generación de video hasta 1080p. Acceda a cada modelo con pago por uso sin suscripciones. La API de Alibaba está disponible a través de una única URL base utilizando su cliente compatible con OpenAI existente.

Ver Serie

MAI Image 2.5 Models

MAI-Image-2.5 es la última familia de modelos de generación y edición de imágenes fotorrealistas de Microsoft, creada para el diseño comercial, la fotografía de productos y la creación de contenido listo para marcas. Disponible en variantes estándar y Flash tanto para la conversión de texto a imagen como para la edición de imágenes, ofrece las mejores puntuaciones Arena ELO de su clase a precios competitivos, a partir de 0,03 $ por imagen. Con una representación de texto precisa, una capacidad de edición quirúrgica y una generación natural de retratos, MAI-Image-2.5 está diseñado para equipos que necesitan recursos visuales con calidad de producción sin gastos generales de procesamiento posterior.

Ver Serie

Wan2.7 Models

Launching this March, Wan2.7 is the latest powerhouse in the Qwen ecosystem, delivering a massive upgrade in visual fidelity, audio synchronization, and motion consistency over version 2.6. This all-in-one AI video generator supports advanced features like first-and-last frame control, 3x3 grid synthesis, and instruction-based video editing. Outperforming competitors like Jimeng, Wan2.7 offers superior flexibility with support for real-person image inputs, up to five video references, and 1080P high-definition outputs spanning 2 to 15 seconds, making it the premier choice for professional digital storytelling and high-end content marketing.

Ver Serie

Nano Banana2 Models

Nano Banana 2 (by Google), is a generative image model that perfectly balances lightning-fast rendering with exceptional visual quality. With an improved price-performance ratio, it achieves breakthrough micro-detail depiction, accurate native text rendering, and complex physical structure reconstruction. It serves as a highly efficient, commercial-grade visual production tool for developers, marketing teams, and content creators.

Ver Serie

Doubao Models

Doubao es la familia de grandes modelos de lenguaje de ByteDance, diseñada para cargas de trabajo de razonamiento, codificación y agentes de alto volumen a nivel de producción. Abarcando el buque insignia Seed 2.0 Pro, una variante dedicada Code Preview, los niveles rentables Lite y Mini, además de las generaciones probadas Seed 1.8 y Seed 1.6, la línea ofrece a los desarrolladores una interfaz única compatible con OpenAI para escalar desde el razonamiento de vanguardia hasta tareas de alto rendimiento y sensibles a la latencia. Cada modelo Doubao en Atlas Cloud cuenta con una ventana de contexto de 256K tokens, streaming y compatibilidad directa con SDK, para que pueda adaptar el modelo adecuado a cada trabajo sin reescribir su stack.

Ver Serie

Hunyuan 3D Generation Models

Hunyuan3D is a state-of-the-art 3D generative foundation model from Tencent that turns text prompts and single images into high-quality, textured 3D meshes. Built on a two-stage pipeline—Hunyuan3D-DiT for shape generation via flow-matching diffusion and Hunyuan3D-Paint for multi-view texture synthesis—it produces clean geometry with full PBR materials ready for game engines, AR/VR, 3D printing, and DCC tools. Available in Pro (up to 1.5M faces, 4K PBR textures) and Rapid (2–3 minute lightweight generation) tiers, with both Text-to-3D and Image-to-3D entry points, Hunyuan3D is the premier AI 3D toolkit for game developers, e-commerce teams, and 3D content studios. Generations start at $0.02 each.

Ver Serie

Artículos recomendados

Guías, tutoriales y novedades de producto para aprovechar al máximo Atlas Cloud.

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.