Comenzar
Endpoint
La opción Nuevo Endpoint le permite crear un servicio Serverless utilizando imágenes y configuraciones personalizadas.
Parámetros de Configuración
-
Nombre del Endpoint
- Nombre personalizado para el Endpoint
- Admite conjunto de caracteres UTF-8
- Máximo 128 caracteres
- Debe ser único dentro de la cuenta
-
Configuración de Workers
- Workers Activos: Número inicial y mínimo de workers (predeterminado: 1)
- Workers Máximos: Número máximo de workers para escalado automático
- GPUs por Worker: Número de GPUs por worker (rango: 1-8)
-
Configuración del Contenedor
- Imagen del Contenedor: Imagen Docker a utilizar para el servicio
- Comando de Inicio del Contenedor: Comando a ejecutar al iniciar el contenedor
- Opcional: Si no se especifica, usa el punto de entrada de la imagen
- Shell: Especifica el entorno de shell para el comando
- Predeterminado:
/bin/sh - Ajustable según los requisitos de la imagen
- Predeterminado:
-
Configuración de Red
- Centro de Datos: Clúster objetivo donde se ejecutará el servicio serverless
- Considere el entorno de red y la disponibilidad de GPU
- Puerto HTTP: Puerto para servicios HTTP externos
- Solo un puerto permitido
- Las solicitudes a la URL del Endpoint se reenviarán a este puerto
- El contenedor debe escuchar en este puerto
- Centro de Datos: Clúster objetivo donde se ejecutará el servicio serverless
-
Entorno
- Variables de Entorno: Configure múltiples variables de entorno para el contenedor
-
Configuración Avanzada
- Volumen de Red: Opción para montar almacenamiento de red persistente
- Ruta de Montaje del Volumen de Red: Especifique la ruta de montaje para el almacenamiento persistente
Quick Deploys
Quick Deploys le permite implementar Endpoints personalizados de modelos populares con configuración mínima.
¿Cómo comenzar con Quick Deploys?
¿Cómo Interactuar con Atlas Cloud Serverless?
Después de crear un endpoint serverless, la plataforma genera una URL de dominio para acceder a su servicio:
https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/
Componentes de la URL:
SERVERLESS_ID: Identificador único del EndpointREGION: Región de implementación (por ejemplo, us-east, eu-west)
Escalado Automático
Las implementaciones Serverless comienzan con un worker por defecto. La plataforma gestiona automáticamente el escalado basándose en solicitudes concurrentes y utilización de recursos.
Características clave del escalado automático:
- Workers Activos: Número mínimo de workers que siempre se ejecutan, independientemente de la carga
- Workers Máximos: Número máximo de workers que se pueden crear durante períodos de alta carga
- GPUs por Worker: Número de GPUs asignadas a cada instancia worker, afectando la capacidad de procesamiento
El sistema de escalado automático sigue estas reglas:
-
Escalado hacia Arriba:
- Se activa cuando las solicitudes concurrentes por worker superan 100
- Agrega nuevos workers en 30-60 segundos
- Escala incrementalmente basándose en la carga de solicitudes
- Tasa máxima de escalado: 200% de la capacidad actual por 60 segundos
-
Escalado hacia Abajo:
- Comienza cuando las solicitudes concurrentes caen por debajo del umbral
- Requiere 60 segundos de baja utilización antes de escalar hacia abajo
- Escala hacia abajo un worker a la vez
- Mantiene el número mínimo de workers activos
- Tasa máxima de reducción: 100% de la capacidad actual por 60 segundos
-
Límites de Escalado:
- Mínimo: Número de workers activos
- Máximo: Configuración de workers máximos
- Escalar a cero: Solo si los workers activos están configurados en 0
-
Arranque en Frío:
- Los nuevos workers tardan 30-60 segundos en estar disponibles
- Considere este retraso al planificar picos de tráfico
Casos de Uso
-
Inferencia de IA
- Modelos de Lenguaje Grande (LLM)
- Stable Diffusion
- Visión por Computadora
- Reconocimiento de Voz
-
Servicios API
- API RESTful
- Soporte de WebSocket
- Endpoints Personalizados
Gestión de Instancias
Después de la implementación, puede gestionar sus instancias serverless para optimizar costos:
- Control de Inicio/Detención: Pause instancias cuando no las necesite y reanude instantáneamente cuando las necesite
- Ahorro de Costos: Sin cargos mientras las instancias están detenidas
- Reanudación Rápida: Reinicie instancias detenidas en menos de 1 minuto
- Preservación de Configuración: Todas las configuraciones y URLs permanecen intactas
Más información sobre Gestión de Instancias