Comenzar

Endpoint

La opción Nuevo Endpoint le permite crear un servicio Serverless utilizando imágenes y configuraciones personalizadas.

Parámetros de Configuración

Nombre del Endpoint
- Nombre personalizado para el Endpoint
- Admite conjunto de caracteres UTF-8
- Máximo 128 caracteres
- Debe ser único dentro de la cuenta
Configuración de Workers
- Workers Activos: Número inicial y mínimo de workers (predeterminado: 1)
- Workers Máximos: Número máximo de workers para escalado automático
- GPUs por Worker: Número de GPUs por worker (rango: 1-8)
Configuración del Contenedor
- Imagen del Contenedor: Imagen Docker a utilizar para el servicio
- Comando de Inicio del Contenedor: Comando a ejecutar al iniciar el contenedor
  - Opcional: Si no se especifica, usa el punto de entrada de la imagen
- Shell: Especifica el entorno de shell para el comando
  - Predeterminado: /bin/sh
  - Ajustable según los requisitos de la imagen
Configuración de Red
- Centro de Datos: Clúster objetivo donde se ejecutará el servicio serverless
  - Considere el entorno de red y la disponibilidad de GPU
- Puerto HTTP: Puerto para servicios HTTP externos
  - Solo un puerto permitido
  - Las solicitudes a la URL del Endpoint se reenviarán a este puerto
  - El contenedor debe escuchar en este puerto
Entorno
- Variables de Entorno: Configure múltiples variables de entorno para el contenedor
Configuración Avanzada
- Volumen de Red: Opción para montar almacenamiento de red persistente
- Ruta de Montaje del Volumen de Red: Especifique la ruta de montaje para el almacenamiento persistente

Quick Deploys

Quick Deploys le permite implementar Endpoints personalizados de modelos populares con configuración mínima.

¿Cómo comenzar con Quick Deploys?

¿Cómo Interactuar con Atlas Cloud Serverless?

Después de crear un endpoint serverless, la plataforma genera una URL de dominio para acceder a su servicio:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

Componentes de la URL:

SERVERLESS_ID: Identificador único del Endpoint
REGION: Región de implementación (por ejemplo, us-east, eu-west)

Escalado Automático

Las implementaciones Serverless comienzan con un worker por defecto. La plataforma gestiona automáticamente el escalado basándose en solicitudes concurrentes y utilización de recursos.

Características clave del escalado automático:

Workers Activos: Número mínimo de workers que siempre se ejecutan, independientemente de la carga
Workers Máximos: Número máximo de workers que se pueden crear durante períodos de alta carga
GPUs por Worker: Número de GPUs asignadas a cada instancia worker, afectando la capacidad de procesamiento

El sistema de escalado automático sigue estas reglas:

Escalado hacia Arriba:
- Se activa cuando las solicitudes concurrentes por worker superan 100
- Agrega nuevos workers en 30-60 segundos
- Escala incrementalmente basándose en la carga de solicitudes
- Tasa máxima de escalado: 200% de la capacidad actual por 60 segundos
Escalado hacia Abajo:
- Comienza cuando las solicitudes concurrentes caen por debajo del umbral
- Requiere 60 segundos de baja utilización antes de escalar hacia abajo
- Escala hacia abajo un worker a la vez
- Mantiene el número mínimo de workers activos
- Tasa máxima de reducción: 100% de la capacidad actual por 60 segundos
Límites de Escalado:
- Mínimo: Número de workers activos
- Máximo: Configuración de workers máximos
- Escalar a cero: Solo si los workers activos están configurados en 0
Arranque en Frío:
- Los nuevos workers tardan 30-60 segundos en estar disponibles
- Considere este retraso al planificar picos de tráfico

Casos de Uso

Inferencia de IA
- Modelos de Lenguaje Grande (LLM)
- Stable Diffusion
- Visión por Computadora
- Reconocimiento de Voz
Servicios API
- API RESTful
- Soporte de WebSocket
- Endpoints Personalizados

Gestión de Instancias

Después de la implementación, puede gestionar sus instancias serverless para optimizar costos:

Control de Inicio/Detención: Pause instancias cuando no las necesite y reanude instantáneamente cuando las necesite
Ahorro de Costos: Sin cargos mientras las instancias están detenidas
Reanudación Rápida: Reinicie instancias detenidas en menos de 1 minuto
Preservación de Configuración: Todas las configuraciones y URLs permanecen intactas

Más información sobre Gestión de Instancias

En esta página