Premiers pas

Endpoint

L'option New Endpoint permet aux utilisateurs de créer un service Serverless en utilisant des images et configurations personnalisées.

Paramètres de configuration

Nom de l'Endpoint
- Nom personnalisé pour votre endpoint
- Prend en charge le jeu de caractères UTF-8
- Maximum 128 caractères
- Doit être unique dans votre compte
Configuration des Workers
- Active Workers : Nombre initial et minimum de workers (par défaut : 1)
- Max Workers : Nombre maximum de workers pour l'auto-scaling
- GPUs / Worker : Nombre de GPUs par worker (plage : 1-8)
Paramètres du conteneur
- Container Image : Image Docker à utiliser pour le service
- Container Start Command : Commande à exécuter au démarrage du conteneur
  - Facultatif : Utilise le point d'entrée de l'image si non spécifié
- Shell : Spécifie l'environnement shell pour la commande
  - Par défaut : /bin/sh
  - Ajustable selon les exigences de l'image
Configuration réseau
- Data Center : Cluster cible pour exécuter le service serverless
  - Considérez l'environnement réseau et la disponibilité des GPU
- HTTP Port : Port pour le service HTTP externe
  - Un seul port uniquement
  - Les requêtes vers l'URL de l'Endpoint sont transférées vers ce port
  - Le conteneur doit écouter sur ce port
Environnement
- Environment Variables : Configurez plusieurs variables d'environnement pour le conteneur
Paramètres avancés
- Network Volume : Option pour monter un stockage réseau persistant
- Network Volume Mount Path : Spécifiez le chemin de montage pour le stockage persistant

Quick Deploys

Quick Deploys vous permet de déployer des Endpoints personnalisés de modèles populaires avec une configuration minimale.

Comment démarrer avec Quick Deploys ?

Comment interagir avec Atlas Cloud Serverless ?

Après avoir créé un endpoint serverless, la plateforme génère une URL de domaine qui vous permet d'accéder au service :

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

Les composants de l'URL :

SERVERLESS_ID : Votre identifiant d'endpoint unique
REGION : La région de déploiement (par ex., us-east, eu-west)

Auto Scaling

Les déploiements serverless commencent avec un worker par défaut. La plateforme gère automatiquement le scaling en fonction des requêtes concurrentes et de l'utilisation des ressources.

Fonctionnalités clés de l'auto-scaling :

Active Workers : Nombre minimum de workers qui seront toujours en cours d'exécution, quelle que soit la charge
Max Workers : Nombre maximum de workers pouvant être créés pendant les périodes de forte charge
GPUs / Worker : Nombre de GPUs alloués à chaque instance de worker, affectant la capacité de traitement

Le système d'auto-scaling suit ces règles :

Scale Up :
- Se déclenche lorsque les requêtes concurrentes par worker dépassent 100
- De nouveaux workers sont ajoutés en 30-60 secondes
- Scale par incréments en fonction de la charge de requêtes
- Taux maximum de scale-up : 200% de la capacité actuelle par 60 secondes
Scale Down :
- Commence lorsque les requêtes concurrentes chutent en dessous du seuil
- Nécessite 60 secondes de faible utilisation avant de réduire
- Réduit un worker à la fois
- Maintient le nombre minimum d'Active Workers
- Taux maximum de scale-down : 100% de la capacité actuelle par 60 secondes
Limites de scaling :
- Minimum : Nombre d'Active Workers
- Maximum : Paramètre Max Workers
- Scale to zero : Seulement si Active Workers est défini sur 0
Démarrage à froid :
- Les nouveaux workers prennent 30-60 secondes pour devenir disponibles
- Considérez ce délai lors de la planification pour les pics de trafic

Cas d'utilisation

Inférence IA
- Large Language Models (LLMs)
- Stable Diffusion
- Vision par ordinateur
- Reconnaissance vocale
Services API
- APIs RESTful
- Support WebSocket
- Endpoints personnalisés

Gestion de vos instances

Après le déploiement, vous pouvez gérer vos instances serverless pour optimiser les coûts :

Contrôle Start/Stop : Mettez en pause les instances lorsqu'elles ne sont pas nécessaires et reprenez-les instantanément
Économies de coûts : Pas de frais lorsque les instances sont arrêtées
Reprise rapide : Redémarrez les instances arrêtées en moins d'une minute
Configuration préservée : Tous les paramètres et URLs restent intacts

En savoir plus sur Gestion des instances

Sur cette page