Serverless

Premiers pas

Endpoint

L'option New Endpoint permet aux utilisateurs de créer un service Serverless en utilisant des images et configurations personnalisées.

Paramètres de configuration

  • Nom de l'Endpoint

    • Nom personnalisé pour votre endpoint
    • Prend en charge le jeu de caractères UTF-8
    • Maximum 128 caractères
    • Doit être unique dans votre compte
  • Configuration des Workers

    • Active Workers : Nombre initial et minimum de workers (par défaut : 1)
    • Max Workers : Nombre maximum de workers pour l'auto-scaling
    • GPUs / Worker : Nombre de GPUs par worker (plage : 1-8)
  • Paramètres du conteneur

    • Container Image : Image Docker à utiliser pour le service
    • Container Start Command : Commande à exécuter au démarrage du conteneur
      • Facultatif : Utilise le point d'entrée de l'image si non spécifié
    • Shell : Spécifie l'environnement shell pour la commande
      • Par défaut : /bin/sh
      • Ajustable selon les exigences de l'image
  • Configuration réseau

    • Data Center : Cluster cible pour exécuter le service serverless
      • Considérez l'environnement réseau et la disponibilité des GPU
    • HTTP Port : Port pour le service HTTP externe
      • Un seul port uniquement
      • Les requêtes vers l'URL de l'Endpoint sont transférées vers ce port
      • Le conteneur doit écouter sur ce port
  • Environnement

    • Environment Variables : Configurez plusieurs variables d'environnement pour le conteneur
  • Paramètres avancés

    • Network Volume : Option pour monter un stockage réseau persistant
    • Network Volume Mount Path : Spécifiez le chemin de montage pour le stockage persistant

Quick Deploys

Quick Deploys vous permet de déployer des Endpoints personnalisés de modèles populaires avec une configuration minimale.

Comment démarrer avec Quick Deploys ?

Comment interagir avec Atlas Cloud Serverless ?

Après avoir créé un endpoint serverless, la plateforme génère une URL de domaine qui vous permet d'accéder au service :

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

Les composants de l'URL :

  • SERVERLESS_ID : Votre identifiant d'endpoint unique
  • REGION : La région de déploiement (par ex., us-east, eu-west)

Auto Scaling

Les déploiements serverless commencent avec un worker par défaut. La plateforme gère automatiquement le scaling en fonction des requêtes concurrentes et de l'utilisation des ressources.

Fonctionnalités clés de l'auto-scaling :

  • Active Workers : Nombre minimum de workers qui seront toujours en cours d'exécution, quelle que soit la charge
  • Max Workers : Nombre maximum de workers pouvant être créés pendant les périodes de forte charge
  • GPUs / Worker : Nombre de GPUs alloués à chaque instance de worker, affectant la capacité de traitement

Le système d'auto-scaling suit ces règles :

  • Scale Up :

    • Se déclenche lorsque les requêtes concurrentes par worker dépassent 100
    • De nouveaux workers sont ajoutés en 30-60 secondes
    • Scale par incréments en fonction de la charge de requêtes
    • Taux maximum de scale-up : 200% de la capacité actuelle par 60 secondes
  • Scale Down :

    • Commence lorsque les requêtes concurrentes chutent en dessous du seuil
    • Nécessite 60 secondes de faible utilisation avant de réduire
    • Réduit un worker à la fois
    • Maintient le nombre minimum d'Active Workers
    • Taux maximum de scale-down : 100% de la capacité actuelle par 60 secondes
  • Limites de scaling :

    • Minimum : Nombre d'Active Workers
    • Maximum : Paramètre Max Workers
    • Scale to zero : Seulement si Active Workers est défini sur 0
  • Démarrage à froid :

    • Les nouveaux workers prennent 30-60 secondes pour devenir disponibles
    • Considérez ce délai lors de la planification pour les pics de trafic

Cas d'utilisation

  1. Inférence IA

    • Large Language Models (LLMs)
    • Stable Diffusion
    • Vision par ordinateur
    • Reconnaissance vocale
  2. Services API

    • APIs RESTful
    • Support WebSocket
    • Endpoints personnalisés

Gestion de vos instances

Après le déploiement, vous pouvez gérer vos instances serverless pour optimiser les coûts :

  • Contrôle Start/Stop : Mettez en pause les instances lorsqu'elles ne sont pas nécessaires et reprenez-les instantanément
  • Économies de coûts : Pas de frais lorsque les instances sont arrêtées
  • Reprise rapide : Redémarrez les instances arrêtées en moins d'une minute
  • Configuration préservée : Tous les paramètres et URLs restent intacts

En savoir plus sur Gestion des instances