Serverless

Aperçu

Atlas Cloud fournit du calcul Serverless pour l'inférence IA, l'entraînement de modèles, le calcul général et les services API, permettant aux utilisateurs de payer à la seconde pour leur utilisation de calcul. La plateforme prend en charge l'auto-scaling basé sur le volume de requêtes.

Vous pouvez utiliser les méthodes suivantes :

  1. Endpoint : Utilisez des images personnalisées pour l'inférence IA, l'entraînement de modèles et d'autres tâches
  2. Quick Deploy : Utilisez des images pré-construites pour créer rapidement des services d'inférence vLLM / SD

Pourquoi Atlas Cloud Serverless ?

Vous devriez choisir les instances Atlas Cloud Serverless pour les raisons suivantes :

  • Rentable : Ne payez que pour le temps de calcul réellement utilisé, facturé à la seconde
  • Contrôle Start/Stop : Mettez en pause les instances lorsqu'elles ne sont pas nécessaires pour économiser des coûts, reprenez instantanément lorsque requis
  • Haute performance : Accès aux derniers GPUs NVIDIA incluant A100, H100 et L4
  • Auto-Scaling : Montez automatiquement en charge de 1 à 100 workers en fonction de la demande
  • Support des conteneurs : Support des images Docker publiques et privées
  • Démarrage à froid rapide : Temps de démarrage à froid optimisé de 2-3 secondes pour la plupart des modèles
  • Surveillance & Journaux : Métriques en temps réel pour l'utilisation du GPU, CPU, mémoire et journalisation complète
  • Intégration du stockage : Montez le stockage réseau sur les workers pour la persistance des données à travers les événements de scaling