Serverless
Aperçu
Atlas Cloud fournit du calcul Serverless pour l'inférence IA, l'entraînement de modèles, le calcul général et les services API, permettant aux utilisateurs de payer à la seconde pour leur utilisation de calcul. La plateforme prend en charge l'auto-scaling basé sur le volume de requêtes.
Vous pouvez utiliser les méthodes suivantes :
- Endpoint : Utilisez des images personnalisées pour l'inférence IA, l'entraînement de modèles et d'autres tâches
- Quick Deploy : Utilisez des images pré-construites pour créer rapidement des services d'inférence vLLM / SD
Pourquoi Atlas Cloud Serverless ?
Vous devriez choisir les instances Atlas Cloud Serverless pour les raisons suivantes :
- Rentable : Ne payez que pour le temps de calcul réellement utilisé, facturé à la seconde
- Contrôle Start/Stop : Mettez en pause les instances lorsqu'elles ne sont pas nécessaires pour économiser des coûts, reprenez instantanément lorsque requis
- Haute performance : Accès aux derniers GPUs NVIDIA incluant A100, H100 et L4
- Auto-Scaling : Montez automatiquement en charge de 1 à 100 workers en fonction de la demande
- Support des conteneurs : Support des images Docker publiques et privées
- Démarrage à froid rapide : Temps de démarrage à froid optimisé de 2-3 secondes pour la plupart des modèles
- Surveillance & Journaux : Métriques en temps réel pour l'utilisation du GPU, CPU, mémoire et journalisation complète
- Intégration du stockage : Montez le stockage réseau sur les workers pour la persistance des données à travers les événements de scaling