Serverless
Panoramica
Atlas Cloud fornisce calcolo Serverless per inferenza AI, addestramento di modelli, calcolo generale e servizi API, consentendo agli utenti di pagare al secondo per il loro utilizzo di calcolo. La piattaforma supporta la scalabilità automatica basata sul volume delle richieste.
Puoi utilizzare i seguenti metodi:
- Endpoint: Utilizza immagini personalizzate per inferenza AI, addestramento di modelli e altre attività
- Quick Deploy: Utilizza immagini pre-costruite per creare rapidamente servizi di inferenza vLLM / SD
Perché Atlas Cloud Serverless?
Dovresti scegliere le istanze Atlas Cloud Serverless per i seguenti motivi:
- Conveniente: Paga solo per il tempo di calcolo effettivamente utilizzato, fatturato al secondo
- Controllo Start/Stop: Metti in pausa le istanze quando non sono necessarie per risparmiare costi, riprendi istantaneamente quando richiesto
- Alte Prestazioni: Accesso alle ultime GPU NVIDIA tra cui A100, H100 e L4
- Scalabilità Automatica: Scala automaticamente da 1 a 100 worker in base alla domanda
- Supporto Container: Supporta sia immagini Docker pubbliche che private
- Avvio a Freddo Rapido: Tempo di avvio a freddo ottimizzato di 2-3 secondi per la maggior parte dei modelli
- Monitoraggio e Log: Metriche in tempo reale per utilizzo GPU, CPU, Memoria e logging completo
- Integrazione Storage: Monta storage di rete sui worker per la persistenza dei dati attraverso eventi di scalabilità