Serverless
Übersicht
Atlas Cloud bietet Serverless Computing für KI-Inferenz, Modelltraining, allgemeine Berechnungen und API-Services, sodass Benutzer sekundengenau für ihre Rechennutzung bezahlen können. Die Plattform unterstützt automatische Skalierung basierend auf dem Anfragevolumen.
Sie können die folgenden Methoden verwenden:
- Endpoint: Verwenden Sie benutzerdefinierte Images für KI-Inferenz, Modelltraining und andere Aufgaben
- Quick Deploy: Verwenden Sie vorgefertigte Images, um schnell vLLM / SD Inferenz-Services zu erstellen
Warum Atlas Cloud Serverless?
Sie sollten Atlas Cloud Serverless-Instanzen aus folgenden Gründen wählen:
- Kosteneffizient: Zahlen Sie nur für die tatsächlich genutzte Rechenzeit, sekundengenau abgerechnet
- Start/Stop-Kontrolle: Pausieren Sie Instanzen, wenn sie nicht benötigt werden, um Kosten zu sparen, und setzen Sie sie bei Bedarf sofort fort
- Hohe Leistung: Zugriff auf die neuesten NVIDIA GPUs einschließlich A100, H100 und L4
- Auto-Skalierung: Automatische Skalierung von 1 bis 100 Workern basierend auf der Nachfrage
- Container-Unterstützung: Unterstützung sowohl öffentlicher als auch privater Docker-Images
- Schneller Kaltstart: Optimierte Kaltstartzeit von 2-3 Sekunden für die meisten Modelle
- Überwachung & Logs: Echtzeit-Metriken für GPU-, CPU-, Speichernutzung und umfassende Protokollierung
- Speicher-Integration: Netzwerkspeicher an Worker anhängen für Datenpersistenz über Skalierungsereignisse hinweg