Erste Schritte
Endpoint
Die Option "New Endpoint" ermöglicht es Benutzern, einen Serverless-Service mit benutzerdefinierten Images und Konfigurationen zu erstellen.
Konfigurationsparameter
-
Endpoint-Name
- Benutzerdefinierter Name für Ihren Endpoint
- Unterstützt UTF-8-Zeichensatz
- Maximal 128 Zeichen
- Muss in Ihrem Konto eindeutig sein
-
Worker-Konfiguration
- Active Workers: Anfängliche und minimale Anzahl von Workern (Standard: 1)
- Max Workers: Maximale Anzahl von Workern für Auto-Scaling
- GPUs / Worker: Anzahl der GPUs pro Worker (Bereich: 1-8)
-
Container-Einstellungen
- Container Image: Docker-Image für den Service
- Container Start Command: Befehl, der beim Starten des Containers ausgeführt wird
- Optional: Verwendet den Entrypoint des Images, wenn nicht angegeben
- Shell: Gibt die Shell-Umgebung für den Befehl an
- Standard:
/bin/sh - Anpassbar basierend auf Image-Anforderungen
- Standard:
-
Netzwerkkonfiguration
- Data Center: Zielcluster für den laufenden Serverless-Service
- Berücksichtigen Sie Netzwerkumgebung und GPU-Verfügbarkeit
- HTTP Port: Port für externen HTTP-Service
- Nur ein Port
- Anfragen an die Endpoint-URL werden an diesen Port weitergeleitet
- Container muss auf diesem Port lauschen
- Data Center: Zielcluster für den laufenden Serverless-Service
-
Umgebung
- Environment Variables: Konfigurieren Sie mehrere Umgebungsvariablen für den Container
-
Erweiterte Einstellungen
- Network Volume: Option zum Mounten von persistentem Netzwerkspeicher
- Network Volume Mount Path: Geben Sie den Mount-Pfad für persistenten Speicher an
Quick Deploys
Quick Deploys ermöglicht es Ihnen, benutzerdefinierte Endpoints beliebter Modelle mit minimaler Konfiguration bereitzustellen.
Wie beginne ich mit Quick Deploys?
Wie interagiere ich mit Atlas Cloud Serverless?
Nach dem Erstellen eines Serverless-Endpoints generiert die Plattform eine Domain-URL, über die Sie auf den Service zugreifen können:
https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/
Die URL-Komponenten:
SERVERLESS_ID: Ihre eindeutige Endpoint-KennungREGION: Die Bereitstellungsregion (z. B. us-east, eu-west)
Auto Scaling
Serverless-Bereitstellungen beginnen standardmäßig mit einem Worker. Die Plattform verwaltet die Skalierung automatisch basierend auf gleichzeitigen Anfragen und Ressourcennutzung.
Wichtige Auto-Scaling-Funktionen:
- Active Workers: Minimale Anzahl von Workern, die immer ausgeführt werden, unabhängig von der Last
- Max Workers: Maximale Anzahl von Workern, die während hoher Lastperioden erstellt werden können
- GPUs / Worker: Anzahl der GPUs, die jeder Worker-Instanz zugewiesen sind, was die Verarbeitungskapazität beeinflusst
Das Auto-Scaling-System folgt diesen Regeln:
-
Scale Up:
- Wird ausgelöst, wenn gleichzeitige Anfragen pro Worker 100 überschreiten
- Neue Worker werden innerhalb von 30-60 Sekunden hinzugefügt
- Skaliert in Schritten basierend auf der Anfragelast
- Maximale Scale-up-Rate: 200% der aktuellen Kapazität pro 60 Sekunden
-
Scale Down:
- Beginnt, wenn gleichzeitige Anfragen unter den Schwellenwert fallen
- Erfordert 60 Sekunden geringe Auslastung, bevor herunterskaliert wird
- Skaliert jeweils einen Worker herunter
- Behält die minimale Anzahl aktiver Worker bei
- Maximale Scale-down-Rate: 100% der aktuellen Kapazität pro 60 Sekunden
-
Skalierungsgrenzen:
- Minimum: Anzahl aktiver Worker
- Maximum: Max Workers-Einstellung
- Auf Null skalieren: Nur wenn Active Workers auf 0 gesetzt ist
-
Cold Start:
- Neue Worker benötigen 30-60 Sekunden, um verfügbar zu werden
- Berücksichtigen Sie diese Verzögerung bei der Planung für Verkehrsspitzen
Anwendungsfälle
-
KI-Inferenz
- Large Language Models (LLMs)
- Stable Diffusion
- Computer Vision
- Spracherkennung
-
API-Services
- RESTful APIs
- WebSocket-Unterstützung
- Benutzerdefinierte Endpoints
Verwalten Ihrer Instanzen
Nach der Bereitstellung können Sie Ihre Serverless-Instanzen verwalten, um Kosten zu optimieren:
- Start/Stop-Kontrolle: Pausieren Sie Instanzen, wenn sie nicht benötigt werden, und setzen Sie sie sofort fort
- Kosteneinsparungen: Keine Gebühren, während Instanzen gestoppt sind
- Schneller Neustart: Gestoppte Instanzen in weniger als einer Minute neu starten
- Beibehaltene Konfiguration: Alle Einstellungen und URLs bleiben intakt
Erfahren Sie mehr über Instanzen verwalten