vLLM
Speicher erstellen
Erstellen Sie zunächst ein persistentes Speicher-Volume zum Speichern von Modelldateien:
- Navigieren Sie zur Speicherseite
- Klicken Sie auf die Schaltfläche "New Network Volume"
- Füllen Sie die Speicherdetails aus:
- Volume Name: Geben Sie Ihrem Speicher einen beschreibenden Namen
- GB: Wählen Sie eine geeignete Größe basierend auf Ihren Modellanforderungen
- Data Center: Wählen Sie dieselbe Region, in der Sie Ihren Serverless bereitstellen werden

HuggingFace-Token abrufen
Um Modelle von HuggingFace herunterzuladen, benötigen Sie ein Zugriffstoken:
- Besuchen Sie die HuggingFace-Website und melden Sie sich bei Ihrem Konto an
- Gehen Sie zu Ihren Profileinstellungen
- Navigieren Sie zum Abschnitt "Access Tokens"
- Klicken Sie auf die Schaltfläche "Create new token"
- Konfigurieren Sie Ihr Token:
- Name: Geben Sie Ihrem Token einen beschreibenden Namen
- Role: Wählen Sie "read" für das Herunterladen von Modellen
- Klicken Sie auf die Schaltfläche "Create token"
- Kopieren und speichern Sie das generierte Token sicher - Sie werden es später benötigen

Konfigurationsleitfaden
Modell auswählen
Die Plattform bietet eine integrierte vLLM-Framework-Version 0.6.2-Umgebung. Hier ist, was Sie konfigurieren müssen:
- HuggingFace Model: Geben Sie den Zielmodellnamen ein (z. B. meta-llama/Llama-2-7b-chat-hf)
- HuggingFace Token: Optionales Authentifizierungstoken
- Erforderlich für bestimmte Modelle und Datasets
- Automatisch als
HUGGING_FACE_HUB_TOKEN-Umgebungsvariable im Container gesetzt - Fügen Sie das zuvor generierte Token ein
vLLM-Parameter
Dies sind optionale erweiterte Einstellungen für das vLLM-Framework. Ändern Sie mit Vorsicht:
- Tensor Parallel Degree: Für Multi-GPU-Inferenz
- Max Total Tokens: Begrenzen Sie die Gesamtlänge der Antwort
- Quantization: Modellkompressionsoptionen
- Trust Remote Code: Aktivieren Sie für Modelle, die benutzerdefinierten Code erfordern
Hinweis: Bitte stellen Sie sicher, dass Sie diese Parameter verstehen, bevor Sie sie von ihren Standardwerten ändern.
Endpoint-Parameter
Konfigurieren Sie Ihre Bereitstellungsumgebung:
- Endpoint Name: Automatisch generiert, aber anpassbar
- GPU-Konfiguration:
- Wählen Sie den GPU-Typ (A100, H100, L4 usw.)
- Geben Sie die Anzahl der GPUs pro Worker an
- Data Center: Wählen Sie die Bereitstellungsregion
- Storage:
- Stark empfohlen: Network Volume auf
/root/.cache/huggingfacemounten - Dies ermöglicht Modellpersistenz über Neustarts hinweg
- Beschleunigt nachfolgende Bereitstellungen durch Zwischenspeicherung von Modelldateien
- Stark empfohlen: Network Volume auf
Tipp: Persistenter Speicher verbessert die Startzeit für nachfolgende Bereitstellungen erheblich, indem wiederholte Modell-Downloads vermieden werden.

Nach der Bereitstellung ist Ihr vLLM-Endpoint bereit, Inferenz-Anfragen zu bedienen. Das System wird automatisch das Herunterladen und die Initialisierung des Modells verwalten.