Anleitungen

vLLM

Speicher erstellen

Erstellen Sie zunächst ein persistentes Speicher-Volume zum Speichern von Modelldateien:

  1. Navigieren Sie zur Speicherseite
  2. Klicken Sie auf die Schaltfläche "New Network Volume"
  3. Füllen Sie die Speicherdetails aus:
    • Volume Name: Geben Sie Ihrem Speicher einen beschreibenden Namen
    • GB: Wählen Sie eine geeignete Größe basierend auf Ihren Modellanforderungen
    • Data Center: Wählen Sie dieselbe Region, in der Sie Ihren Serverless bereitstellen werden

create storage 01 create storage 02

HuggingFace-Token abrufen

Um Modelle von HuggingFace herunterzuladen, benötigen Sie ein Zugriffstoken:

  1. Besuchen Sie die HuggingFace-Website und melden Sie sich bei Ihrem Konto an
  2. Gehen Sie zu Ihren Profileinstellungen
  3. Navigieren Sie zum Abschnitt "Access Tokens"
  4. Klicken Sie auf die Schaltfläche "Create new token"
  5. Konfigurieren Sie Ihr Token:
    • Name: Geben Sie Ihrem Token einen beschreibenden Namen
    • Role: Wählen Sie "read" für das Herunterladen von Modellen
  6. Klicken Sie auf die Schaltfläche "Create token"
  7. Kopieren und speichern Sie das generierte Token sicher - Sie werden es später benötigen

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Konfigurationsleitfaden

Modell auswählen

Die Plattform bietet eine integrierte vLLM-Framework-Version 0.6.2-Umgebung. Hier ist, was Sie konfigurieren müssen:

  • HuggingFace Model: Geben Sie den Zielmodellnamen ein (z. B. meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace Token: Optionales Authentifizierungstoken
    • Erforderlich für bestimmte Modelle und Datasets
    • Automatisch als HUGGING_FACE_HUB_TOKEN-Umgebungsvariable im Container gesetzt
    • Fügen Sie das zuvor generierte Token ein

vLLM-Parameter

Dies sind optionale erweiterte Einstellungen für das vLLM-Framework. Ändern Sie mit Vorsicht:

  • Tensor Parallel Degree: Für Multi-GPU-Inferenz
  • Max Total Tokens: Begrenzen Sie die Gesamtlänge der Antwort
  • Quantization: Modellkompressionsoptionen
  • Trust Remote Code: Aktivieren Sie für Modelle, die benutzerdefinierten Code erfordern

Hinweis: Bitte stellen Sie sicher, dass Sie diese Parameter verstehen, bevor Sie sie von ihren Standardwerten ändern.

Endpoint-Parameter

Konfigurieren Sie Ihre Bereitstellungsumgebung:

  • Endpoint Name: Automatisch generiert, aber anpassbar
  • GPU-Konfiguration:
    • Wählen Sie den GPU-Typ (A100, H100, L4 usw.)
    • Geben Sie die Anzahl der GPUs pro Worker an
  • Data Center: Wählen Sie die Bereitstellungsregion
  • Storage:
    • Stark empfohlen: Network Volume auf /root/.cache/huggingface mounten
    • Dies ermöglicht Modellpersistenz über Neustarts hinweg
    • Beschleunigt nachfolgende Bereitstellungen durch Zwischenspeicherung von Modelldateien

Tipp: Persistenter Speicher verbessert die Startzeit für nachfolgende Bereitstellungen erheblich, indem wiederholte Modell-Downloads vermieden werden.

quick deploy 02 quick deploy 01 quick deploy 02

Nach der Bereitstellung ist Ihr vLLM-Endpoint bereit, Inferenz-Anfragen zu bedienen. Das System wird automatisch das Herunterladen und die Initialisierung des Modells verwalten.