Tutoriels

vLLM

Créer un stockage

Tout d'abord, créez un volume de stockage persistant pour stocker les fichiers de modèle :

  1. Accédez à la page Storage
  2. Cliquez sur le bouton "New Network Volume"
  3. Remplissez les détails du stockage :
    • Volume Name : Donnez un nom descriptif à votre stockage
    • GB : Choisissez une taille appropriée en fonction des exigences de votre modèle
    • Data Center : Choisissez la même région où vous déploierez votre serverless

create storage 01 create storage 02

Obtenir un token HuggingFace

Pour télécharger des modèles depuis HuggingFace, vous aurez besoin d'un jeton d'accès :

  1. Visitez le site Web HuggingFace et connectez-vous à votre compte
  2. Accédez aux paramètres de votre profil
  3. Accédez à la section "Access Tokens"
  4. Cliquez sur le bouton "Create new token"
  5. Configurez votre jeton :
    • Name : Donnez un nom descriptif à votre jeton
    • Role : Sélectionnez "read" pour le téléchargement de modèles
  6. Cliquez sur le bouton "Create token"
  7. Copiez et sauvegardez le jeton généré en toute sécurité - vous en aurez besoin plus tard

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Guide de configuration

Choisir le modèle

La plateforme fournit un environnement de framework vLLM version 0.6.2 intégré. Voici ce que vous devez configurer :

  • HuggingFace Model : Entrez le nom du modèle cible (par ex., meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace Token : Jeton d'authentification facultatif
    • Requis pour certains modèles et ensembles de données
    • Automatiquement défini comme variable d'environnement HUGGING_FACE_HUB_TOKEN dans le conteneur
    • Collez le jeton que vous avez généré précédemment

Paramètres vLLM

Ce sont des paramètres avancés facultatifs pour le framework vLLM. Modifiez avec précaution :

  • Tensor Parallel Degree : Pour l'inférence multi-GPU
  • Max Total Tokens : Limiter la longueur totale de réponse
  • Quantization : Options de compression du modèle
  • Trust Remote Code : Activer pour les modèles nécessitant du code personnalisé

Remarque : Assurez-vous de comprendre ces paramètres avant de les modifier à partir de leurs valeurs par défaut.

Paramètres de l'Endpoint

Configurez votre environnement de déploiement :

  • Endpoint Name : Auto-généré mais personnalisable
  • Configuration GPU :
    • Sélectionnez le type de GPU (A100, H100, L4, etc.)
    • Spécifiez le nombre de GPUs par worker
  • Data Center : Choisissez la région de déploiement
  • Storage :
    • Fortement recommandé : Montez le Network Volume sur /root/.cache/huggingface
    • Cela permet la persistance du modèle à travers les redémarrages
    • Accélère les déploiements ultérieurs en mettant en cache les fichiers de modèle

Conseil : Le stockage persistant améliore considérablement le temps de démarrage pour les déploiements ultérieurs en évitant les téléchargements répétés de modèles.

quick deploy 02 quick deploy 01 quick deploy 02

Après le déploiement, votre endpoint vLLM sera prêt à servir des requêtes d'inférence. Le système gérera automatiquement le téléchargement et l'initialisation du modèle.