vLLM
Créer un stockage
Tout d'abord, créez un volume de stockage persistant pour stocker les fichiers de modèle :
- Accédez à la page Storage
- Cliquez sur le bouton "New Network Volume"
- Remplissez les détails du stockage :
- Volume Name : Donnez un nom descriptif à votre stockage
- GB : Choisissez une taille appropriée en fonction des exigences de votre modèle
- Data Center : Choisissez la même région où vous déploierez votre serverless

Obtenir un token HuggingFace
Pour télécharger des modèles depuis HuggingFace, vous aurez besoin d'un jeton d'accès :
- Visitez le site Web HuggingFace et connectez-vous à votre compte
- Accédez aux paramètres de votre profil
- Accédez à la section "Access Tokens"
- Cliquez sur le bouton "Create new token"
- Configurez votre jeton :
- Name : Donnez un nom descriptif à votre jeton
- Role : Sélectionnez "read" pour le téléchargement de modèles
- Cliquez sur le bouton "Create token"
- Copiez et sauvegardez le jeton généré en toute sécurité - vous en aurez besoin plus tard

Guide de configuration
Choisir le modèle
La plateforme fournit un environnement de framework vLLM version 0.6.2 intégré. Voici ce que vous devez configurer :
- HuggingFace Model : Entrez le nom du modèle cible (par ex., meta-llama/Llama-2-7b-chat-hf)
- HuggingFace Token : Jeton d'authentification facultatif
- Requis pour certains modèles et ensembles de données
- Automatiquement défini comme variable d'environnement
HUGGING_FACE_HUB_TOKENdans le conteneur - Collez le jeton que vous avez généré précédemment
Paramètres vLLM
Ce sont des paramètres avancés facultatifs pour le framework vLLM. Modifiez avec précaution :
- Tensor Parallel Degree : Pour l'inférence multi-GPU
- Max Total Tokens : Limiter la longueur totale de réponse
- Quantization : Options de compression du modèle
- Trust Remote Code : Activer pour les modèles nécessitant du code personnalisé
Remarque : Assurez-vous de comprendre ces paramètres avant de les modifier à partir de leurs valeurs par défaut.
Paramètres de l'Endpoint
Configurez votre environnement de déploiement :
- Endpoint Name : Auto-généré mais personnalisable
- Configuration GPU :
- Sélectionnez le type de GPU (A100, H100, L4, etc.)
- Spécifiez le nombre de GPUs par worker
- Data Center : Choisissez la région de déploiement
- Storage :
- Fortement recommandé : Montez le Network Volume sur
/root/.cache/huggingface - Cela permet la persistance du modèle à travers les redémarrages
- Accélère les déploiements ultérieurs en mettant en cache les fichiers de modèle
- Fortement recommandé : Montez le Network Volume sur
Conseil : Le stockage persistant améliore considérablement le temps de démarrage pour les déploiements ultérieurs en évitant les téléchargements répétés de modèles.

Après le déploiement, votre endpoint vLLM sera prêt à servir des requêtes d'inférence. Le système gérera automatiquement le téléchargement et l'initialisation du modèle.