vLLM
Creare Storage
Prima, crea un volume di storage persistente per archiviare i file del modello:
- Vai alla pagina Storage
- Fai clic sul pulsante "Nuovo Volume di Rete"
- Compila i dettagli dello storage:
- Nome Volume: Dai al tuo storage un nome descrittivo
- GB: Scegli la dimensione appropriata in base ai requisiti del tuo modello
- Data Center: Scegli la stessa regione dove distribuirai il tuo serverless

Ottenere il Token HuggingFace
Per scaricare modelli da HuggingFace, avrai bisogno di un token di accesso:
- Visita il sito web HuggingFace e accedi al tuo account
- Vai alle impostazioni del tuo profilo
- Naviga nella sezione "Access Tokens"
- Fai clic sul pulsante "Create new token"
- Configura il tuo token:
- Nome: Dai al tuo token un nome descrittivo
- Ruolo: Seleziona "read" per il download del modello
- Fai clic sul pulsante "Create token"
- Copia e salva il token generato in modo sicuro - ne avrai bisogno più tardi

Guida alla Configurazione
Scegliere il Modello
La piattaforma fornisce un ambiente framework vLLM integrato versione 0.6.2. Ecco cosa devi configurare:
- Modello HuggingFace: Inserisci il nome del modello target (es. meta-llama/Llama-2-7b-chat-hf)
- Token HuggingFace: Token di autenticazione opzionale
- Richiesto per alcuni modelli e dataset
- Automaticamente impostato come variabile d'ambiente
HUGGING_FACE_HUB_TOKENnel container - Incolla il token che hai generato in precedenza
Parametri vLLM
Queste sono impostazioni avanzate opzionali per il framework vLLM. Modificare con cautela:
- Tensor Parallel Degree: Per inferenza multi-GPU
- Max Total Tokens: Limita la lunghezza totale della risposta
- Quantization: Opzioni di compressione del modello
- Trust Remote Code: Abilita per modelli che richiedono codice personalizzato
Nota: Assicurati di comprendere questi parametri prima di modificarli dai loro valori predefiniti.
Parametri Endpoint
Configura il tuo ambiente di distribuzione:
- Nome Endpoint: Generato automaticamente ma personalizzabile
- Configurazione GPU:
- Seleziona il tipo di GPU (A100, H100, L4, ecc.)
- Specifica il numero di GPU per worker
- Data Center: Scegli la regione di distribuzione
- Storage:
- Fortemente raccomandato: Monta il Volume di Rete su
/root/.cache/huggingface - Questo abilita la persistenza del modello attraverso i riavvii
- Accelera le distribuzioni successive memorizzando in cache i file del modello
- Fortemente raccomandato: Monta il Volume di Rete su
Suggerimento: Lo storage persistente migliora significativamente il tempo di avvio per le distribuzioni successive evitando download ripetuti del modello.

Dopo la distribuzione, il tuo endpoint vLLM sarà pronto per servire richieste di inferenza. Il sistema gestirà automaticamente il download e l'inizializzazione del modello.