Tutorial

vLLM

Creare Storage

Prima, crea un volume di storage persistente per archiviare i file del modello:

  1. Vai alla pagina Storage
  2. Fai clic sul pulsante "Nuovo Volume di Rete"
  3. Compila i dettagli dello storage:
    • Nome Volume: Dai al tuo storage un nome descrittivo
    • GB: Scegli la dimensione appropriata in base ai requisiti del tuo modello
    • Data Center: Scegli la stessa regione dove distribuirai il tuo serverless

create storage 01 create storage 02

Ottenere il Token HuggingFace

Per scaricare modelli da HuggingFace, avrai bisogno di un token di accesso:

  1. Visita il sito web HuggingFace e accedi al tuo account
  2. Vai alle impostazioni del tuo profilo
  3. Naviga nella sezione "Access Tokens"
  4. Fai clic sul pulsante "Create new token"
  5. Configura il tuo token:
    • Nome: Dai al tuo token un nome descrittivo
    • Ruolo: Seleziona "read" per il download del modello
  6. Fai clic sul pulsante "Create token"
  7. Copia e salva il token generato in modo sicuro - ne avrai bisogno più tardi

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Guida alla Configurazione

Scegliere il Modello

La piattaforma fornisce un ambiente framework vLLM integrato versione 0.6.2. Ecco cosa devi configurare:

  • Modello HuggingFace: Inserisci il nome del modello target (es. meta-llama/Llama-2-7b-chat-hf)
  • Token HuggingFace: Token di autenticazione opzionale
    • Richiesto per alcuni modelli e dataset
    • Automaticamente impostato come variabile d'ambiente HUGGING_FACE_HUB_TOKEN nel container
    • Incolla il token che hai generato in precedenza

Parametri vLLM

Queste sono impostazioni avanzate opzionali per il framework vLLM. Modificare con cautela:

  • Tensor Parallel Degree: Per inferenza multi-GPU
  • Max Total Tokens: Limita la lunghezza totale della risposta
  • Quantization: Opzioni di compressione del modello
  • Trust Remote Code: Abilita per modelli che richiedono codice personalizzato

Nota: Assicurati di comprendere questi parametri prima di modificarli dai loro valori predefiniti.

Parametri Endpoint

Configura il tuo ambiente di distribuzione:

  • Nome Endpoint: Generato automaticamente ma personalizzabile
  • Configurazione GPU:
    • Seleziona il tipo di GPU (A100, H100, L4, ecc.)
    • Specifica il numero di GPU per worker
  • Data Center: Scegli la regione di distribuzione
  • Storage:
    • Fortemente raccomandato: Monta il Volume di Rete su /root/.cache/huggingface
    • Questo abilita la persistenza del modello attraverso i riavvii
    • Accelera le distribuzioni successive memorizzando in cache i file del modello

Suggerimento: Lo storage persistente migliora significativamente il tempo di avvio per le distribuzioni successive evitando download ripetuti del modello.

quick deploy 02 quick deploy 01 quick deploy 02

Dopo la distribuzione, il tuo endpoint vLLM sarà pronto per servire richieste di inferenza. Il sistema gestirà automaticamente il download e l'inizializzazione del modello.