教學

vLLM

建立儲存

首先,建立持久化儲存磁碟區以儲存模型檔案:

  1. 導覽至 Storage 頁面
  2. 點擊「New Network Volume」按鈕
  3. 填寫儲存詳細資訊:
    • Volume Name:為您的儲存提供描述性名稱
    • GB:根據您的模型需求選擇適當的大小
    • Data Center:選擇與您將部署 serverless 的相同區域

create storage 01 create storage 02

取得 HuggingFace Token

要從 HuggingFace 下載模型,您需要存取權杖:

  1. 造訪 HuggingFace 網站並登入您的帳戶
  2. 前往您的個人資料設定
  3. 導覽至「Access Tokens」區段
  4. 點擊「Create new token」按鈕
  5. 配置您的權杖:
    • Name:為您的權杖提供描述性名稱
    • Role:選擇「read」以下載模型
  6. 點擊「Create token」按鈕
  7. 安全地複製並保存生成的權杖 - 您稍後將需要它

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

配置指南

選擇模型

平台提供內建的 vLLM 框架版本 0.6.2 環境。以下是您需要配置的內容:

  • HuggingFace Model:輸入目標模型名稱(例如,meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace Token:選用的驗證權杖
    • 某些模型和資料集需要
    • 自動在容器中設定為 HUGGING_FACE_HUB_TOKEN 環境變數
    • 貼上您之前生成的權杖

vLLM 參數

這些是 vLLM 框架的選用進階設定。請謹慎修改:

  • Tensor Parallel Degree:用於多 GPU 推理
  • Max Total Tokens:限制總回應長度
  • Quantization:模型壓縮選項
  • Trust Remote Code:為需要自訂程式碼的模型啟用

注意:在修改這些參數的預設值之前,請確保您了解它們。

Endpoint 參數

配置您的部署環境:

  • Endpoint Name:自動生成但可自訂
  • GPU 配置
    • 選擇 GPU 類型(A100、H100、L4 等)
    • 指定每個 worker 的 GPU 數量
  • Data Center:選擇部署區域
  • 儲存
    • 強烈建議:將 Network Volume 掛載到 /root/.cache/huggingface
    • 這使模型在重啟時保持持久性
    • 透過快取模型檔案加快後續部署

提示:持久化儲存透過避免重複下載模型,顯著改善後續部署的啟動時間。

quick deploy 02 quick deploy 01 quick deploy 02

部署後,您的 vLLM 端點將準備好服務推理請求。系統將自動處理模型下載和初始化。