教學
vLLM
建立儲存
首先,建立持久化儲存磁碟區以儲存模型檔案:
- 導覽至 Storage 頁面
- 點擊「New Network Volume」按鈕
- 填寫儲存詳細資訊:
- Volume Name:為您的儲存提供描述性名稱
- GB:根據您的模型需求選擇適當的大小
- Data Center:選擇與您將部署 serverless 的相同區域

取得 HuggingFace Token
要從 HuggingFace 下載模型,您需要存取權杖:
- 造訪 HuggingFace 網站並登入您的帳戶
- 前往您的個人資料設定
- 導覽至「Access Tokens」區段
- 點擊「Create new token」按鈕
- 配置您的權杖:
- Name:為您的權杖提供描述性名稱
- Role:選擇「read」以下載模型
- 點擊「Create token」按鈕
- 安全地複製並保存生成的權杖 - 您稍後將需要它

配置指南
選擇模型
平台提供內建的 vLLM 框架版本 0.6.2 環境。以下是您需要配置的內容:
- HuggingFace Model:輸入目標模型名稱(例如,meta-llama/Llama-2-7b-chat-hf)
- HuggingFace Token:選用的驗證權杖
- 某些模型和資料集需要
- 自動在容器中設定為
HUGGING_FACE_HUB_TOKEN環境變數 - 貼上您之前生成的權杖
vLLM 參數
這些是 vLLM 框架的選用進階設定。請謹慎修改:
- Tensor Parallel Degree:用於多 GPU 推理
- Max Total Tokens:限制總回應長度
- Quantization:模型壓縮選項
- Trust Remote Code:為需要自訂程式碼的模型啟用
注意:在修改這些參數的預設值之前,請確保您了解它們。
Endpoint 參數
配置您的部署環境:
- Endpoint Name:自動生成但可自訂
- GPU 配置:
- 選擇 GPU 類型(A100、H100、L4 等)
- 指定每個 worker 的 GPU 數量
- Data Center:選擇部署區域
- 儲存:
- 強烈建議:將 Network Volume 掛載到
/root/.cache/huggingface - 這使模型在重啟時保持持久性
- 透過快取模型檔案加快後續部署
- 強烈建議:將 Network Volume 掛載到
提示:持久化儲存透過避免重複下載模型,顯著改善後續部署的啟動時間。

部署後,您的 vLLM 端點將準備好服務推理請求。系統將自動處理模型下載和初始化。