教程
vLLM
创建存储
首先,创建一个持久化存储卷来存储模型文件:
- 导航到存储页面
- 点击 "New Network Volume" 按钮
- 填写存储详细信息:
- Volume Name: 为您的存储提供一个描述性名称
- GB: 根据您的模型需求选择合适的大小
- Data Center: 选择您将部署 serverless 的相同区域

获取 HuggingFace Token
要从 HuggingFace 下载模型,您需要一个访问令牌:
- 访问 HuggingFace 网站并登录您的账户
- 转到您的个人资料设置
- 导航到 "Access Tokens" 部分
- 点击 "Create new token" 按钮
- 配置您的令牌:
- Name: 为您的令牌提供一个描述性名称
- Role: 选择 "read" 用于模型下载
- 点击 "Create token" 按钮
- 复制并安全保存生成的令牌 - 稍后您会需要它

配置指南
选择模型
平台提供内置的 vLLM 框架 0.6.2 版本环境。以下是您需要配置的内容:
- HuggingFace Model: 输入目标模型名称(例如,meta-llama/Llama-2-7b-chat-hf)
- HuggingFace Token: 可选的身份验证令牌
- 某些模型和数据集需要
- 自动设置为容器中的
HUGGING_FACE_HUB_TOKEN环境变量 - 粘贴您之前生成的令牌
vLLM 参数
这些是 vLLM 框架的可选高级设置。请谨慎修改:
- Tensor Parallel Degree: 用于多 GPU 推理
- Max Total Tokens: 限制总响应长度
- Quantization: 模型压缩选项
- Trust Remote Code: 为需要自定义代码的模型启用
注意: 在从默认值修改这些参数之前,请确保您理解它们。
Endpoint 参数
配置您的部署环境:
- Endpoint Name: 自动生成但可自定义
- GPU 配置:
- 选择 GPU 类型(A100、H100、L4 等)
- 指定每个 worker 的 GPU 数量
- Data Center: 选择部署区域
- 存储:
- 强烈建议: 将网络卷挂载到
/root/.cache/huggingface - 这使模型在重启后持久化
- 通过缓存模型文件加快后续部署
- 强烈建议: 将网络卷挂载到
提示: 持久化存储通过避免重复模型下载显著改善后续部署的启动时间。

部署后,您的 vLLM 端点将准备好处理推理请求。系统将自动处理模型下载和初始化。