教程

vLLM

创建存储

首先,创建一个持久化存储卷来存储模型文件:

  1. 导航到存储页面
  2. 点击 "New Network Volume" 按钮
  3. 填写存储详细信息:
    • Volume Name: 为您的存储提供一个描述性名称
    • GB: 根据您的模型需求选择合适的大小
    • Data Center: 选择您将部署 serverless 的相同区域

create storage 01 create storage 02

获取 HuggingFace Token

要从 HuggingFace 下载模型,您需要一个访问令牌:

  1. 访问 HuggingFace 网站并登录您的账户
  2. 转到您的个人资料设置
  3. 导航到 "Access Tokens" 部分
  4. 点击 "Create new token" 按钮
  5. 配置您的令牌:
    • Name: 为您的令牌提供一个描述性名称
    • Role: 选择 "read" 用于模型下载
  6. 点击 "Create token" 按钮
  7. 复制并安全保存生成的令牌 - 稍后您会需要它

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

配置指南

选择模型

平台提供内置的 vLLM 框架 0.6.2 版本环境。以下是您需要配置的内容:

  • HuggingFace Model: 输入目标模型名称(例如,meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace Token: 可选的身份验证令牌
    • 某些模型和数据集需要
    • 自动设置为容器中的 HUGGING_FACE_HUB_TOKEN 环境变量
    • 粘贴您之前生成的令牌

vLLM 参数

这些是 vLLM 框架的可选高级设置。请谨慎修改:

  • Tensor Parallel Degree: 用于多 GPU 推理
  • Max Total Tokens: 限制总响应长度
  • Quantization: 模型压缩选项
  • Trust Remote Code: 为需要自定义代码的模型启用

注意: 在从默认值修改这些参数之前,请确保您理解它们。

Endpoint 参数

配置您的部署环境:

  • Endpoint Name: 自动生成但可自定义
  • GPU 配置:
    • 选择 GPU 类型(A100、H100、L4 等)
    • 指定每个 worker 的 GPU 数量
  • Data Center: 选择部署区域
  • 存储:
    • 强烈建议: 将网络卷挂载到 /root/.cache/huggingface
    • 这使模型在重启后持久化
    • 通过缓存模型文件加快后续部署

提示: 持久化存储通过避免重复模型下载显著改善后续部署的启动时间。

quick deploy 02 quick deploy 01 quick deploy 02

部署后,您的 vLLM 端点将准备好处理推理请求。系统将自动处理模型下载和初始化。