vLLM

Crear almacenamiento

Primero, cree un volumen de almacenamiento persistente para almacenar los archivos del modelo:

Ir a la página de almacenamiento
Hacer clic en el botón "Nuevo volumen de red"
Ingresar los detalles del almacenamiento:
- Nombre del volumen: Dar un nombre descriptivo al almacenamiento
- GB: Seleccionar un tamaño apropiado según los requisitos del modelo
- Centro de datos: Seleccionar la misma región donde implementará serverless

create storage 01 create storage 02

Obtener token de HuggingFace

Para descargar modelos desde HuggingFace, necesita un token de acceso:

Visitar el sitio web de HuggingFace e iniciar sesión en su cuenta
Ir a la configuración del perfil
Navegar a la sección "Tokens de acceso"
Hacer clic en el botón "Crear nuevo token"
Configurar el token:
- Nombre: Dar un nombre descriptivo al token
- Rol: Seleccionar "read" para la descarga de modelos
Hacer clic en el botón "Generar token"
Copiar y guardar de forma segura el token generado - lo necesitará más adelante

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Guía de configuración

Selección de modelo

La plataforma proporciona un entorno de framework vLLM integrado versión 0.6.2. Esto es lo que necesita configurar:

Modelo HuggingFace: Ingresar el nombre del modelo objetivo (por ejemplo, meta-llama/Llama-2-7b-chat-hf)
Token HuggingFace: Token de autenticación opcional
- Requerido para ciertos modelos y conjuntos de datos
- Se configura automáticamente como variable de entorno HUGGING_FACE_HUB_TOKEN en el contenedor
- Pegar el token creado anteriormente

Parámetros vLLM

Configuración avanzada opcional para el framework vLLM. Modifique con precaución:

Tensor Parallel Degree: Para inferencia multi-GPU
Max Total Tokens: Límite de longitud de respuesta total
Quantization: Opciones de compresión de modelo
Trust Remote Code: Habilitar para modelos que requieren código personalizado

Nota: Asegúrese de comprender estos parámetros antes de modificar los valores predeterminados.

Parámetros de Endpoint

Configurar el entorno de implementación:

Nombre de Endpoint: Generado automáticamente pero personalizable
Configuración de GPU:
- Seleccionar tipo de GPU (A100, H100, L4, etc.)
- Especificar número de GPUs por worker
Centro de datos: Seleccionar región de implementación
Almacenamiento:
- Altamente recomendado: Montar volumen de red en /root/.cache/huggingface
- Habilita la persistencia del modelo entre reinicios
- Acelera implementaciones posteriores almacenando en caché archivos de modelo

Consejo: El almacenamiento persistente mejora significativamente el tiempo de inicio de implementaciones posteriores al evitar descargas de modelo repetidas.

quick deploy 02 quick deploy 01

Después de la implementación, su Endpoint vLLM estará listo para manejar solicitudes de inferencia. El sistema maneja automáticamente la descarga e inicialización del modelo.