vLLM
Crear almacenamiento
Primero, cree un volumen de almacenamiento persistente para almacenar los archivos del modelo:
- Ir a la página de almacenamiento
- Hacer clic en el botón "Nuevo volumen de red"
- Ingresar los detalles del almacenamiento:
- Nombre del volumen: Dar un nombre descriptivo al almacenamiento
- GB: Seleccionar un tamaño apropiado según los requisitos del modelo
- Centro de datos: Seleccionar la misma región donde implementará serverless

Obtener token de HuggingFace
Para descargar modelos desde HuggingFace, necesita un token de acceso:
- Visitar el sitio web de HuggingFace e iniciar sesión en su cuenta
- Ir a la configuración del perfil
- Navegar a la sección "Tokens de acceso"
- Hacer clic en el botón "Crear nuevo token"
- Configurar el token:
- Nombre: Dar un nombre descriptivo al token
- Rol: Seleccionar "read" para la descarga de modelos
- Hacer clic en el botón "Generar token"
- Copiar y guardar de forma segura el token generado - lo necesitará más adelante

Guía de configuración
Selección de modelo
La plataforma proporciona un entorno de framework vLLM integrado versión 0.6.2. Esto es lo que necesita configurar:
- Modelo HuggingFace: Ingresar el nombre del modelo objetivo (por ejemplo, meta-llama/Llama-2-7b-chat-hf)
- Token HuggingFace: Token de autenticación opcional
- Requerido para ciertos modelos y conjuntos de datos
- Se configura automáticamente como variable de entorno
HUGGING_FACE_HUB_TOKENen el contenedor - Pegar el token creado anteriormente
Parámetros vLLM
Configuración avanzada opcional para el framework vLLM. Modifique con precaución:
- Tensor Parallel Degree: Para inferencia multi-GPU
- Max Total Tokens: Límite de longitud de respuesta total
- Quantization: Opciones de compresión de modelo
- Trust Remote Code: Habilitar para modelos que requieren código personalizado
Nota: Asegúrese de comprender estos parámetros antes de modificar los valores predeterminados.
Parámetros de Endpoint
Configurar el entorno de implementación:
- Nombre de Endpoint: Generado automáticamente pero personalizable
- Configuración de GPU:
- Seleccionar tipo de GPU (A100, H100, L4, etc.)
- Especificar número de GPUs por worker
- Centro de datos: Seleccionar región de implementación
- Almacenamiento:
- Altamente recomendado: Montar volumen de red en
/root/.cache/huggingface - Habilita la persistencia del modelo entre reinicios
- Acelera implementaciones posteriores almacenando en caché archivos de modelo
- Altamente recomendado: Montar volumen de red en
Consejo: El almacenamiento persistente mejora significativamente el tiempo de inicio de implementaciones posteriores al evitar descargas de modelo repetidas.

Después de la implementación, su Endpoint vLLM estará listo para manejar solicitudes de inferencia. El sistema maneja automáticamente la descarga e inicialización del modelo.