Tutoriales

vLLM

Crear almacenamiento

Primero, cree un volumen de almacenamiento persistente para almacenar los archivos del modelo:

  1. Ir a la página de almacenamiento
  2. Hacer clic en el botón "Nuevo volumen de red"
  3. Ingresar los detalles del almacenamiento:
    • Nombre del volumen: Dar un nombre descriptivo al almacenamiento
    • GB: Seleccionar un tamaño apropiado según los requisitos del modelo
    • Centro de datos: Seleccionar la misma región donde implementará serverless

create storage 01 create storage 02

Obtener token de HuggingFace

Para descargar modelos desde HuggingFace, necesita un token de acceso:

  1. Visitar el sitio web de HuggingFace e iniciar sesión en su cuenta
  2. Ir a la configuración del perfil
  3. Navegar a la sección "Tokens de acceso"
  4. Hacer clic en el botón "Crear nuevo token"
  5. Configurar el token:
    • Nombre: Dar un nombre descriptivo al token
    • Rol: Seleccionar "read" para la descarga de modelos
  6. Hacer clic en el botón "Generar token"
  7. Copiar y guardar de forma segura el token generado - lo necesitará más adelante

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Guía de configuración

Selección de modelo

La plataforma proporciona un entorno de framework vLLM integrado versión 0.6.2. Esto es lo que necesita configurar:

  • Modelo HuggingFace: Ingresar el nombre del modelo objetivo (por ejemplo, meta-llama/Llama-2-7b-chat-hf)
  • Token HuggingFace: Token de autenticación opcional
    • Requerido para ciertos modelos y conjuntos de datos
    • Se configura automáticamente como variable de entorno HUGGING_FACE_HUB_TOKEN en el contenedor
    • Pegar el token creado anteriormente

Parámetros vLLM

Configuración avanzada opcional para el framework vLLM. Modifique con precaución:

  • Tensor Parallel Degree: Para inferencia multi-GPU
  • Max Total Tokens: Límite de longitud de respuesta total
  • Quantization: Opciones de compresión de modelo
  • Trust Remote Code: Habilitar para modelos que requieren código personalizado

Nota: Asegúrese de comprender estos parámetros antes de modificar los valores predeterminados.

Parámetros de Endpoint

Configurar el entorno de implementación:

  • Nombre de Endpoint: Generado automáticamente pero personalizable
  • Configuración de GPU:
    • Seleccionar tipo de GPU (A100, H100, L4, etc.)
    • Especificar número de GPUs por worker
  • Centro de datos: Seleccionar región de implementación
  • Almacenamiento:
    • Altamente recomendado: Montar volumen de red en /root/.cache/huggingface
    • Habilita la persistencia del modelo entre reinicios
    • Acelera implementaciones posteriores almacenando en caché archivos de modelo

Consejo: El almacenamiento persistente mejora significativamente el tiempo de inicio de implementaciones posteriores al evitar descargas de modelo repetidas.

quick deploy 02 quick deploy 01 quick deploy 02

Después de la implementación, su Endpoint vLLM estará listo para manejar solicitudes de inferencia. El sistema maneja automáticamente la descarga e inicialización del modelo.