Tutorials

vLLM

Создание хранилища

Сначала создайте постоянный том хранилища для хранения файлов моделей:

  1. Перейдите на страницу Storage
  2. Нажмите кнопку "New Network Volume"
  3. Заполните детали хранилища:
    • Volume Name: Дайте вашему хранилищу описательное имя
    • GB: Выберите подходящий размер в зависимости от требований вашей модели
    • Data Center: Выберите тот же регион, где вы будете развёртывать ваш serverless

create storage 01 create storage 02

Получение токена HuggingFace

Для загрузки моделей из HuggingFace вам понадобится токен доступа:

  1. Посетите сайт HuggingFace и войдите в свой аккаунт
  2. Перейдите в настройки вашего профиля
  3. Перейдите в раздел "Access Tokens"
  4. Нажмите кнопку "Create new token"
  5. Настройте ваш токен:
    • Name: Дайте вашему токену описательное имя
    • Role: Выберите "read" для загрузки моделей
  6. Нажмите кнопку "Create token"
  7. Скопируйте и сохраните сгенерированный токен в безопасном месте - он понадобится вам позже

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Руководство по конфигурации

Выбор модели

Платформа предоставляет встроенное окружение фреймворка vLLM версии 0.6.2. Вот что вам нужно настроить:

  • HuggingFace Model: Введите имя целевой модели (например, meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace Token: Опциональный токен аутентификации
    • Требуется для определённых моделей и наборов данных
    • Автоматически устанавливается как переменная окружения HUGGING_FACE_HUB_TOKEN в контейнере
    • Вставьте токен, который вы создали ранее

Параметры vLLM

Это опциональные расширенные настройки для фреймворка vLLM. Изменяйте с осторожностью:

  • Tensor Parallel Degree: Для инференса на нескольких GPU
  • Max Total Tokens: Ограничение общей длины ответа
  • Quantization: Опции сжатия модели
  • Trust Remote Code: Включите для моделей, требующих пользовательский код

Примечание: Пожалуйста, убедитесь, что вы понимаете эти параметры, прежде чем изменять их значения по умолчанию.

Параметры Endpoint

Настройте ваше окружение развёртывания:

  • Endpoint Name: Автоматически генерируется, но настраивается
  • GPU Configuration:
    • Выберите тип GPU (A100, H100, L4 и т.д.)
    • Укажите количество GPU на воркер
  • Data Center: Выберите регион развёртывания
  • Storage:
    • Настоятельно рекомендуется: Монтировать Network Volume в /root/.cache/huggingface
    • Это обеспечивает сохранность модели при перезапусках
    • Ускоряет последующие развёртывания за счёт кэширования файлов моделей

Совет: Постоянное хранилище значительно улучшает время запуска для последующих развёртываний, избегая повторных загрузок моделей.

quick deploy 02 quick deploy 01 quick deploy 02

После развёртывания ваш vLLM endpoint будет готов к обслуживанию запросов инференса. Система автоматически обработает загрузку и инициализацию модели.