vLLM
Создание хранилища
Сначала создайте постоянный том хранилища для хранения файлов моделей:
- Перейдите на страницу Storage
- Нажмите кнопку "New Network Volume"
- Заполните детали хранилища:
- Volume Name: Дайте вашему хранилищу описательное имя
- GB: Выберите подходящий размер в зависимости от требований вашей модели
- Data Center: Выберите тот же регион, где вы будете развёртывать ваш serverless

Получение токена HuggingFace
Для загрузки моделей из HuggingFace вам понадобится токен доступа:
- Посетите сайт HuggingFace и войдите в свой аккаунт
- Перейдите в настройки вашего профиля
- Перейдите в раздел "Access Tokens"
- Нажмите кнопку "Create new token"
- Настройте ваш токен:
- Name: Дайте вашему токену описательное имя
- Role: Выберите "read" для загрузки моделей
- Нажмите кнопку "Create token"
- Скопируйте и сохраните сгенерированный токен в безопасном месте - он понадобится вам позже

Руководство по конфигурации
Выбор модели
Платформа предоставляет встроенное окружение фреймворка vLLM версии 0.6.2. Вот что вам нужно настроить:
- HuggingFace Model: Введите имя целевой модели (например, meta-llama/Llama-2-7b-chat-hf)
- HuggingFace Token: Опциональный токен аутентификации
- Требуется для определённых моделей и наборов данных
- Автоматически устанавливается как переменная окружения
HUGGING_FACE_HUB_TOKENв контейнере - Вставьте токен, который вы создали ранее
Параметры vLLM
Это опциональные расширенные настройки для фреймворка vLLM. Изменяйте с осторожностью:
- Tensor Parallel Degree: Для инференса на нескольких GPU
- Max Total Tokens: Ограничение общей длины ответа
- Quantization: Опции сжатия модели
- Trust Remote Code: Включите для моделей, требующих пользовательский код
Примечание: Пожалуйста, убедитесь, что вы понимаете эти параметры, прежде чем изменять их значения по умолчанию.
Параметры Endpoint
Настройте ваше окружение развёртывания:
- Endpoint Name: Автоматически генерируется, но настраивается
- GPU Configuration:
- Выберите тип GPU (A100, H100, L4 и т.д.)
- Укажите количество GPU на воркер
- Data Center: Выберите регион развёртывания
- Storage:
- Настоятельно рекомендуется: Монтировать Network Volume в
/root/.cache/huggingface - Это обеспечивает сохранность модели при перезапусках
- Ускоряет последующие развёртывания за счёт кэширования файлов моделей
- Настоятельно рекомендуется: Монтировать Network Volume в
Совет: Постоянное хранилище значительно улучшает время запуска для последующих развёртываний, избегая повторных загрузок моделей.

После развёртывания ваш vLLM endpoint будет готов к обслуживанию запросов инференса. Система автоматически обработает загрузку и инициализацию модели.