vLLM

Создание хранилища

Сначала создайте постоянный том хранилища для хранения файлов моделей:

Перейдите на страницу Storage
Нажмите кнопку "New Network Volume"
Заполните детали хранилища:
- Volume Name: Дайте вашему хранилищу описательное имя
- GB: Выберите подходящий размер в зависимости от требований вашей модели
- Data Center: Выберите тот же регион, где вы будете развёртывать ваш serverless

create storage 01 create storage 02

Получение токена HuggingFace

Для загрузки моделей из HuggingFace вам понадобится токен доступа:

Посетите сайт HuggingFace и войдите в свой аккаунт
Перейдите в настройки вашего профиля
Перейдите в раздел "Access Tokens"
Нажмите кнопку "Create new token"
Настройте ваш токен:
- Name: Дайте вашему токену описательное имя
- Role: Выберите "read" для загрузки моделей
Нажмите кнопку "Create token"
Скопируйте и сохраните сгенерированный токен в безопасном месте - он понадобится вам позже

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

Руководство по конфигурации

Выбор модели

Платформа предоставляет встроенное окружение фреймворка vLLM версии 0.6.2. Вот что вам нужно настроить:

HuggingFace Model: Введите имя целевой модели (например, meta-llama/Llama-2-7b-chat-hf)
HuggingFace Token: Опциональный токен аутентификации
- Требуется для определённых моделей и наборов данных
- Автоматически устанавливается как переменная окружения HUGGING_FACE_HUB_TOKEN в контейнере
- Вставьте токен, который вы создали ранее

Параметры vLLM

Это опциональные расширенные настройки для фреймворка vLLM. Изменяйте с осторожностью:

Tensor Parallel Degree: Для инференса на нескольких GPU
Max Total Tokens: Ограничение общей длины ответа
Quantization: Опции сжатия модели
Trust Remote Code: Включите для моделей, требующих пользовательский код

Примечание: Пожалуйста, убедитесь, что вы понимаете эти параметры, прежде чем изменять их значения по умолчанию.

Параметры Endpoint

Настройте ваше окружение развёртывания:

Endpoint Name: Автоматически генерируется, но настраивается
GPU Configuration:
- Выберите тип GPU (A100, H100, L4 и т.д.)
- Укажите количество GPU на воркер
Data Center: Выберите регион развёртывания
Storage:
- Настоятельно рекомендуется: Монтировать Network Volume в /root/.cache/huggingface
- Это обеспечивает сохранность модели при перезапусках
- Ускоряет последующие развёртывания за счёт кэширования файлов моделей

Совет: Постоянное хранилище значительно улучшает время запуска для последующих развёртываний, избегая повторных загрузок моделей.

quick deploy 02 quick deploy 01

После развёртывания ваш vLLM endpoint будет готов к обслуживанию запросов инференса. Система автоматически обработает загрузку и инициализацию модели.