Начало работы
Endpoint
Опция New Endpoint позволяет пользователям создавать Serverless-сервис, используя пользовательские образы и конфигурации.
Параметры конфигурации
-
Endpoint Name
- Пользовательское имя для вашего endpoint
- Поддерживает набор символов UTF-8
- Максимум 128 символов
- Должно быть уникальным в рамках вашего аккаунта
-
Worker Configuration
- Active Workers: Начальное и минимальное количество воркеров (по умолчанию: 1)
- Max Workers: Максимальное количество воркеров для автомасштабирования
- GPUs / Worker: Количество GPU на воркер (диапазон: 1-8)
-
Container Settings
- Container Image: Docker-образ для использования в сервисе
- Container Start Command: Команда для выполнения при запуске контейнера
- Опционально: Использует entrypoint образа, если не указана
- Shell: Указывает окружение оболочки для команды
- По умолчанию:
/bin/sh - Настраивается в зависимости от требований образа
- По умолчанию:
-
Network Configuration
- Data Center: Целевой кластер для запуска бессерверного сервиса
- Учитывайте сетевое окружение и доступность GPU
- HTTP Port: Порт для внешнего HTTP-сервиса
- Только один порт
- Запросы к Endpoint URL перенаправляются на этот порт
- Контейнер должен прослушивать этот порт
- Data Center: Целевой кластер для запуска бессерверного сервиса
-
Environment
- Environment Variables: Настройка нескольких переменных окружения для контейнера
-
Advanced Settings
- Network Volume: Опция монтирования постоянного сетевого хранилища
- Network Volume Mount Path: Указание пути монтирования для постоянного хранилища
Quick Deploys
Quick Deploys позволяет развернуть пользовательские Endpoints популярных моделей с минимальной конфигурацией.
Как начать работу с Quick Deploys?
Как взаимодействовать с Atlas Cloud Serverless?
После создания бессерверного endpoint платформа генерирует доменный URL, который позволяет получить доступ к сервису:
https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/
Компоненты URL:
SERVERLESS_ID: Ваш уникальный идентификатор endpointREGION: Регион развёртывания (например, us-east, eu-west)
Автомасштабирование
Бессерверные развёртывания по умолчанию начинаются с одного воркера. Платформа автоматически управляет масштабированием на основе одновременных запросов и использования ресурсов.
Ключевые функции автомасштабирования:
- Active Workers: Минимальное количество воркеров, которые всегда будут работать, независимо от нагрузки
- Max Workers: Максимальное количество воркеров, которые могут быть созданы в периоды высокой нагрузки
- GPUs / Worker: Количество GPU, выделенных каждому инстансу воркера, влияющее на пропускную способность обработки
Система автомасштабирования следует этим правилам:
-
Увеличение масштаба:
- Срабатывает, когда одновременные запросы на воркер превышают 100
- Новые воркеры добавляются в течение 30-60 секунд
- Масштабирование происходит поэтапно в зависимости от нагрузки запросов
- Максимальная скорость увеличения масштаба: 200% от текущей ёмкости за 60 секунд
-
Уменьшение масштаба:
- Начинается, когда одновременные запросы падают ниже порога
- Требуется 60 секунд низкой загрузки перед уменьшением масштаба
- Масштабирование уменьшается по одному воркеру за раз
- Поддерживается минимальное количество Active Workers
- Максимальная скорость уменьшения масштаба: 100% от текущей ёмкости за 60 секунд
-
Ограничения масштабирования:
- Минимум: количество Active Workers
- Максимум: настройка Max Workers
- Масштабирование до нуля: Только если Active Workers установлен на 0
-
Холодный старт:
- Новым воркерам требуется 30-60 секунд для готовности
- Учитывайте эту задержку при планировании всплесков трафика
Сценарии использования
-
Инференс ИИ
- Большие языковые модели (LLM)
- Stable Diffusion
- Компьютерное зрение
- Распознавание речи
-
API-сервисы
- RESTful API
- Поддержка WebSocket
- Пользовательские Endpoints
Управление вашими инстансами
После развёртывания вы можете управлять своими бессерверными инстансами для оптимизации затрат:
- Контроль запуска/остановки: Приостанавливайте инстансы, когда они не нужны, и мгновенно возобновляйте их работу
- Экономия средств: Нет платы, пока инстансы остановлены
- Быстрое возобновление: Перезапуск остановленных инстансов менее чем за минуту
- Сохранённая конфигурация: Все настройки и URL остаются неизменными
Узнайте больше об управлении инстансами