Serverless

Начало работы

Endpoint

Опция New Endpoint позволяет пользователям создавать Serverless-сервис, используя пользовательские образы и конфигурации.

Параметры конфигурации

  • Endpoint Name

    • Пользовательское имя для вашего endpoint
    • Поддерживает набор символов UTF-8
    • Максимум 128 символов
    • Должно быть уникальным в рамках вашего аккаунта
  • Worker Configuration

    • Active Workers: Начальное и минимальное количество воркеров (по умолчанию: 1)
    • Max Workers: Максимальное количество воркеров для автомасштабирования
    • GPUs / Worker: Количество GPU на воркер (диапазон: 1-8)
  • Container Settings

    • Container Image: Docker-образ для использования в сервисе
    • Container Start Command: Команда для выполнения при запуске контейнера
      • Опционально: Использует entrypoint образа, если не указана
    • Shell: Указывает окружение оболочки для команды
      • По умолчанию: /bin/sh
      • Настраивается в зависимости от требований образа
  • Network Configuration

    • Data Center: Целевой кластер для запуска бессерверного сервиса
      • Учитывайте сетевое окружение и доступность GPU
    • HTTP Port: Порт для внешнего HTTP-сервиса
      • Только один порт
      • Запросы к Endpoint URL перенаправляются на этот порт
      • Контейнер должен прослушивать этот порт
  • Environment

    • Environment Variables: Настройка нескольких переменных окружения для контейнера
  • Advanced Settings

    • Network Volume: Опция монтирования постоянного сетевого хранилища
    • Network Volume Mount Path: Указание пути монтирования для постоянного хранилища

Quick Deploys

Quick Deploys позволяет развернуть пользовательские Endpoints популярных моделей с минимальной конфигурацией.

Как начать работу с Quick Deploys?

Как взаимодействовать с Atlas Cloud Serverless?

После создания бессерверного endpoint платформа генерирует доменный URL, который позволяет получить доступ к сервису:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

Компоненты URL:

  • SERVERLESS_ID: Ваш уникальный идентификатор endpoint
  • REGION: Регион развёртывания (например, us-east, eu-west)

Автомасштабирование

Бессерверные развёртывания по умолчанию начинаются с одного воркера. Платформа автоматически управляет масштабированием на основе одновременных запросов и использования ресурсов.

Ключевые функции автомасштабирования:

  • Active Workers: Минимальное количество воркеров, которые всегда будут работать, независимо от нагрузки
  • Max Workers: Максимальное количество воркеров, которые могут быть созданы в периоды высокой нагрузки
  • GPUs / Worker: Количество GPU, выделенных каждому инстансу воркера, влияющее на пропускную способность обработки

Система автомасштабирования следует этим правилам:

  • Увеличение масштаба:

    • Срабатывает, когда одновременные запросы на воркер превышают 100
    • Новые воркеры добавляются в течение 30-60 секунд
    • Масштабирование происходит поэтапно в зависимости от нагрузки запросов
    • Максимальная скорость увеличения масштаба: 200% от текущей ёмкости за 60 секунд
  • Уменьшение масштаба:

    • Начинается, когда одновременные запросы падают ниже порога
    • Требуется 60 секунд низкой загрузки перед уменьшением масштаба
    • Масштабирование уменьшается по одному воркеру за раз
    • Поддерживается минимальное количество Active Workers
    • Максимальная скорость уменьшения масштаба: 100% от текущей ёмкости за 60 секунд
  • Ограничения масштабирования:

    • Минимум: количество Active Workers
    • Максимум: настройка Max Workers
    • Масштабирование до нуля: Только если Active Workers установлен на 0
  • Холодный старт:

    • Новым воркерам требуется 30-60 секунд для готовности
    • Учитывайте эту задержку при планировании всплесков трафика

Сценарии использования

  1. Инференс ИИ

    • Большие языковые модели (LLM)
    • Stable Diffusion
    • Компьютерное зрение
    • Распознавание речи
  2. API-сервисы

    • RESTful API
    • Поддержка WebSocket
    • Пользовательские Endpoints

Управление вашими инстансами

После развёртывания вы можете управлять своими бессерверными инстансами для оптимизации затрат:

  • Контроль запуска/остановки: Приостанавливайте инстансы, когда они не нужны, и мгновенно возобновляйте их работу
  • Экономия средств: Нет платы, пока инстансы остановлены
  • Быстрое возобновление: Перезапуск остановленных инстансов менее чем за минуту
  • Сохранённая конфигурация: Все настройки и URL остаются неизменными

Узнайте больше об управлении инстансами