Serverless

はじめに

Endpoint

New Endpointオプションを使用すると、ユーザーはカスタムイメージと設定を使用してServerlessサービスを作成できます。

設定パラメータ

  • Endpoint Name

    • Endpointのカスタム名
    • UTF-8文字セットをサポート
    • 最大128文字
    • アカウント全体で一意である必要があります
  • Worker Configuration

    • Active Workers: 初期および最小ワーカー数(デフォルト:1)
    • Max Workers: 自動スケーリングのための最大ワーカー数
    • GPUs / Worker: ワーカーあたりのGPU数(範囲:1〜8)
  • Container Settings

    • Container Image: サービスに使用するDockerイメージ
    • Container Start Command: コンテナ起動時に実行するコマンド
      • オプション:指定されていない場合、イメージのエントリーポイントを使用
    • Shell: コマンドのシェル環境を指定
      • デフォルト:/bin/sh
      • イメージの要件に基づいて調整可能
  • Network Configuration

    • Data Center: Serverlessサービスを実行するターゲットクラスター
      • ネットワーク環境とGPUの可用性を考慮
    • HTTP Port: 外部HTTPサービス用のポート
      • 単一ポートのみ
      • Endpoint URLへのリクエストはこのポートに転送されます
      • コンテナはこのポートでリッスンする必要があります
  • Environment

    • Environment Variables: コンテナ用に複数の環境変数を設定
  • Advanced Settings

    • Network Volume: 永続的なネットワークストレージをマウントするオプション
    • Network Volume Mount Path: 永続ストレージのマウントパスを指定

Quick Deploys

Quick Deploysを使用すると、最小限の設定で人気モデルのカスタムEndpointをデプロイできます。

Quick Deploysを始めるには?

Atlas Cloud Serverlessとのやり取り方法は?

Serverless Endpointを作成すると、プラットフォームはサービスにアクセスできるドメインURLを生成します:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URLコンポーネント:

  • SERVERLESS_ID:一意のEndpoint識別子
  • REGION:デプロイメントリージョン(例:us-east、eu-west)

自動スケーリング

Serverlessデプロイメントは、デフォルトで1つのワーカーから開始されます。プラットフォームは、同時リクエストとリソース使用率に基づいてスケーリングを自動的に管理します。

主な自動スケーリング機能:

  • Active Workers: 負荷に関係なく常に実行される最小ワーカー数
  • Max Workers: 高負荷期間中に作成できる最大ワーカー数
  • GPUs / Worker: 各ワーカーインスタンスに割り当てられるGPU数、処理能力に影響

自動スケーリングシステムは、次のルールに従います:

  • スケールアップ:

    • ワーカーあたりの同時リクエストが100を超えるとトリガー
    • 新しいワーカーは30〜60秒以内に追加されます
    • リクエスト負荷に基づいて段階的にスケール
    • 最大スケールアップ率:60秒あたり現在の容量の200%
  • スケールダウン:

    • 同時リクエストがしきい値を下回ると開始
    • スケールダウンする前に60秒間の低使用率が必要
    • 一度に1つのワーカーをスケールダウン
    • 最小Active Workers数を維持
    • 最大スケールダウン率:60秒あたり現在の容量の100%
  • スケーリング制限:

    • 最小:Active Workers数
    • 最大:Max Workers設定
    • ゼロへのスケール:Active Workersが0に設定されている場合のみ
  • コールドスタート:

    • 新しいワーカーが利用可能になるまで30〜60秒かかります
    • トラフィックスパイクを計画する際にこの遅延を考慮してください

使用例

  1. AI推論

    • 大規模言語モデル(LLM)
    • Stable Diffusion
    • Computer Vision
    • 音声認識
  2. APIサービス

    • RESTful API
    • WebSocketサポート
    • カスタムEndpoint

インスタンスの管理

デプロイ後、Serverlessインスタンスを管理してコストを最適化できます:

  • 起動/停止制御: 不要な時にインスタンスを一時停止し、即座に再開
  • コスト節約: インスタンスが停止している間は課金されません
  • クイック再開: 停止したインスタンスを1分以内に再起動
  • 設定の保持: すべての設定とURLがそのまま残ります

詳細については、インスタンスの管理をご覧ください