Serverless

快速開始

Endpoint

New Endpoint 選項允許使用者使用自訂映像和配置建立 Serverless 服務。

配置參數

  • Endpoint 名稱

    • 端點的自訂名稱
    • 支援 UTF-8 字元集
    • 最多 128 個字元
    • 在您的帳戶中必須唯一
  • Worker 配置

    • Active Workers:初始和最小 worker 數量(預設:1)
    • Max Workers:自動擴展的最大 worker 數量
    • GPUs / Worker:每個 worker 的 GPU 數量(範圍:1-8)
  • 容器設定

    • Container Image:用於服務的 Docker 映像
    • Container Start Command:啟動容器時執行的命令
      • 選用:如未指定則使用映像的入口點
    • Shell:指定命令的 shell 環境
      • 預設:/bin/sh
      • 可根據映像需求調整
  • 網路配置

    • Data Center:執行 serverless 服務的目標叢集
      • 考慮網路環境和 GPU 可用性
    • HTTP Port:外部 HTTP 服務的連接埠
      • 僅單一連接埠
      • 對 Endpoint URL 的請求轉送到此連接埠
      • 容器必須監聽此連接埠
  • 環境

    • Environment Variables:為容器配置多個環境變數
  • 進階設定

    • Network Volume:掛載持久化網路儲存的選項
    • Network Volume Mount Path:指定持久化儲存的掛載路徑

Quick Deploys

Quick Deploys 讓您以最少的配置部署熱門模型的自訂 Endpoint。

如何開始使用 Quick Deploys?

如何與 Atlas Cloud Serverless 互動?

建立 serverless endpoint 後,平台會生成一個域名 URL,允許您存取服務:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URL 元件:

  • SERVERLESS_ID:您的唯一端點識別符
  • REGION:部署區域(例如,us-east、eu-west)

自動擴展

Serverless 部署預設從一個 worker 開始。平台根據並行請求和資源使用率自動管理擴展。

關鍵自動擴展功能:

  • Active Workers:始終執行的最小 worker 數量,無論負載如何
  • Max Workers:高負載期間可建立的最大 worker 數量
  • GPUs / Worker:分配給每個 worker 實例的 GPU 數量,影響處理容量

自動擴展系統遵循以下規則:

  • 擴展

    • 當每個 worker 的並行請求超過 100 時觸發
    • 新 worker 在 30-60 秒內新增
    • 根據請求負載逐步擴展
    • 最大擴展速率:每 60 秒當前容量的 200%
  • 縮減

    • 當並行請求低於閾值時開始
    • 縮減前需要 60 秒的低使用率
    • 一次縮減一個 worker
    • 維持最小 Active Workers 數量
    • 最大縮減速率:每 60 秒當前容量的 100%
  • 擴展限制

    • 最小:Active Workers 數量
    • 最大:Max Workers 設定
    • 縮減至零:僅當 Active Workers 設定為 0 時
  • 冷啟動

    • 新 worker 需要 30-60 秒才能可用
    • 規劃流量高峰時考慮此延遲

使用案例

  1. AI 推理

    • 大型語言模型(LLMs)
    • Stable Diffusion
    • 電腦視覺
    • 語音辨識
  2. API 服務

    • RESTful APIs
    • WebSocket 支援
    • 自訂端點

管理您的實例

部署後,您可以管理 serverless 實例以最佳化成本:

  • 啟動/停止控制:不需要時暫停實例,需要時立即恢復
  • 成本節省:實例停止時不收費
  • 快速恢復:在一分鐘內重啟停止的實例
  • 保留配置:所有設定和 URL 保持不變

了解更多關於管理實例