快速開始

Endpoint

New Endpoint 選項允許使用者使用自訂映像和配置建立 Serverless 服務。

Endpoint 名稱
- 端點的自訂名稱
- 支援 UTF-8 字元集
- 最多 128 個字元
- 在您的帳戶中必須唯一
Worker 配置
- Active Workers：初始和最小 worker 數量（預設：1）
- Max Workers：自動擴展的最大 worker 數量
- GPUs / Worker：每個 worker 的 GPU 數量（範圍：1-8）
容器設定
- Container Image：用於服務的 Docker 映像
- Container Start Command：啟動容器時執行的命令
  - 選用：如未指定則使用映像的入口點
- Shell：指定命令的 shell 環境
  - 預設：/bin/sh
  - 可根據映像需求調整
網路配置
- Data Center：執行 serverless 服務的目標叢集
  - 考慮網路環境和 GPU 可用性
- HTTP Port：外部 HTTP 服務的連接埠
  - 僅單一連接埠
  - 對 Endpoint URL 的請求轉送到此連接埠
  - 容器必須監聽此連接埠
環境
- Environment Variables：為容器配置多個環境變數
進階設定
- Network Volume：掛載持久化網路儲存的選項
- Network Volume Mount Path：指定持久化儲存的掛載路徑

Quick Deploys 讓您以最少的配置部署熱門模型的自訂 Endpoint。

建立 serverless endpoint 後，平台會生成一個域名 URL，允許您存取服務：

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URL 元件：

Serverless 部署預設從一個 worker 開始。平台根據並行請求和資源使用率自動管理擴展。

關鍵自動擴展功能：

自動擴展系統遵循以下規則：

擴展：
- 當每個 worker 的並行請求超過 100 時觸發
- 新 worker 在 30-60 秒內新增
- 根據請求負載逐步擴展
- 最大擴展速率：每 60 秒當前容量的 200%
縮減：
- 當並行請求低於閾值時開始
- 縮減前需要 60 秒的低使用率
- 一次縮減一個 worker
- 維持最小 Active Workers 數量
- 最大縮減速率：每 60 秒當前容量的 100%
擴展限制：
- 最小：Active Workers 數量
- 最大：Max Workers 設定
- 縮減至零：僅當 Active Workers 設定為 0 時
冷啟動：
- 新 worker 需要 30-60 秒才能可用
- 規劃流量高峰時考慮此延遲

部署後，您可以管理 serverless 實例以最佳化成本：

了解更多關於管理實例