Serverless
快速開始
Endpoint
New Endpoint 選項允許使用者使用自訂映像和配置建立 Serverless 服務。
配置參數
-
Endpoint 名稱
- 端點的自訂名稱
- 支援 UTF-8 字元集
- 最多 128 個字元
- 在您的帳戶中必須唯一
-
Worker 配置
- Active Workers:初始和最小 worker 數量(預設:1)
- Max Workers:自動擴展的最大 worker 數量
- GPUs / Worker:每個 worker 的 GPU 數量(範圍:1-8)
-
容器設定
- Container Image:用於服務的 Docker 映像
- Container Start Command:啟動容器時執行的命令
- 選用:如未指定則使用映像的入口點
- Shell:指定命令的 shell 環境
- 預設:
/bin/sh - 可根據映像需求調整
- 預設:
-
網路配置
- Data Center:執行 serverless 服務的目標叢集
- 考慮網路環境和 GPU 可用性
- HTTP Port:外部 HTTP 服務的連接埠
- 僅單一連接埠
- 對 Endpoint URL 的請求轉送到此連接埠
- 容器必須監聽此連接埠
- Data Center:執行 serverless 服務的目標叢集
-
環境
- Environment Variables:為容器配置多個環境變數
-
進階設定
- Network Volume:掛載持久化網路儲存的選項
- Network Volume Mount Path:指定持久化儲存的掛載路徑
Quick Deploys
Quick Deploys 讓您以最少的配置部署熱門模型的自訂 Endpoint。
如何開始使用 Quick Deploys?
如何與 Atlas Cloud Serverless 互動?
建立 serverless endpoint 後,平台會生成一個域名 URL,允許您存取服務:
https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/
URL 元件:
SERVERLESS_ID:您的唯一端點識別符REGION:部署區域(例如,us-east、eu-west)
自動擴展
Serverless 部署預設從一個 worker 開始。平台根據並行請求和資源使用率自動管理擴展。
關鍵自動擴展功能:
- Active Workers:始終執行的最小 worker 數量,無論負載如何
- Max Workers:高負載期間可建立的最大 worker 數量
- GPUs / Worker:分配給每個 worker 實例的 GPU 數量,影響處理容量
自動擴展系統遵循以下規則:
-
擴展:
- 當每個 worker 的並行請求超過 100 時觸發
- 新 worker 在 30-60 秒內新增
- 根據請求負載逐步擴展
- 最大擴展速率:每 60 秒當前容量的 200%
-
縮減:
- 當並行請求低於閾值時開始
- 縮減前需要 60 秒的低使用率
- 一次縮減一個 worker
- 維持最小 Active Workers 數量
- 最大縮減速率:每 60 秒當前容量的 100%
-
擴展限制:
- 最小:Active Workers 數量
- 最大:Max Workers 設定
- 縮減至零:僅當 Active Workers 設定為 0 時
-
冷啟動:
- 新 worker 需要 30-60 秒才能可用
- 規劃流量高峰時考慮此延遲
使用案例
-
AI 推理
- 大型語言模型(LLMs)
- Stable Diffusion
- 電腦視覺
- 語音辨識
-
API 服務
- RESTful APIs
- WebSocket 支援
- 自訂端點
管理您的實例
部署後,您可以管理 serverless 實例以最佳化成本:
- 啟動/停止控制:不需要時暫停實例,需要時立即恢復
- 成本節省:實例停止時不收費
- 快速恢復:在一分鐘內重啟停止的實例
- 保留配置:所有設定和 URL 保持不變
了解更多關於管理實例