Serverless
快速开始
Endpoint
New Endpoint 选项允许用户使用自定义镜像和配置创建 Serverless 服务。
配置参数
-
Endpoint Name (端点名称)
- 自定义您的端点名称
- 支持 UTF-8 字符集
- 最多 128 个字符
- 在您的账户中必须唯一
-
Worker Configuration (Worker 配置)
- Active Workers: 初始和最小 worker 数量(默认值: 1)
- Max Workers: 自动扩缩容的最大 worker 数量
- GPUs / Worker: 每个 worker 的 GPU 数量(范围: 1-8)
-
Container Settings (容器设置)
- Container Image: 用于服务的 Docker 镜像
- Container Start Command: 启动容器时执行的命令
- 可选: 如果未指定,则使用镜像的 entrypoint
- Shell: 指定命令的 shell 环境
- 默认值:
/bin/sh - 可根据镜像要求调整
- 默认值:
-
Network Configuration (网络配置)
- Data Center: 运行 serverless 服务的目标集群
- 考虑网络环境和 GPU 可用性
- HTTP Port: 外部 HTTP 服务的端口
- 仅单个端口
- 对 Endpoint URL 的请求转发到此端口
- 容器必须监听此端口
- Data Center: 运行 serverless 服务的目标集群
-
Environment (环境)
- Environment Variables: 为容器配置多个环境变量
-
Advanced Settings (高级设置)
- Network Volume: 挂载持久化网络存储的选项
- Network Volume Mount Path: 指定持久化存储的挂载路径
Quick Deploys
Quick Deploys 让您以最少的配置部署流行模型的自定义端点。
如何开始使用 Quick Deploys?
如何与 Atlas Cloud Serverless 交互?
创建 serverless 端点后,平台会生成一个域名 URL 供您访问服务:
https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/
URL 组成部分:
SERVERLESS_ID: 您的唯一端点标识符REGION: 部署区域(例如,us-east、eu-west)
自动扩缩容
Serverless 部署默认从一个 worker 开始。平台根据并发请求和资源利用率自动管理扩缩容。
主要自动扩缩容功能:
- Active Workers: 无论负载如何始终运行的最小 worker 数量
- Max Workers: 在高负载期间可创建的最大 worker 数量
- GPUs / Worker: 分配给每个 worker 实例的 GPU 数量,影响处理能力
自动扩缩容系统遵循以下规则:
-
扩容:
- 当每个 worker 的并发请求超过 100 时触发
- 新的 worker 在 30-60 秒内添加
- 根据请求负载增量扩容
- 最大扩容率: 每 60 秒当前容量的 200%
-
缩容:
- 当并发请求降至阈值以下时开始
- 缩容前需要 60 秒的低利用率
- 一次缩容一个 worker
- 维持最小 Active Workers 数量
- 最大缩容率: 每 60 秒当前容量的 100%
-
扩缩容限制:
- 最小值: Active Workers 数量
- 最大值: Max Workers 设置
- 缩容至零: 仅当 Active Workers 设置为 0 时
-
冷启动:
- 新 worker 需要 30-60 秒才能可用
- 规划流量高峰时考虑此延迟
使用场景
-
AI 推理
- 大语言模型 (LLMs)
- Stable Diffusion
- 计算机视觉
- 语音识别
-
API 服务
- RESTful APIs
- WebSocket 支持
- 自定义端点
管理您的实例
部署后,您可以管理 serverless 实例以优化成本:
- 启动/停止控制: 不需要时暂停实例,需要时立即恢复
- 节省成本: 实例停止时不收费
- 快速恢复: 在一分钟内重启已停止的实例
- 保留配置: 所有设置和 URL 保持不变
了解更多关于管理实例