快速开始

Endpoint

New Endpoint 选项允许用户使用自定义镜像和配置创建 Serverless 服务。

Endpoint Name (端点名称)
- 自定义您的端点名称
- 支持 UTF-8 字符集
- 最多 128 个字符
- 在您的账户中必须唯一
Worker Configuration (Worker 配置)
- Active Workers: 初始和最小 worker 数量(默认值: 1)
- Max Workers: 自动扩缩容的最大 worker 数量
- GPUs / Worker: 每个 worker 的 GPU 数量(范围: 1-8)
Container Settings (容器设置)
- Container Image: 用于服务的 Docker 镜像
- Container Start Command: 启动容器时执行的命令
  - 可选: 如果未指定,则使用镜像的 entrypoint
- Shell: 指定命令的 shell 环境
  - 默认值: /bin/sh
  - 可根据镜像要求调整
Network Configuration (网络配置)
- Data Center: 运行 serverless 服务的目标集群
  - 考虑网络环境和 GPU 可用性
- HTTP Port: 外部 HTTP 服务的端口
  - 仅单个端口
  - 对 Endpoint URL 的请求转发到此端口
  - 容器必须监听此端口
Environment (环境)
- Environment Variables: 为容器配置多个环境变量
Advanced Settings (高级设置)
- Network Volume: 挂载持久化网络存储的选项
- Network Volume Mount Path: 指定持久化存储的挂载路径

Quick Deploys 让您以最少的配置部署流行模型的自定义端点。

创建 serverless 端点后,平台会生成一个域名 URL 供您访问服务:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URL 组成部分:

Serverless 部署默认从一个 worker 开始。平台根据并发请求和资源利用率自动管理扩缩容。

主要自动扩缩容功能:

自动扩缩容系统遵循以下规则:

扩容:
- 当每个 worker 的并发请求超过 100 时触发
- 新的 worker 在 30-60 秒内添加
- 根据请求负载增量扩容
- 最大扩容率: 每 60 秒当前容量的 200%
缩容:
- 当并发请求降至阈值以下时开始
- 缩容前需要 60 秒的低利用率
- 一次缩容一个 worker
- 维持最小 Active Workers 数量
- 最大缩容率: 每 60 秒当前容量的 100%
扩缩容限制:
- 最小值: Active Workers 数量
- 最大值: Max Workers 设置
- 缩容至零: 仅当 Active Workers 设置为 0 时
冷启动:
- 新 worker 需要 30-60 秒才能可用
- 规划流量高峰时考虑此延迟

部署后,您可以管理 serverless 实例以优化成本:

了解更多关于管理实例