Serverless

快速开始

Endpoint

New Endpoint 选项允许用户使用自定义镜像和配置创建 Serverless 服务。

配置参数

  • Endpoint Name (端点名称)

    • 自定义您的端点名称
    • 支持 UTF-8 字符集
    • 最多 128 个字符
    • 在您的账户中必须唯一
  • Worker Configuration (Worker 配置)

    • Active Workers: 初始和最小 worker 数量(默认值: 1)
    • Max Workers: 自动扩缩容的最大 worker 数量
    • GPUs / Worker: 每个 worker 的 GPU 数量(范围: 1-8)
  • Container Settings (容器设置)

    • Container Image: 用于服务的 Docker 镜像
    • Container Start Command: 启动容器时执行的命令
      • 可选: 如果未指定,则使用镜像的 entrypoint
    • Shell: 指定命令的 shell 环境
      • 默认值: /bin/sh
      • 可根据镜像要求调整
  • Network Configuration (网络配置)

    • Data Center: 运行 serverless 服务的目标集群
      • 考虑网络环境和 GPU 可用性
    • HTTP Port: 外部 HTTP 服务的端口
      • 仅单个端口
      • 对 Endpoint URL 的请求转发到此端口
      • 容器必须监听此端口
  • Environment (环境)

    • Environment Variables: 为容器配置多个环境变量
  • Advanced Settings (高级设置)

    • Network Volume: 挂载持久化网络存储的选项
    • Network Volume Mount Path: 指定持久化存储的挂载路径

Quick Deploys

Quick Deploys 让您以最少的配置部署流行模型的自定义端点。

如何开始使用 Quick Deploys?

如何与 Atlas Cloud Serverless 交互?

创建 serverless 端点后,平台会生成一个域名 URL 供您访问服务:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URL 组成部分:

  • SERVERLESS_ID: 您的唯一端点标识符
  • REGION: 部署区域(例如,us-east、eu-west)

自动扩缩容

Serverless 部署默认从一个 worker 开始。平台根据并发请求和资源利用率自动管理扩缩容。

主要自动扩缩容功能:

  • Active Workers: 无论负载如何始终运行的最小 worker 数量
  • Max Workers: 在高负载期间可创建的最大 worker 数量
  • GPUs / Worker: 分配给每个 worker 实例的 GPU 数量,影响处理能力

自动扩缩容系统遵循以下规则:

  • 扩容:

    • 当每个 worker 的并发请求超过 100 时触发
    • 新的 worker 在 30-60 秒内添加
    • 根据请求负载增量扩容
    • 最大扩容率: 每 60 秒当前容量的 200%
  • 缩容:

    • 当并发请求降至阈值以下时开始
    • 缩容前需要 60 秒的低利用率
    • 一次缩容一个 worker
    • 维持最小 Active Workers 数量
    • 最大缩容率: 每 60 秒当前容量的 100%
  • 扩缩容限制:

    • 最小值: Active Workers 数量
    • 最大值: Max Workers 设置
    • 缩容至零: 仅当 Active Workers 设置为 0 时
  • 冷启动:

    • 新 worker 需要 30-60 秒才能可用
    • 规划流量高峰时考虑此延迟

使用场景

  1. AI 推理

    • 大语言模型 (LLMs)
    • Stable Diffusion
    • 计算机视觉
    • 语音识别
  2. API 服务

    • RESTful APIs
    • WebSocket 支持
    • 自定义端点

管理您的实例

部署后,您可以管理 serverless 实例以优化成本:

  • 启动/停止控制: 不需要时暂停实例,需要时立即恢复
  • 节省成本: 实例停止时不收费
  • 快速恢复: 在一分钟内重启已停止的实例
  • 保留配置: 所有设置和 URL 保持不变

了解更多关于管理实例