Serverless
概述
Atlas Cloud 为 AI 推理、模型训练、通用计算和 API 服务提供 Serverless 计算,允许用户按秒为计算使用付费。平台支持基于请求量的自动扩缩容。
您可以使用以下方法:
- Endpoint: 使用自定义镜像进行 AI 推理、模型训练和其他任务
- Quick Deploy: 使用预构建镜像快速创建 vLLM / SD 推理服务
为什么选择 Atlas Cloud Serverless?
您应该选择 Atlas Cloud Serverless 实例的原因如下:
- 成本效益: 仅为实际使用的计算时间付费,按秒计费
- 启动/停止控制: 不需要时暂停实例以节省成本,需要时立即恢复
- 高性能: 访问最新的 NVIDIA GPU,包括 A100、H100 和 L4
- 自动扩缩容: 根据需求自动从 1 个扩展到 100 个 worker
- 容器支持: 支持公共和私有 Docker 镜像
- 快速冷启动: 大多数模型的冷启动时间优化至 2-3 秒
- 监控与日志: GPU、CPU、内存使用情况的实时指标和全面的日志记录
- 存储集成: 将网络存储挂载到 worker,实现跨扩缩容事件的数据持久化