Serverless
概要
Atlas Cloudは、AI推論、モデルトレーニング、一般的なコンピュート、APIサービス向けのServerlessコンピューティングを提供し、ユーザーはコンピュート使用量に対して秒単位で支払うことができます。プラットフォームは、リクエスト量に基づく自動スケーリングをサポートしています。
以下の方法を使用できます:
- Endpoint:AI推論、モデルトレーニング、その他のタスクにカスタムイメージを使用
- Quick Deploy:事前構築されたイメージを使用して、vLLM / SD推論サービスを迅速に作成
なぜAtlas Cloud Serverlessを選ぶのか?
以下の理由により、Atlas Cloud Serverlessインスタンスを選択すべきです:
- コスト効率: 実際に使用したコンピュート時間のみに支払い、秒単位で請求
- 起動/停止制御: 不要な時にインスタンスを一時停止してコストを節約し、必要な時に即座に再開
- 高性能: A100、H100、L4を含む最新のNVIDIA GPUへのアクセス
- 自動スケーリング: 需要に基づいて1から100ワーカーまで自動的にスケール
- コンテナサポート: パブリックおよびプライベートDockerイメージの両方をサポート
- 高速コールドスタート: ほとんどのモデルで2〜3秒の最適化されたコールドスタート時間
- モニタリングとログ: GPU、CPU、メモリ使用量のリアルタイムメトリクスと包括的なロギング
- ストレージ統合: ネットワークストレージをワーカーにマウントして、スケーリングイベント全体でデータの永続性を確保