Serverless
시작하기
Endpoint
새 Endpoint 옵션을 사용하면 사용자 정의 이미지 및 구성을 사용하여 Serverless 서비스를 생성할 수 있습니다.
구성 매개변수
-
Endpoint 이름
- Endpoint의 사용자 정의 이름
- UTF-8 문자 집합 지원
- 최대 128자
- 계정 내에서 고유해야 함
-
워커 구성
- 활성 워커: 초기 및 최소 워커 수(기본값: 1)
- 최대 워커: 자동 확장을 위한 최대 워커 수
- 워커당 GPU: 워커당 GPU 수(범위: 1-8)
-
컨테이너 설정
- 컨테이너 이미지: 서비스에 사용할 Docker 이미지
- 컨테이너 시작 명령: 컨테이너 시작 시 실행할 명령
- 선택 사항: 지정하지 않으면 이미지의 진입점 사용
- 셸: 명령의 셸 환경 지정
- 기본값:
/bin/sh - 이미지 요구 사항에 따라 조정 가능
- 기본값:
-
네트워크 구성
- 데이터 센터: serverless 서비스를 실행할 대상 클러스터
- 네트워크 환경 및 GPU 가용성 고려
- HTTP 포트: 외부 HTTP 서비스용 포트
- 단일 포트만 가능
- Endpoint URL에 대한 요청이 이 포트로 전달됨
- 컨테이너가 이 포트에서 수신 대기해야 함
- 데이터 센터: serverless 서비스를 실행할 대상 클러스터
-
환경
- 환경 변수: 컨테이너에 대한 여러 환경 변수 구성
-
고급 설정
- 네트워크 볼륨: 영구 네트워크 스토리지 마운트 옵션
- 네트워크 볼륨 마운트 경로: 영구 스토리지의 마운트 경로 지정
Quick Deploys
Quick Deploys를 사용하면 최소한의 구성으로 인기 있는 모델의 사용자 정의 Endpoint를 배포할 수 있습니다.
Quick Deploys를 시작하는 방법은?
Atlas Cloud Serverless와 상호 작용하는 방법은?
serverless endpoint를 생성한 후 플랫폼은 서비스에 액세스할 수 있는 도메인 URL을 생성합니다:
https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/
URL 구성 요소:
SERVERLESS_ID: 고유한 Endpoint 식별자REGION: 배포 지역(예: us-east, eu-west)
자동 확장
Serverless 배포는 기본적으로 하나의 워커로 시작됩니다. 플랫폼은 동시 요청 및 리소스 사용률을 기반으로 확장을 자동으로 관리합니다.
주요 자동 확장 기능:
- 활성 워커: 부하에 관계없이 항상 실행되는 최소 워커 수
- 최대 워커: 높은 부하 기간 동안 생성할 수 있는 최대 워커 수
- 워커당 GPU: 각 워커 인스턴스에 할당된 GPU 수로, 처리 용량에 영향을 미침
자동 확장 시스템은 다음 규칙을 따릅니다:
-
확장:
- 워커당 동시 요청이 100을 초과할 때 트리거
- 30-60초 내에 새 워커 추가
- 요청 부하에 따라 증분적으로 확장
- 최대 확장 속도: 60초당 현재 용량의 200%
-
축소:
- 동시 요청이 임계값 아래로 떨어지면 시작
- 축소하기 전에 60초의 낮은 사용률 필요
- 한 번에 하나의 워커씩 축소
- 최소 활성 워커 수 유지
- 최대 축소 속도: 60초당 현재 용량의 100%
-
확장 제한:
- 최소: 활성 워커 수
- 최대: 최대 워커 설정
- 제로로 확장: 활성 워커가 0으로 설정된 경우에만
-
콜드 스타트:
- 새 워커가 사용 가능해지는 데 30-60초 소요
- 트래픽 급증 계획 시 이 지연 고려
사용 사례
-
AI 추론
- 대규모 언어 모델(LLM)
- Stable Diffusion
- Computer Vision
- 음성 인식
-
API 서비스
- RESTful API
- WebSocket 지원
- 사용자 정의 Endpoint
인스턴스 관리
배포 후 비용을 최적화하기 위해 serverless 인스턴스를 관리할 수 있습니다:
- 시작/중지 제어: 필요하지 않을 때 인스턴스를 일시 중지하고 필요할 때 즉시 재개
- 비용 절감: 인스턴스가 중지된 동안 요금 없음
- 빠른 재개: 1분 이내에 중지된 인스턴스 재시작
- 구성 보존: 모든 설정 및 URL이 그대로 유지됨
인스턴스 관리에 대해 자세히 알아보세요