시작하기

Endpoint

새 Endpoint 옵션을 사용하면 사용자 정의 이미지 및 구성을 사용하여 Serverless 서비스를 생성할 수 있습니다.

Endpoint 이름
- Endpoint의 사용자 정의 이름
- UTF-8 문자 집합 지원
- 최대 128자
- 계정 내에서 고유해야 함
워커 구성
- 활성 워커: 초기 및 최소 워커 수(기본값: 1)
- 최대 워커: 자동 확장을 위한 최대 워커 수
- 워커당 GPU: 워커당 GPU 수(범위: 1-8)
컨테이너 설정
- 컨테이너 이미지: 서비스에 사용할 Docker 이미지
- 컨테이너 시작 명령: 컨테이너 시작 시 실행할 명령
  - 선택 사항: 지정하지 않으면 이미지의 진입점 사용
- 셸: 명령의 셸 환경 지정
  - 기본값: /bin/sh
  - 이미지 요구 사항에 따라 조정 가능
네트워크 구성
- 데이터 센터: serverless 서비스를 실행할 대상 클러스터
  - 네트워크 환경 및 GPU 가용성 고려
- HTTP 포트: 외부 HTTP 서비스용 포트
  - 단일 포트만 가능
  - Endpoint URL에 대한 요청이 이 포트로 전달됨
  - 컨테이너가 이 포트에서 수신 대기해야 함
환경
- 환경 변수: 컨테이너에 대한 여러 환경 변수 구성
고급 설정
- 네트워크 볼륨: 영구 네트워크 스토리지 마운트 옵션
- 네트워크 볼륨 마운트 경로: 영구 스토리지의 마운트 경로 지정

Quick Deploys를 사용하면 최소한의 구성으로 인기 있는 모델의 사용자 정의 Endpoint를 배포할 수 있습니다.

serverless endpoint를 생성한 후 플랫폼은 서비스에 액세스할 수 있는 도메인 URL을 생성합니다:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URL 구성 요소:

Serverless 배포는 기본적으로 하나의 워커로 시작됩니다. 플랫폼은 동시 요청 및 리소스 사용률을 기반으로 확장을 자동으로 관리합니다.

주요 자동 확장 기능:

자동 확장 시스템은 다음 규칙을 따릅니다:

확장:
- 워커당 동시 요청이 100을 초과할 때 트리거
- 30-60초 내에 새 워커 추가
- 요청 부하에 따라 증분적으로 확장
- 최대 확장 속도: 60초당 현재 용량의 200%
축소:
- 동시 요청이 임계값 아래로 떨어지면 시작
- 축소하기 전에 60초의 낮은 사용률 필요
- 한 번에 하나의 워커씩 축소
- 최소 활성 워커 수 유지
- 최대 축소 속도: 60초당 현재 용량의 100%
확장 제한:
- 최소: 활성 워커 수
- 최대: 최대 워커 설정
- 제로로 확장: 활성 워커가 0으로 설정된 경우에만
콜드 스타트:
- 새 워커가 사용 가능해지는 데 30-60초 소요
- 트래픽 급증 계획 시 이 지연 고려

배포 후 비용을 최적화하기 위해 serverless 인스턴스를 관리할 수 있습니다:

인스턴스 관리에 대해 자세히 알아보세요