Serverless

시작하기

Endpoint

새 Endpoint 옵션을 사용하면 사용자 정의 이미지 및 구성을 사용하여 Serverless 서비스를 생성할 수 있습니다.

구성 매개변수

  • Endpoint 이름

    • Endpoint의 사용자 정의 이름
    • UTF-8 문자 집합 지원
    • 최대 128자
    • 계정 내에서 고유해야 함
  • 워커 구성

    • 활성 워커: 초기 및 최소 워커 수(기본값: 1)
    • 최대 워커: 자동 확장을 위한 최대 워커 수
    • 워커당 GPU: 워커당 GPU 수(범위: 1-8)
  • 컨테이너 설정

    • 컨테이너 이미지: 서비스에 사용할 Docker 이미지
    • 컨테이너 시작 명령: 컨테이너 시작 시 실행할 명령
      • 선택 사항: 지정하지 않으면 이미지의 진입점 사용
    • : 명령의 셸 환경 지정
      • 기본값: /bin/sh
      • 이미지 요구 사항에 따라 조정 가능
  • 네트워크 구성

    • 데이터 센터: serverless 서비스를 실행할 대상 클러스터
      • 네트워크 환경 및 GPU 가용성 고려
    • HTTP 포트: 외부 HTTP 서비스용 포트
      • 단일 포트만 가능
      • Endpoint URL에 대한 요청이 이 포트로 전달됨
      • 컨테이너가 이 포트에서 수신 대기해야 함
  • 환경

    • 환경 변수: 컨테이너에 대한 여러 환경 변수 구성
  • 고급 설정

    • 네트워크 볼륨: 영구 네트워크 스토리지 마운트 옵션
    • 네트워크 볼륨 마운트 경로: 영구 스토리지의 마운트 경로 지정

Quick Deploys

Quick Deploys를 사용하면 최소한의 구성으로 인기 있는 모델의 사용자 정의 Endpoint를 배포할 수 있습니다.

Quick Deploys를 시작하는 방법은?

Atlas Cloud Serverless와 상호 작용하는 방법은?

serverless endpoint를 생성한 후 플랫폼은 서비스에 액세스할 수 있는 도메인 URL을 생성합니다:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

URL 구성 요소:

  • SERVERLESS_ID: 고유한 Endpoint 식별자
  • REGION: 배포 지역(예: us-east, eu-west)

자동 확장

Serverless 배포는 기본적으로 하나의 워커로 시작됩니다. 플랫폼은 동시 요청 및 리소스 사용률을 기반으로 확장을 자동으로 관리합니다.

주요 자동 확장 기능:

  • 활성 워커: 부하에 관계없이 항상 실행되는 최소 워커 수
  • 최대 워커: 높은 부하 기간 동안 생성할 수 있는 최대 워커 수
  • 워커당 GPU: 각 워커 인스턴스에 할당된 GPU 수로, 처리 용량에 영향을 미침

자동 확장 시스템은 다음 규칙을 따릅니다:

  • 확장:

    • 워커당 동시 요청이 100을 초과할 때 트리거
    • 30-60초 내에 새 워커 추가
    • 요청 부하에 따라 증분적으로 확장
    • 최대 확장 속도: 60초당 현재 용량의 200%
  • 축소:

    • 동시 요청이 임계값 아래로 떨어지면 시작
    • 축소하기 전에 60초의 낮은 사용률 필요
    • 한 번에 하나의 워커씩 축소
    • 최소 활성 워커 수 유지
    • 최대 축소 속도: 60초당 현재 용량의 100%
  • 확장 제한:

    • 최소: 활성 워커 수
    • 최대: 최대 워커 설정
    • 제로로 확장: 활성 워커가 0으로 설정된 경우에만
  • 콜드 스타트:

    • 새 워커가 사용 가능해지는 데 30-60초 소요
    • 트래픽 급증 계획 시 이 지연 고려

사용 사례

  1. AI 추론

    • 대규모 언어 모델(LLM)
    • Stable Diffusion
    • Computer Vision
    • 음성 인식
  2. API 서비스

    • RESTful API
    • WebSocket 지원
    • 사용자 정의 Endpoint

인스턴스 관리

배포 후 비용을 최적화하기 위해 serverless 인스턴스를 관리할 수 있습니다:

  • 시작/중지 제어: 필요하지 않을 때 인스턴스를 일시 중지하고 필요할 때 즉시 재개
  • 비용 절감: 인스턴스가 중지된 동안 요금 없음
  • 빠른 재개: 1분 이내에 중지된 인스턴스 재시작
  • 구성 보존: 모든 설정 및 URL이 그대로 유지됨

인스턴스 관리에 대해 자세히 알아보세요