튜토리얼

vLLM

스토리지 생성

먼저 모델 파일을 저장할 영구 스토리지 볼륨을 생성하세요:

  1. 스토리지 페이지로 이동
  2. "새 네트워크 볼륨" 버튼 클릭
  3. 스토리지 세부 정보 입력:
    • 볼륨 이름: 스토리지에 설명적인 이름 지정
    • GB: 모델 요구 사항에 따라 적절한 크기 선택
    • 데이터 센터: serverless를 배포할 지역과 동일한 지역 선택

create storage 01 create storage 02

HuggingFace 토큰 받기

HuggingFace에서 모델을 다운로드하려면 액세스 토큰이 필요합니다:

  1. HuggingFace 웹사이트를 방문하여 계정에 로그인
  2. 프로필 설정으로 이동
  3. "액세스 토큰" 섹션으로 이동
  4. "새 토큰 생성" 버튼 클릭
  5. 토큰 구성:
    • 이름: 토큰에 설명적인 이름 지정
    • 역할: 모델 다운로드를 위해 "read" 선택
  6. "토큰 생성" 버튼 클릭
  7. 생성된 토큰을 안전하게 복사하여 저장 - 나중에 필요합니다

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

구성 가이드

모델 선택

플랫폼은 내장된 vLLM 프레임워크 버전 0.6.2 환경을 제공합니다. 구성해야 할 사항은 다음과 같습니다:

  • HuggingFace 모델: 대상 모델 이름 입력(예: meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace 토큰: 선택적 인증 토큰
    • 특정 모델 및 데이터셋에 필요
    • 컨테이너에서 HUGGING_FACE_HUB_TOKEN 환경 변수로 자동 설정
    • 이전에 생성한 토큰 붙여넣기

vLLM 매개변수

vLLM 프레임워크를 위한 선택적 고급 설정입니다. 주의하여 수정하세요:

  • Tensor Parallel Degree: 다중 GPU 추론용
  • Max Total Tokens: 전체 응답 길이 제한
  • Quantization: 모델 압축 옵션
  • Trust Remote Code: 사용자 정의 코드가 필요한 모델에 활성화

참고: 기본값에서 수정하기 전에 이러한 매개변수를 이해하고 있는지 확인하세요.

Endpoint 매개변수

배포 환경 구성:

  • Endpoint 이름: 자동 생성되지만 사용자 정의 가능
  • GPU 구성:
    • GPU 유형 선택(A100, H100, L4 등)
    • 워커당 GPU 수 지정
  • 데이터 센터: 배포 지역 선택
  • 스토리지:
    • 강력히 권장: 네트워크 볼륨을 /root/.cache/huggingface에 마운트
    • 재시작 간 모델 지속성 활성화
    • 모델 파일을 캐싱하여 후속 배포 속도 향상

팁: 영구 스토리지는 모델 다운로드 반복을 피하여 후속 배포의 시작 시간을 크게 개선합니다.

quick deploy 02 quick deploy 01 quick deploy 02

배포 후 vLLM Endpoint가 추론 요청을 처리할 준비가 됩니다. 시스템은 모델 다운로드 및 초기화를 자동으로 처리합니다.