튜토리얼
vLLM
스토리지 생성
먼저 모델 파일을 저장할 영구 스토리지 볼륨을 생성하세요:
- 스토리지 페이지로 이동
- "새 네트워크 볼륨" 버튼 클릭
- 스토리지 세부 정보 입력:
- 볼륨 이름: 스토리지에 설명적인 이름 지정
- GB: 모델 요구 사항에 따라 적절한 크기 선택
- 데이터 센터: serverless를 배포할 지역과 동일한 지역 선택

HuggingFace 토큰 받기
HuggingFace에서 모델을 다운로드하려면 액세스 토큰이 필요합니다:
- HuggingFace 웹사이트를 방문하여 계정에 로그인
- 프로필 설정으로 이동
- "액세스 토큰" 섹션으로 이동
- "새 토큰 생성" 버튼 클릭
- 토큰 구성:
- 이름: 토큰에 설명적인 이름 지정
- 역할: 모델 다운로드를 위해 "read" 선택
- "토큰 생성" 버튼 클릭
- 생성된 토큰을 안전하게 복사하여 저장 - 나중에 필요합니다

구성 가이드
모델 선택
플랫폼은 내장된 vLLM 프레임워크 버전 0.6.2 환경을 제공합니다. 구성해야 할 사항은 다음과 같습니다:
- HuggingFace 모델: 대상 모델 이름 입력(예: meta-llama/Llama-2-7b-chat-hf)
- HuggingFace 토큰: 선택적 인증 토큰
- 특정 모델 및 데이터셋에 필요
- 컨테이너에서
HUGGING_FACE_HUB_TOKEN환경 변수로 자동 설정 - 이전에 생성한 토큰 붙여넣기
vLLM 매개변수
vLLM 프레임워크를 위한 선택적 고급 설정입니다. 주의하여 수정하세요:
- Tensor Parallel Degree: 다중 GPU 추론용
- Max Total Tokens: 전체 응답 길이 제한
- Quantization: 모델 압축 옵션
- Trust Remote Code: 사용자 정의 코드가 필요한 모델에 활성화
참고: 기본값에서 수정하기 전에 이러한 매개변수를 이해하고 있는지 확인하세요.
Endpoint 매개변수
배포 환경 구성:
- Endpoint 이름: 자동 생성되지만 사용자 정의 가능
- GPU 구성:
- GPU 유형 선택(A100, H100, L4 등)
- 워커당 GPU 수 지정
- 데이터 센터: 배포 지역 선택
- 스토리지:
- 강력히 권장: 네트워크 볼륨을
/root/.cache/huggingface에 마운트 - 재시작 간 모델 지속성 활성화
- 모델 파일을 캐싱하여 후속 배포 속도 향상
- 강력히 권장: 네트워크 볼륨을
팁: 영구 스토리지는 모델 다운로드 반복을 피하여 후속 배포의 시작 시간을 크게 개선합니다.

배포 후 vLLM Endpoint가 추론 요청을 처리할 준비가 됩니다. 시스템은 모델 다운로드 및 초기화를 자동으로 처리합니다.