튜토리얼

vLLM

스토리지 생성

먼저 모델 파일을 저장할 영구 스토리지 볼륨을 생성하세요:

스토리지 페이지로 이동
"새 네트워크 볼륨" 버튼 클릭
스토리지 세부 정보 입력:
- 볼륨 이름: 스토리지에 설명적인 이름 지정
- GB: 모델 요구 사항에 따라 적절한 크기 선택
- 데이터 센터: serverless를 배포할 지역과 동일한 지역 선택

create storage 01 create storage 02

HuggingFace 토큰 받기

HuggingFace에서 모델을 다운로드하려면 액세스 토큰이 필요합니다:

HuggingFace 웹사이트를 방문하여 계정에 로그인
프로필 설정으로 이동
"액세스 토큰" 섹션으로 이동
"새 토큰 생성" 버튼 클릭
토큰 구성:
- 이름: 토큰에 설명적인 이름 지정
- 역할: 모델 다운로드를 위해 "read" 선택
"토큰 생성" 버튼 클릭
생성된 토큰을 안전하게 복사하여 저장 - 나중에 필요합니다

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

구성 가이드

모델 선택

플랫폼은 내장된 vLLM 프레임워크 버전 0.6.2 환경을 제공합니다. 구성해야 할 사항은 다음과 같습니다:

HuggingFace 모델: 대상 모델 이름 입력(예: meta-llama/Llama-2-7b-chat-hf)
HuggingFace 토큰: 선택적 인증 토큰
- 특정 모델 및 데이터셋에 필요
- 컨테이너에서 HUGGING_FACE_HUB_TOKEN 환경 변수로 자동 설정
- 이전에 생성한 토큰 붙여넣기

vLLM 매개변수

vLLM 프레임워크를 위한 선택적 고급 설정입니다. 주의하여 수정하세요:

Tensor Parallel Degree: 다중 GPU 추론용
Max Total Tokens: 전체 응답 길이 제한
Quantization: 모델 압축 옵션
Trust Remote Code: 사용자 정의 코드가 필요한 모델에 활성화

참고: 기본값에서 수정하기 전에 이러한 매개변수를 이해하고 있는지 확인하세요.

Endpoint 매개변수

배포 환경 구성:

Endpoint 이름: 자동 생성되지만 사용자 정의 가능
GPU 구성:
- GPU 유형 선택(A100, H100, L4 등)
- 워커당 GPU 수 지정
데이터 센터: 배포 지역 선택
스토리지:
- 강력히 권장: 네트워크 볼륨을 /root/.cache/huggingface에 마운트
- 재시작 간 모델 지속성 활성화
- 모델 파일을 캐싱하여 후속 배포 속도 향상

팁: 영구 스토리지는 모델 다운로드 반복을 피하여 후속 배포의 시작 시간을 크게 개선합니다.

quick deploy 02 quick deploy 01

배포 후 vLLM Endpoint가 추론 요청을 처리할 준비가 됩니다. 시스템은 모델 다운로드 및 초기화를 자동으로 처리합니다.

Stable Diffusion

이전

이미지

다음

목차

스토리지 생성 HuggingFace 토큰 받기 구성 가이드 모델 선택 vLLM 매개변수 Endpoint 매개변수