チュートリアル
vLLM
ストレージの作成
まず、モデルファイルを保存するための永続ストレージボリュームを作成します:
- Storageページに移動
- 「New Network Volume」ボタンをクリック
- ストレージの詳細を入力:
- Volume Name:ストレージにわかりやすい名前を付ける
- GB:モデルの要件に基づいて適切なサイズを選択
- Data Center:Serverlessをデプロイするのと同じリージョンを選択

HuggingFaceトークンの取得
HuggingFaceからモデルをダウンロードするには、アクセストークンが必要です:
- HuggingFaceウェブサイトにアクセスしてアカウントにサインイン
- プロフィール設定に移動
- 「Access Tokens」セクションに移動
- 「Create new token」ボタンをクリック
- トークンを設定:
- Name:トークンにわかりやすい名前を付ける
- Role:モデルのダウンロードには「read」を選択
- 「Create token」ボタンをクリック
- 生成されたトークンを安全にコピーして保存 - 後で必要になります

設定ガイド
モデルの選択
プラットフォームは、組み込みのvLLMフレームワークバージョン0.6.2環境を提供しています。設定する必要があるものは次のとおりです:
- HuggingFace Model: ターゲットモデル名を入力(例:meta-llama/Llama-2-7b-chat-hf)
- HuggingFace Token: オプションの認証トークン
- 特定のモデルとデータセットに必要
- コンテナ内で
HUGGING_FACE_HUB_TOKEN環境変数として自動的に設定されます - 先ほど生成したトークンを貼り付けます
vLLMパラメータ
これらは、vLLMフレームワークのオプションの高度な設定です。慎重に変更してください:
- Tensor Parallel Degree: マルチGPU推論用
- Max Total Tokens: 応答の総長を制限
- Quantization: モデル圧縮オプション
- Trust Remote Code: カスタムコードを必要とするモデルを有効化
注意:これらのパラメータをデフォルト値から変更する前に、必ず理解してください。
Endpointパラメータ
デプロイメント環境を設定します:
- Endpoint Name: 自動生成されますがカスタマイズ可能
- GPU設定:
- GPUタイプを選択(A100、H100、L4など)
- ワーカーあたりのGPU数を指定
- Data Center: デプロイメントリージョンを選択
- Storage:
- 強く推奨:Network Volumeを
/root/.cache/huggingfaceにマウント - これにより、再起動時のモデル永続性が有効になります
- モデルファイルをキャッシュすることで、後続のデプロイメントを高速化
- 強く推奨:Network Volumeを
ヒント:永続ストレージにより、繰り返しのモデルダウンロードを避けることで、後続のデプロイメントの起動時間が大幅に改善されます。

デプロイ後、vLLM Endpointは推論リクエストを処理する準備が整います。システムは自動的にモデルのダウンロードと初期化を処理します。