チュートリアル

vLLM

ストレージの作成

まず、モデルファイルを保存するための永続ストレージボリュームを作成します：

Storageページに移動
「New Network Volume」ボタンをクリック
ストレージの詳細を入力：
- Volume Name：ストレージにわかりやすい名前を付ける
- GB：モデルの要件に基づいて適切なサイズを選択
- Data Center：Serverlessをデプロイするのと同じリージョンを選択

create storage 01 create storage 02

HuggingFaceトークンの取得

HuggingFaceからモデルをダウンロードするには、アクセストークンが必要です：

HuggingFaceウェブサイトにアクセスしてアカウントにサインイン
プロフィール設定に移動
「Access Tokens」セクションに移動
「Create new token」ボタンをクリック
トークンを設定：
- Name：トークンにわかりやすい名前を付ける
- Role：モデルのダウンロードには「read」を選択
「Create token」ボタンをクリック
生成されたトークンを安全にコピーして保存 - 後で必要になります

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

設定ガイド

モデルの選択

プラットフォームは、組み込みのvLLMフレームワークバージョン0.6.2環境を提供しています。設定する必要があるものは次のとおりです：

HuggingFace Model： ターゲットモデル名を入力（例：meta-llama/Llama-2-7b-chat-hf）
HuggingFace Token： オプションの認証トークン
- 特定のモデルとデータセットに必要
- コンテナ内でHUGGING_FACE_HUB_TOKEN環境変数として自動的に設定されます
- 先ほど生成したトークンを貼り付けます

vLLMパラメータ

これらは、vLLMフレームワークのオプションの高度な設定です。慎重に変更してください：

Tensor Parallel Degree： マルチGPU推論用
Max Total Tokens： 応答の総長を制限
Quantization： モデル圧縮オプション
Trust Remote Code： カスタムコードを必要とするモデルを有効化

注意：これらのパラメータをデフォルト値から変更する前に、必ず理解してください。

Endpointパラメータ

デプロイメント環境を設定します：

Endpoint Name： 自動生成されますがカスタマイズ可能
GPU設定：
- GPUタイプを選択（A100、H100、L4など）
- ワーカーあたりのGPU数を指定
Data Center： デプロイメントリージョンを選択
Storage：
- 強く推奨：Network Volumeを/root/.cache/huggingfaceにマウント
- これにより、再起動時のモデル永続性が有効になります
- モデルファイルをキャッシュすることで、後続のデプロイメントを高速化

ヒント：永続ストレージにより、繰り返しのモデルダウンロードを避けることで、後続のデプロイメントの起動時間が大幅に改善されます。

quick deploy 02 quick deploy 01

デプロイ後、vLLM Endpointは推論リクエストを処理する準備が整います。システムは自動的にモデルのダウンロードと初期化を処理します。

Stable Diffusion

前のページ

イメージ

次のページ

目次

ストレージの作成 HuggingFaceトークンの取得設定ガイドモデルの選択 vLLMパラメータ Endpointパラメータ