チュートリアル

vLLM

ストレージの作成

まず、モデルファイルを保存するための永続ストレージボリュームを作成します:

  1. Storageページに移動
  2. 「New Network Volume」ボタンをクリック
  3. ストレージの詳細を入力:
    • Volume Name:ストレージにわかりやすい名前を付ける
    • GB:モデルの要件に基づいて適切なサイズを選択
    • Data Center:Serverlessをデプロイするのと同じリージョンを選択

create storage 01 create storage 02

HuggingFaceトークンの取得

HuggingFaceからモデルをダウンロードするには、アクセストークンが必要です:

  1. HuggingFaceウェブサイトにアクセスしてアカウントにサインイン
  2. プロフィール設定に移動
  3. 「Access Tokens」セクションに移動
  4. 「Create new token」ボタンをクリック
  5. トークンを設定:
    • Name:トークンにわかりやすい名前を付ける
    • Role:モデルのダウンロードには「read」を選択
  6. 「Create token」ボタンをクリック
  7. 生成されたトークンを安全にコピーして保存 - 後で必要になります

apply hf-token 01 apply hf-token 02 apply hf-token 03 apply hf-token 04 apply hf-token 05

設定ガイド

モデルの選択

プラットフォームは、組み込みのvLLMフレームワークバージョン0.6.2環境を提供しています。設定する必要があるものは次のとおりです:

  • HuggingFace Model: ターゲットモデル名を入力(例:meta-llama/Llama-2-7b-chat-hf)
  • HuggingFace Token: オプションの認証トークン
    • 特定のモデルとデータセットに必要
    • コンテナ内でHUGGING_FACE_HUB_TOKEN環境変数として自動的に設定されます
    • 先ほど生成したトークンを貼り付けます

vLLMパラメータ

これらは、vLLMフレームワークのオプションの高度な設定です。慎重に変更してください:

  • Tensor Parallel Degree: マルチGPU推論用
  • Max Total Tokens: 応答の総長を制限
  • Quantization: モデル圧縮オプション
  • Trust Remote Code: カスタムコードを必要とするモデルを有効化

注意:これらのパラメータをデフォルト値から変更する前に、必ず理解してください。

Endpointパラメータ

デプロイメント環境を設定します:

  • Endpoint Name: 自動生成されますがカスタマイズ可能
  • GPU設定:
    • GPUタイプを選択(A100、H100、L4など)
    • ワーカーあたりのGPU数を指定
  • Data Center: デプロイメントリージョンを選択
  • Storage:
    • 強く推奨:Network Volumeを/root/.cache/huggingfaceにマウント
    • これにより、再起動時のモデル永続性が有効になります
    • モデルファイルをキャッシュすることで、後続のデプロイメントを高速化

ヒント:永続ストレージにより、繰り返しのモデルダウンロードを避けることで、後続のデプロイメントの起動時間が大幅に改善されます。

quick deploy 02 quick deploy 01 quick deploy 02

デプロイ後、vLLM Endpointは推論リクエストを処理する準備が整います。システムは自動的にモデルのダウンロードと初期化を処理します。