次世代の動画生成で「足の滑り」「浮遊する腕」「変形する手」を修正するための決定版ガイド
AI動画は、この1年で大きな進化を遂げました。説得力のある顔立ち、映画のようなライティング、そしてほぼ実写に見える背景を生成できるようになりました。しかし、キャラクターが動き出した途端、そのイリュージョンはほとんどの場合崩れ去ります。腕が不自然なテンポで振られ、床を摩擦ゼロのように滑る足、フレーム間で融合してしまう指――一度は目にしたことがあるでしょう。これでは没入感が削がれてしまいます。リアルなAI動画を作ろうと時間を費やしてきた人なら、誰もがこのような不具合に遭遇したことがあるはずです。モデルのせいにしたくなるかもしれませんが、Kling 3.0を用いて動きに焦点を当てた一連のテストを行った結果、品質を大きく飛躍させたのはツールを切り替えることではなく、AI動画プロンプトの書き方を改善することでした。
リアルなAI動画の生成に時間をかけていると、おそらくこのような問題を目にしたことがあるでしょう。
本能的にモデルのせいにしがちですが、Kling 3.0を使ってAIのための複雑なプロンプトの精度を検証するために60以上のテストを行ったところ、常に同じパターンが見えてきました。動きの質を向上させる最大の要因は、多くの場合、AI動画プロンプトのちょっとした細部にありました。
大きな変更ではなく、次のような繊細な工夫です。
- 足の着き方を描写する。
- 歩行中の重心移動について言及する。
- カメラの動きをモデルに指示する。
これらの手がかりは、フレーム全体で動きがどのように展開されるべきかをモデルに教える、より良いガイドとなります。これこそが、効果的なAI動画プロンプトエンジニアリングの核心です。
この記事では、テストにおいて最も自然な動きを一貫して生み出した10のAI動画プロンプトを紹介します。基本的な歩行から複雑な複数キャラクターのインタラクションまでを網羅しています。それぞれのプロンプトが何を検証し、なぜ機能するのかを解説し、Kling 3.0を使ってプロフェッショナルな結果を得るための明確なロードマップを提示します。
なぜリアルな人間の動きがAI動画において最も難しいのか
静止画シーンは、ほぼ解決済みです。
最近の動画モデルのほとんどは、明らかな違和感なしに説得力のあるポートレートや風景を生成できます。
しかし、人間の動きは全く別の問題です。
単純な歩行シーケンスであっても、モデルは数十もの関節を複数のフレームにわたって調整し、以下を維持する必要があります。
- 体の比率を維持する。
- 重心移動を信憑性のあるものにする。
- 地面との接地を安定させる。
ここに衣服の揺れ、髪の動き、手に持ったオブジェクトが加わると、複雑さは一気に増します。これこそが、高度なAI動画モーション制御が極めて重要になる領域です。
この点において、Kling 3.0は以前のバージョンよりも明らかに優れています。その時間軸に沿ったモーションアーキテクチャにより、特に長いシーケンスにおいて、フレーム間の整合性をより確実に維持できます。それでもなお、プロンプトの構成は非常に重要です。正確な指示がなければ、最高レベルのモデルであってもリアルなAI動画を作るのは困難です。
自然な人間の動きを引き出す10のAI動画プロンプト
テスト中に最も安定した結果が得られた10のプロンプトを以下に紹介します。魔法の公式ではありませんが、単純なバリエーションよりも一貫して高いパフォーマンスを発揮しました。
プロンプト#1 — 自然な歩行
検証内容: 基本的な歩行メカニズムと重心移動。
プロンプト:
plaintext1夕暮れ時の都会の通り。雨で濡れた舗装路。ベージュのトレンチコートを着た女性が歩いている――特別なことはなく、ただ歩いている。ゆったりとしたペース。腕は自然に体の横に。一歩ずつ、かかとから着地し、つま先へと重心が移動する。彼女の背後で、街灯とネオンサインが濡れた地面に反射してぼやけている。カメラは低く、ストリートレベル、35mmレンズで撮影しているかのように。ドラマもアクションもない。彼女と街が、互いの間を通り抜けていく。リアルだからこそ、リアルに感じられる。
ネガティブプロンプト:
plaintext1sliding feet, moonwalk, floating, stiff legs, robotic movement, gliding, no foot contact, distorted gait, blurry background
以下の2つのディテールが目に見える違いを生みます。「かかとからつま先へ」という着地の描写は、よくある「滑るような歩行」という不具合を防ぐのに役立ちます。被写体と同じ速度で移動する追跡カメラも安定性を高めます。キャラクターがフレームの中央に留まることで、Kling 3.0はフレーム間での体の比率をより一貫して維持する傾向があります。
プロンプト#2 — 短距離走の動き
検証内容: 高速モーションと全身の連動性。
プロンプト:
plaintext1ゴールデンアワーのトラックを速く走る男性。力強く足を踏み出す。脚は前方へ、足は地面をしっかり捉える。筋肉が緊張と弛緩を繰り返す中で、腕はリズムに合わせて上下に動く。 2カメラは特殊レンズで側面から素早く彼を追う。背景はぼやける。ランナーはクリアなまま。カメラのスナップ感により、暖かい光の中で各動作がシャープかつ鮮明に見える。
足の接地について「目に見える衝撃(visible impact)」というフレーズが重要です。これがないと、疾走はしばしば浮遊するような動きに劣化してしまいます。背景にのみモーションブラーを制限することは、ランナーの身体のディテールを保持するのに役立ち、高度なAI動画モーション制御のための重要なヒントとなります。
プロンプト#3 — 首を振るクローズアップ
検証内容: 回転中の顔の整合性。
プロンプト:
plaintext1クローズアップ。女性がゆっくりと首を振る。左から右へ。一瞬、彼女の顔だけが映る。髪がその動きに続いて動き、光を捉える。首を振り終える間際、彼女の瞳がレンズを見つめる。小さな微笑みが浮かび始める。まだ完全な微笑みではない。ほんの始まり。光は柔らかい。彼女の肌、首を動かすときのわずかな筋肉の緊張が見える。50mmレンズ。フレームはずっと彼女を捉えている。静か。まるで彼女があなたに気づいたかのように。
首を振る動作は、カメラに対して顔の形状が急速に変化するため非常に難しいものです。動作を4秒かけてゆっくり行い、髪の二次的な動きを加えることで、よりスムーズな結果が得られる傾向があります。このテクニックは、カット間でアイデンティティを一定に保つ必要がある一貫したキャラクターのAI動画ワークフローにおいて不可欠です。
プロンプト#4 — 腰を下ろす
検証内容: 重心移動と体とオブジェクトのインタラクション。
プロンプト:
plaintext1大きな窓から差し込む日光。ネイビーのスーツを着た男性がレザーチェアの方へ歩き、座る。ゆっくりと。椅子の背もたれに体重を預ける。ジャケットを直し、脚を組み、くつろぐ。革が沈み込む。スーツにシワが寄る。35mmレンズ。椅子の質感、彼の立ち居振る舞いが見える。それ以上は何もなし。自分の空間にいる男性。無防備な姿。
クッションが沈み込むというディテールは、キャラクターが椅子の上に浮かぶのではなく、物理的に椅子と相互作用するようにモデルに指示するものです。このレベルのディテールは、オブジェクトとの接触に関するAIのための複雑なプロンプトの精度を向上させます。
プロンプト#5 — 手のインタラクション
検証内容: 指の安定性とオブジェクトとの接触。
プロンプト:
plaintext1午後の遅い太陽の光。窓から差し込む。暖かく、斜めに。女性の手がフレームに入る。手だけ。指が陶器のカップを包み込む。親指が上に乗る。彼女が木製のソーサーからカップを持ち上げる。ゆっくりと。口元へ運ぶ。小さな一口。そして置く。カップがソーサーに触れるかすかな音。光があらゆるものを捉える。彼女の指、お茶、舞い上がる塵。レンズは近い。陶器の質感、光を捉える爪が見える。カップを置く際の指のわずかな変化。小さな瞬間。充実感。
手は、空間を自由に動くよりもオブジェクトに固定されているときの方がはるかに安定します。これは、指の変形を避けるためのAI動画プロンプトエンジニアリングの基本的なルールです。
プロンプト#6 — バレエの回転
検証内容: 回転運動と衣服のダイナミクス。
プロンプト:
plaintext1劇場のステージの上、プロのバレリーナがスポットライトの下で滑らかに回転する。腕が自然にポジションを移動し、一方の脚を外側に向けた回転に合わせて、白いチュチュが少し広がる。 2周囲のステージは暗く、ダンサーとその動きにすべての視線が集まる。24mmレンズで撮影され、自然でバランスのとれた全身の回転を一度のテイクで捉えている。
バレエ用語を使用することで、モデルにより明確な体の位置の目標を与えられます。これは高度なAI動画モーション制御を活用し、背景を歪めることなく複雑な回転物理を処理するための手法です。
プロンプト#7 — 二人のインタラクション
検証内容: 複数キャラクターの空間的な整合性。
プロンプト:
plaintext1午後の遅い光。暖かい。斜めに道を切り裂く。歩道で二人が互いに気づく。旧友。一人が手を差し出し、握手をする。もう一人が腕を広げる。二人はそのタイミングのズレに笑い、ハグをする。手が背中を数回叩く。素早いリズム。リアル。二人は少しの間、そこに立っている。気楽に。都会が彼らの周りを動く。ショットは少し引きで。ハンディカム。何かが過ぎ去る前にそれを捉えるようなフレーミング。すべての身振りが明瞭。過剰な演出はない。ただ互いに再会を喜ぶ二人の姿。
異なるアクションから始めることで、モデルは二つの独立したキャラクターの動きを維持しやすくなります。このアプローチは、複数の被写体を含む一貫したキャラクターのAI動画ワークフローにとって非常に重要です。
プロンプト#8 — ラテアート
検証内容: 両手の連動性と流体モーション。
プロンプト:
plaintext1カウンターの内側。ピッチャーを持ったバリスタ。カフェは静か。暖かい。長く居座りたくなるような場所。彼女が小さなカップの上に金属のピッチャーを傾ける。ミルクが流れ出る。細い筋。暗い表面に浮かぶ白。もう片方の手がカップを支え、ガイドする。表面に模様が現れ始める。葉のような形。繊細。カップとピッチャーの間に湯気が立ち上る。ピッチャーの縁に光が当たる。カップの曲線。柔らかく、黄金色。彼女がこれまでに何度もやってきたことが分かる。急いでもいない。考え込んでもいない。ゆっくりと、丁寧に。ミルクは、彼女がどこへ行くのかを知っているかのように流れていく。
それぞれの手に特定の役割を割り当てることで、安定性が向上します。この具体性は、流体力学や両手を使う作業を扱う際のAIのための複雑なプロンプトの精度を確実にします。
プロンプト#9 — 表情の変化
検証内容: 段階的な感情の移行。
プロンプト:
plaintext1部屋の柔らかな光。静寂。安定している。男性がスマートフォンを見ながら座っている。最初は画面を見下ろしている。顔は静止している。待っている状態。ニュートラル。何かに気づく。眉が上がる。最初はわずかに。それから大きく。目が少しだけ見開かれる。何かを正しく見ているか確信が持てないときのような、あの表情。驚きが別の感情に変わる。口がわずかに開く。微笑みに変わる。大きくはない。リアルな微笑み。顔の上で表情が変化していく様子が分かる。筋肉が動き、温かみが目に宿る。カメラは目の高さ。クローズアップ。小さな変化をすべて捉える。視線は彼に固定。手の中のスマホに固定。良い知らせを受け取り、その瞬間を一人で噛み締める静かな時間。自分でも気づかないうちに微笑んでいる。
表情を段階的に分割することで、顔の急激なモーフィングを防ぐことができます。この段階的なアプローチは、プロのAI動画プロンプトエンジニアリングの基礎です。
プロンプト#10 — シネマティックなシーン
検証内容: AI動画のシーンシーケンスと多層的な動き。
プロンプト:
plaintext1ドアが開くと同時にカメラが見下ろす。重厚な木。古い。ずっとそこにあったかのようなドア。男性が入ってくる。長いダークコート。顔に影が落ちている。彼は入り口で止まり、見回す。そして前へ進む。ゆっくりと、慎重に。歩くたびにコートが揺れる。背景ではピアニストが演奏している。ベンチの上で少し体を揺らしている。琥珀色の光の中、煙が立ち上る。暖かい。カメラがゆっくりと、安定して引き始める。探偵は歩き続ける。カットはなし。ワンテイク。15秒ほど。すべてがそれぞれの時間の中で流れる。彼の歩み。ピアノ。すべてを繋ぎ止める光。暗く、静か。別の時代のように感じる。
前景、中景、遠景でそれぞれ何かが起こっていることが、奥行きを生み出します。平坦に見えるのを防ぐことができます。このプロンプトが機能するのは、モデルが同時に複数のレイヤーを追跡する必要があるからです。前に探偵、後ろにピアニスト、その間に光と煙。すべてが同時に起こっている。何かが主張しすぎることはない。それこそが、リアルなシーンだと感じさせる理由です。単に出来事が順番に起こるだけではないのです。
テスト環境: Kling 3.0をグローバルに使う方法
このガイドのすべてのプロンプトはKling 3.0を使用してテストされました。
Kling AIは現在、中国国外でも正式に利用可能となっており、プラットフォームは国際アクセスに対応したグローバル体験を開始しています。とはいえ、初期の頃は中国国外のクリエイターは、中国本土の電話番号を前提としたサインアップフローや、合致しない支払い方法、あるいはどこから始めればよいかの混乱といった摩擦に遭遇することが多くありました。中国国外からKling 3.0を使う方法を探していたのであれば、あなたは一人ではありません。幸いなことに、現在はグローバルサイトへアクセスし、アカウントを作成して生成を開始するのが非常に簡単になっています。
テストには、英語インターフェースとすべての機能サポートを備えた同じモデルへのグローバルアクセスを提供するAtlas Cloudを使用しました。これにより、以下が可能になります。
- プロフェッショナルモードでの生成
- ネガティブプロンプト
- 最大4Kの出力
- 15秒の動画クリップ
価格も少し抑えられており、公式サイトの約USD0.18に対して、1秒あたり約USD0.153から利用可能です。
これらのAI動画プロンプトを試してみたい場合は:Atlas CloudでKling 3.0を試す
成功したモーションプロンプトに見られた4つのパターン
数多くのテストを行った結果、機能するプロンプトにはいくつかの共通したパターンが見られました。シンプルなことですが、当たり前だと思って見落としがちなものです。
1. アクションだけでなく物理現象を記述する
モデルに「何が」起こるかを伝えるのと、「どのように」物理的に動くかを記述するのとでは、大きな違いがあります。この区別は、AIのための複雑なプロンプトの精度において重要です。
弱いプロンプト:
歩いている男性
より強いプロンプト:
歩いている男性。一定のペース。腕は自然に体の横に。一歩ずつかかとから着地し、つま先へロールする。濡れた路面。
後者のバージョンは、ストライド、腕のリズム、足が地面とどう接するかといった、モデルが処理するための具体的な要素を提供します。これらの詳細がなければ、モデルは一般的なアニメーションに依存してしまいます。動いてはいるものの、実際に歩いているようには感じられない動きになってしまうのです。
2. 動きを現実的な環境の中に配置する
動作が真空中で起こることはほとんどなく、プロンプトでそう記述すべきではありません。
環境のディテールは、ライティング、地面との接地、空間の奥行きについて、モデルにコンテキストを与えます。
比較:
走っている女性
対
朝、日光が差し込む公園をジョギングする女性。ストライドごとにポニーテールが揺れ、砂利道に足が着地する。
これでプロンプトは、動きだけでなく、表面の質感、光、場所という情報をモデルに伝えています。
3. カメラの方向は予想以上に重要
モーションの品質を向上させる最も簡単な方法の一つは、単にカメラの振る舞いをモデルに伝えることです。これは高度なAI動画モーション制御の鍵となる側面です。
指示がなければ、ほとんどのモデルは静的なワイドショットをデフォルトにします。これが、動きを平坦に見せる原因となります。
基本的な指示でも助けになります。
ミディアムショット、50mmレンズ、トラッキングカメラ
多くのテストにおいて、トラッキングカメラを追加するだけで、動きは明らかに自然に見えました。
4. ガードレールとしてネガティブプロンプトを使う
ネガティブプロンプトは、特定の失敗モードをターゲットにするときに最も効果を発揮します。
人間の動きに関しては、短いベースラインが有効です。
blurry limbs, distorted joints, extra fingers, unnatural movement, morphing body parts
ポイントは詰め込みすぎないことです。極端に長いネガティブプロンプトは、逆にアニメーションを硬くし、リアルなAI動画を作るチャンスを損なう可能性があります。
シンプルなモーションプロンプトのテンプレート
独自のAI動画プロンプトを構築する場合、次のような構成がうまくいくことが多いです。
plaintext1[キャラクターの描写] 2 3[動作]を行っている 4 5モーションの詳細: 6ストライドのメカニズム / 腕の動き / 重心移動 7 8環境: 9場所 / 表面 / ライティング 10 11カメラ: 12ショットタイプ / レンズ / 動き 13 14ネガティブプロンプト: 15distorted limbs, extra fingers, sliding feet
クイックFAQ: Kling 3.0を効果的に使う方法
Q: これらのプロンプトは他のモデルでも機能しますか? はい、物理の原則は普遍的です。ただし、Kling 3.0の特定のアーキテクチャは、こうした詳細な指示に特によく反応します。
Q: どの解像度を使うべきですか? テスト速度と反復のためには1080pで進めましょう。リアルなAI動画のために最大限のディテールが必要な最終レンダリング時に4Kへ切り替えてください。
Q: 手がまだ変に見えます。どうすればいいですか? まず、オブジェクト(カップや手すりなど)に固定させてみてください。これは、手の問題に対するAI動画プロンプトエンジニアリングで最も信頼できる解決策です。
最後に
AI動画におけるリアルな人間の動きは、モデルの能力だけの問題ではありません。
プロンプトのデザインは、多くの人が予想するよりもはるかに大きな役割を果たしています。
数多くのテストを通じて、最もパフォーマンスの高かったプロンプトは一貫して次のことを行っています。
- アクションだけでなく、物理的な動きを記述している。
- 明確な環境の中に動きを配置している。
- カメラの挙動を指定している。
- ターゲットを絞ったネガティブプロンプトを使用している。
Kling 3.0のようなツールはレンダリングエンジンを提供します。プロンプトは、それに適した指示を与えるだけです。
結局のところ、これらのテクニックを習得することは、単に不具合を修正することではなく、AI動画ツールによるストーリーテリングを向上させることなのです。キャラクターが信憑性を持って動けば、観客はテクノロジーではなくストーリーに集中するようになります。
ご自身でこれらのプロンプトを試してみたい場合は、Atlas Cloudを通じて実行し、動きの描写が結果にどのように影響するかを確認してみてください。
Atlas Cloudで両方のモデルを使う方法
Atlas Cloudでは、モデルを並べて使用できます。まずはプレイグラウンドで、次は単一のAPIを介して。
方法1: Atlas Cloudのプレイグラウンドで直接使用する
方法2: APIを介してアクセスする
ステップ1: APIキーを取得する
コンソールでAPIキーを作成し、後で使用するためにコピーします。


ステップ2: APIドキュメントを確認する
APIドキュメントで、エンドポイント、リクエストパラメータ、認証方法を確認します。
ステップ3: 最初のAPIリクエストを実行する(Pythonの例)
例: Kling v3.0のStd Text-to-Videoで動画を生成する。






