解决AI视频中脚步滑动、手臂漂浮和手部变形问题的权威指南。
AI视频在过去一年中取得了巨大进步。现在,你可以生成令人信服的人脸、电影级的灯光以及近乎照片级真实的背景。但只要角色一动起来,这种幻觉往往就会瞬间破灭。你可能对此并不陌生:手臂摆动节奏不对、双脚像在冰面上一样滑动,或者手指在帧与帧之间融合在一起。这些瑕疵会瞬间让你出戏。如果你曾花时间尝试创作真实的AI视频,就一定遇到过这些故障。人们很容易将其归咎于模型本身。但在使用 Kling 3.0 进行了一系列以运动为重点的测试后,我们发现质量上的最大飞跃并非源于更换工具,而是源于提升了**AI视频提示词(prompt)**的编写水平。
如果你曾花费时间生成真实的AI视频,可能已经见过类似的问题。
人们的第一直觉通常是责怪模型。但在使用 Kling 3.0 进行超过60项针对运动的测试以验证AI复杂提示词的准确性后,我们不断发现同样的规律:运动质量的最大提升往往源于AI视频提示词中细微的细节。
不是大改动,只是像以下这样的小技巧:
- 描述脚是如何落地的。
- 提到迈步过程中的重心转移。
- 告诉模型摄像机是如何运动的。
这些线索为模型提供了关于运动应如何在帧间展开的更好引导。这就是高效AI视频提示词工程的核心。
本文将介绍在我们的测试中始终能产生最自然运动效果的10个AI视频提示词——从基础行走到复杂的多角色互动。对于每一个示例,我都会解释其测试目的和生效原因,为你提供明确的路径,指导你如何使用 Kling 3.0 获取专业级效果。
为什么真实的人体运动依然是AI视频中最难的部分
静态场景的问题基本已经解决。
大多数现代视频模型都可以生成令人信服的肖像或风景,且不会出现明显的伪影。
但人体运动完全是另一回事。
一个简单的行走序列要求模型在多个帧之间协调几十个关节,同时保持:
- 身体比例一致。
- 重量分布可信。
- 脚部与地面的接触稳定。
再加上衣物摆动、头发飘动或手持物体,复杂性会迅速增加。这就是高级AI视频运动控制变得至关重要的原因。
在这一领域,Kling 3.0 明显优于早期版本。其时间运动架构能更可靠地处理帧间一致性,特别是在较长的序列中。尽管如此,提示词结构依然非常重要。没有精确的指令,即使是最好的模型也难以创作出真实的AI视频。
10个带来更自然人体运动的AI视频提示词
以下是我们在测试中产生最稳定结果的十个提示词。它们不是魔法公式,但始终比简单的版本表现更好。
提示词 #1 — 自然行走
测试目的: 基础行走机制与重心转移。
提示词:
plaintext1黄昏时的城市街道。雨后路面依然湿润。一名穿着米色风衣的女性走过——没什么特别的,就是普通的行走。步伐从容。双臂在身侧自然摆动。每一步都是脚后跟先着地,然后向前滚动。在她身后,路灯和霓虹灯在湿漉漉的地面上形成模糊的光影。摄像机位置很低,几乎处于街面高度,就像有人蹲着用35mm镜头拍摄一样。没有戏剧性,没有动作戏。只有她和城市,在彼此之间穿行。看起来很真实,因为这就是现实。
负向提示词:
plaintext1sliding feet, moonwalk, floating, stiff legs, robotic movement, gliding, no foot contact, distorted gait, blurry background
两个细节带来了显著的差异。“脚后跟到脚尖”落地的描述有助于防止常见的“滑步”伪影。摄像机随主体同步运动也提高了稳定性。当角色保持在画面中心时,Kling 3.0 往往能更一致地保持各帧间的身体比例。
提示词 #2 — 冲刺动作
测试目的: 高速运动与全身协调性。
提示词:
plaintext1黄金时段,一名男子在田径场上快速奔跑。他大步迈进。双腿向前,脚掌用力触地。他的双臂随着步伐节拍上下摆动,肌肉随每一步紧绷又放松。摄像机从侧面快速跟随,使用特殊镜头。背景变得模糊。跑者在画面中保持清晰。通过快门抓拍,每一个动作在暖光映衬下都显得锐利清晰。
“可见的冲击感”对于脚部接触描述非常重要。如果没有它,冲刺动作往往会退化为漂浮式的移动。将运动模糊限制在背景上,有助于保留跑者身体的细节,这是高级AI视频运动控制的关键技巧。
提示词 #3 — 头部转动特写
测试目的: 旋转过程中的面部一致性。
提示词:
plaintext1特写。一名女性缓慢转头。从左到右。片刻间只有她的脸。她的头发紧随其后,在移动时捕捉光线。转动结束时,她的目光对准镜头。一个浅浅的微笑开始浮现。甚至还算不上微笑,只是微笑的开始。灯光柔和。你可以看到她的皮肤,移动时颈部肌肉的轻微张力。50mm镜头。画面始终跟随她。安静。就像她刚刚注意到你。
头部转动很棘手,因为面部几何形状相对于摄像机会快速变化。将运动减慢至四秒并添加次要的头发动态往往能产生更平滑的效果。对于任何需要保持身份在不同镜头间稳定的一致性角色AI视频工作流,此技术至关重要。
提示词 #4 — 坐下
测试目的: 重心转移与身体-物体交互。
提示词:
plaintext1阳光透过大窗户。一名身穿海军蓝西装的男子走向皮椅并坐下。动作缓慢。让椅子承载他的重量。他调整了下夹克,双腿交叠,安顿下来。皮革在他身下凹陷。西装出现褶皱。35mm镜头。你可以看到椅子的质感,他坐姿的方式。没有别的。只是一个男人在他自己的空间里。不设防。
坐垫压缩的细节向模型发出信号,要求角色应与椅子产生物理互动,而不是悬浮在上方。这种级别的细节提升了关于物体碰撞的AI复杂提示词准确性。
提示词 #5 — 手部交互
测试目的: 手指稳定性与物体接触。
提示词:
plaintext1午后阳光。穿过窗户。温暖。有角度。一名女性的手进入画面。只有她的手。手指合拢握住陶瓷杯。大拇指放在杯顶。她将它从木质茶托上提起。缓慢。带到嘴边。小口啜饮。然后放下。杯子触碰茶托时发出轻微的碰撞声。光线捕捉到一切。她的手指。茶水。漂浮的尘埃。镜头很近。你可以看到陶瓷的质感。她的指甲捕捉到光线。放下时握力细微的调整。微小的瞬间。感觉很充实。
当手锚定在物体上而不是在空间中自由移动时,它们会稳定得多。这是在AI视频提示词工程中避免手指变形的基本规则。
提示词 #6 — 芭蕾旋转
测试目的: 旋转运动与织物动力学。
提示词:
plaintext1在剧院舞台上,一名专业芭蕾舞演员在聚光灯下进行平滑旋转。随着她向外伸展一条腿,手臂从二位优雅地摆出姿势,她白色的芭蕾舞裙微微飘起。周围舞台漆黑,因此所有视线都聚焦在舞者及其动作上。使用24mm镜头拍摄,一气呵成地捕捉完整旋转,看起来自然且平衡。
使用芭蕾舞术语可以为模型提供更明确的身体定位目标。它利用高级AI视频运动控制处理复杂的旋转物理学,而不会扭曲背景。
提示词 #7 — 两人互动
测试目的: 多角色空间一致性。
提示词:
plaintext1午后光线。温暖。斜射在街道上。两人在人行道上相遇。老友重逢。一人伸出手准备握手。另一人张开双臂。他们因错位而大笑,然后拥抱在一起。手在对方背上拍了几下。节奏很快。真实。他们站了一会儿。轻松。城市在他们周围移动。镜头稍远。手持拍摄。这种构图能在瞬间消失前捕捉到某些东西。每一个动作都很清晰。不刻意。只是两个见到对方很高兴的人。
从不同的动作开始有助于模型维护两个独立的角色轨迹。这种方法对于涉及多个主体的一致性角色AI视频工作流至关重要。
提示词 #8 — 拉花
测试目的: 双手协调与流体运动。
提示词:
plaintext1柜台后。一名咖啡师拿着拉花缸。咖啡馆很安静。温暖。那种你会想待上一会儿的地方。她将金属缸倾斜在小杯子上方。牛奶流出。细细的流线。在深色背景下显得洁白。她的另一只手托住杯子。引导它。表面开始浮现图案。叶子状。精致。蒸汽在两者之间升起。光线打在拉花缸的边缘。杯子的弧度。柔和。金黄色。你能看出她做过很多次了。不匆忙。不思考。缓慢。小心。牛奶流动的样子就像她在那之前就知道它要去哪里一样。
为每只手分配特定的角色可以提高稳定性。这种明确性确保了在处理流体力学和双手动任务时的AI复杂提示词准确性。
提示词 #9 — 面部表情变化
测试目的: 渐进式情绪过渡。
提示词:
plaintext1房间内柔和的灯光。安静。均匀。一名男子拿着手机坐着。低头看着它。起初他的脸是静止的。只是等待。中性。然后有什么东西引起了他的注意。他的眉毛上扬。起初很轻微。然后幅度更大。眼睛睁大。一点点。就像当你不能确定自己是否看对时那样。然后惊讶变成了别的东西。他的嘴微微张开。勾勒出一个微笑。不大。真实。你看着它在他的脸上移动。肌肉的变化。暖意传到眼睛里。摄像机平视。特写。捕捉到每一个微小的变化。焦点始终在他身上。在他手中的手机上。在好消息到来、一个人独自坐着的安静时刻。在意识到自己在笑之前就已经微笑了。
将表情分解为几个阶段有助于避免突然的面部变形。这种分阶段的方法是专业AI视频提示词工程的基石。
提示词 #10 — 电影感场景
测试目的: AI视频场景序列与多层运动。
提示词:
plaintext1门打开时摄像机俯瞰。厚重的木门。陈旧。那种存在已久的门。一名男子走进来。长长的深色大衣。阴影落在他的脸上。他在门口停下。环顾四周。然后向前移动。缓慢。深思熟虑。他的外套随每一步摆动。在他身后,钢琴师正在弹奏。在长凳上微微摇晃。烟雾在琥珀色的灯光中升起。温暖。摄像机后拉。缓慢。平稳。侦探继续走着。没有切换镜头。一镜到底。或许十五秒。一切都在自己的节奏里。他的步伐。钢琴声。光线将一切凝聚在一起。黑暗。安静。感觉像是另一个时代。
近景、中景、远景的交替,正是带来纵深感的原因。它防止了画面显得扁平。这个例子有效的原因是模型必须同时追踪多个图层。侦探在前面。钢琴师在后面。光线和烟雾在他们之间。一切同时发生。没有什么在抢镜。这就是让它感觉像是一个真实场景的原因,而不仅仅是事情一个接一个地发生。
测试环境:如何在全球使用Kling 3.0
本指南中的所有提示词均使用 Kling 3.0 进行测试。
Kling AI 现已正式面向中国境外开放——该平台推出了具有国际访问权限的全球体验版。话虽如此,早期许多中国境外的创作者依然遇到了一些障碍:注册流程假定需要大陆手机号、支付方式不匹配,或者仅仅是不知道从何开始。如果你一直想弄清楚如何使用 Kling 3.0,那么好消息是,现在直接访问全球站点、创建账户并开始生成已经变得简单多了。
为了进行测试,我们使用了 Atlas Cloud,它为该模型提供了全球访问权限,具有英文界面和全面的功能支持。它支持:
- 专业模式生成
- 负向提示词
- 最高4K输出
- 15秒视频片段
定价也稍微低一些——每秒约 USD0.153,而官方平台约为 USD0.18。
如果你想亲自尝试这些AI视频提示词:在Atlas Cloud上尝试Kling 3.0
成功运动提示词中出现的四种规律
我们运行了一系列测试。在有效的提示词中,某些规律不断出现。简单的事情。你可能会认为很显而易见。但很容易被忽略。
1. 描述物理规律,而不仅仅是动作
告诉模型“发生了什么”与描述物理上“如何发生”之间存在巨大差异。这种区别对于AI复杂提示词的准确性至关重要。
弱提示词:
一个男人在走路
更强的提示词:
一个男人在走路。步伐稳健。双臂在身侧自然摆动。每一步脚后跟先着地,向前滚动。脚下是湿润的路面。
第二个版本为模型提供了可操作的内容——步伐、手臂节奏、脚如何与地面接触。没有这些细节,它只会退回到通用的动画中。那种虽然在动,但感觉不像真人在走路的动画。
2. 将动作置于真实的场景中
运动很少在真空中发生,提示词也不应该这样描述。
环境细节为模型提供了关于光线、地面交互和空间深度的背景信息。
对比:
一个女人在跑步
与:
一个女人在晨间阳光明媚的公园里慢跑,马尾辫随着每一步摆动,脚落在碎石小路上。
现在提示词告诉模型的不仅仅是运动——还有表面、光线、发生的地点。
3. 摄像机方向的重要性超乎预期
提高运动质量最简单的方法之一就是告诉模型摄像机是如何运动的。这是高级AI视频运动控制的一个关键点。
没有引导时,大多数模型默认使用静态广角镜头。这通常使运动看起来很扁平。
即便是基本的指示也有帮助:
中景镜头,50mm镜头,追踪摄像机
在许多测试中,仅添加一个追踪摄像机就使运动看起来自然得多。
4. 使用负向提示词作为护栏
负向提示词在针对特定的失败模式时效果最好。
对于人体运动,一个简短的基准通常很有帮助:
blurry limbs, distorted joints, extra fingers, unnatural movement, morphing body parts
关键是不要堆砌太多。极长的负向提示词实际上会导致动画显得僵硬,从而毁掉你创作真实AI视频的机会。
一个简单的运动提示词模板
如果你正在构建自己的AI视频提示词,这种结构通常很有效:
plaintext1[角色描述] 2 3执行 [动作] 4 5运动细节: 6步伐机制 / 手臂摆动 / 重心转移 7 8环境: 9地点 / 表面 / 灯光 10 11摄像机: 12镜头类型 / 镜头焦距 / 运动方式 13 14负向提示词: 15distorted limbs, extra fingers, sliding feet
常见问题:如何有效使用Kling 3.0
问:这些提示词能在其他模型上工作吗? 是的,物理原理是通用的,尽管 Kling 3.0 的特定架构对这些详细的线索反应格外灵敏。
问:我应该使用什么分辨率? 测试速度和迭代时坚持使用1080p。当你需要最高细节来制作真实的AI视频时,再切换到4K进行最终渲染。
问:我的手看起来依然很奇怪。我该怎么办? 先尝试将它们锚定在某个物体上(如杯子或扶手)。这是在AI视频提示词工程中修复手部问题最可靠的方法。
结语
AI视频中的真实人体运动不仅仅取决于模型的能力。
提示词设计发挥的作用远超许多人的预期。
在数十次测试中,表现最好的提示词始终做到了几件简单的事情:
- 描述了物理运动,而不仅仅是动作。
- 将运动置于清晰的环境中。
- 指定了摄像机的行为。
- 使用了针对性的负向提示词。
像 Kling 3.0 这样的工具提供了渲染引擎。而提示词仅仅是给了它更好的指令。
最终,掌握这些技术不仅仅是为了修复故障;更是为了解锁使用AI视频工具进行更好的故事讲述。当你的角色动得令人信服时,观众就不再关注技术,而开始沉浸于故事本身。
如果你想亲自尝试这些提示词,可以通过 Atlas Cloud 运行它们,看看不同的运动描述如何影响结果。
如何在Atlas Cloud上使用双模型
Atlas Cloud 让你能够并排使用模型——首先在游乐场(playground)测试,然后通过单个API调用。
方法1:直接在Atlas Cloud游乐场使用
方法2:通过API访问
第一步:获取你的API密钥
在你的 控制台 中创建一个API密钥并复制以供后续使用。


第二步:查看API文档
在我们的 API文档 中查看端点、请求参数和身份验证方法。
第三步:发出你的第一个请求(Python示例)
示例:使用 Kling v3.0 标准版文本转视频生成一段视频。







