科技·商业·财经

北京大学新突破:双流编码助力AI精准捕捉人体动作细节

   时间:2026-06-20 02:03 作者:鞭牛士

在人工智能生成人体动作的领域,一项突破性研究正引发广泛关注。北京大学计算机学院与AI机器人公司联合开发的MotionVLA模型,通过创新性的双流编码架构,成功解决了传统方法中动作失真、抖动和漂移等长期存在的技术难题。该研究以预印本形式发布于arXiv平台,论文编号为arXiv:2606.15142,为具身智能和角色动画领域提供了新的技术范式。

传统方法在生成人体动作时,常面临一个根本性挑战:人体运动同时包含慢变的姿态信息(如手臂位置、身体朝向)和快变的速度信息(如关节摩擦、运动节奏),而现有技术往往用单一编码空间处理这两种截然不同的信号。这导致速度细节被当作"噪音"过滤掉,生成的动作虽能摆出正确姿态,却缺乏真实的物理动态,表现为脚部滑动、身体漂移和动作抖动等现象。研究团队通过离散余弦变换分析发现,关节位置信号的能量集中在前5个低频成分,而关节速度信号需要前25个高频成分才能保留80%的信息,这种能量分布的巨大差异是问题根源。

针对这一发现,研究团队提出了"双流频域词元化器"(DSFT)架构。该架构将263维的人体动作特征拆分为190维的"基础流"(包含关节位置和旋转角度)和73维的"物理流"(包含关节速度和根部动态)。基础流仅保留前5个低频成分,物理流则保留前25个高频成分,分别通过独立训练的BPE编码器生成词元序列。这种设计使词元序列长度减少24%,同时将动作分布与真实数据的差异指标(rFID)从0.9461降至0.1868,显著提升了重建质量。

在模型架构方面,MotionVLA以阿里巴巴Qwen3.5大语言模型为基础,通过扩展8,195个运动专用词元构建了统一的生成框架。训练过程分为两个阶段:首先冻结模型参数预热词元嵌入,随后通过LoRA适配器进行微调。推理阶段引入"相位感知约束",确保基础姿态词元先于物理细节词元生成,维持了动作的层次结构。该模型同时支持文本和场景图像输入,在ViMoGen-228K数据集上结合了41,971条野外视频和170,942条光学捕捉数据,在HumanML3D数据集上则使用23,384条纯文本数据进行训练。

实验结果显示,MotionVLA在多个关键指标上超越现有方法。在MBench基准测试中,其动作与条件一致性得分达0.55,较上一代基线提升3.8%;脚部滑动指标降至0.0049,优于对比方法的0.0051。在HumanML3D测试集上,该模型在动作多样性(9.548 vs 真实数据9.503)和多模态性(2.821)指标上表现突出,同时保持了有竞争力的FID和R-Precision得分。人类偏好研究进一步验证了其优势:在500次盲测比较中,64%的评估者认为MotionVLA生成的动作更优,仅14%选择对比方法。

技术验证不仅停留在数字层面。研究团队将MotionVLA部署在宇树科技G1 EDU人形机器人上,实现了"径直走向房间另一端"、"转身然后走到尽头"等复杂动作的实时执行。在MuJoCo物理仿真器中的可视化验证也表明,生成的动作能准确遵循物理规律,避免了传统方法中常见的穿透和漂浮现象。这些实践证明了该技术从虚拟环境到真实硬件的可行性。

尽管取得显著进展,研究团队也指出了当前系统的局限性。例如,20亿参数的骨干网络规模是否最优尚未明确,固定划分基础流和物理流的方式可能不适用于所有场景,生成顺序的固定性也缺乏自适应调整。这些发现为后续研究指明了方向,包括探索更大规模模型、更灵活的分流策略,以及更广泛的数据集应用。

该研究的代码已开源至GitHub的AIGeeksGroup/MotionVLA仓库,为研究人员提供了完整的实现框架。通过分离快慢信号的编码空间,这项工作为人体动作生成领域提供了新的设计哲学:有效的运动表示应尊重信号本身的物理特性,而非简单追求压缩效率。这种思路的转变,可能推动具身智能和人机交互技术迈向新的发展阶段。

 
 
更多>同类内容
全站最新
热门内容