滚动资讯

当前位置：网界 > 行业动态 > 正文内容

北京大学新突破：双流编码助力AI精准捕捉人体动作细节

时间：2026-06-20 02:03 作者：鞭牛士

在人工智能生成人体动作的领域，一项突破性研究正引发广泛关注。北京大学计算机学院与AI机器人公司联合开发的MotionVLA模型，通过创新性的双流编码架构，成功解决了传统方法中动作失真、抖动和漂移等长期存在的技术难题。该研究以预印本形式发布于arXiv平台，论文编号为arXiv:2606.15142，为具身智能和角色动画领域提供了新的技术范式。

传统方法在生成人体动作时，常面临一个根本性挑战：人体运动同时包含慢变的姿态信息（如手臂位置、身体朝向）和快变的速度信息（如关节摩擦、运动节奏），而现有技术往往用单一编码空间处理这两种截然不同的信号。这导致速度细节被当作"噪音"过滤掉，生成的动作虽能摆出正确姿态，却缺乏真实的物理动态，表现为脚部滑动、身体漂移和动作抖动等现象。研究团队通过离散余弦变换分析发现，关节位置信号的能量集中在前5个低频成分，而关节速度信号需要前25个高频成分才能保留80%的信息，这种能量分布的巨大差异是问题根源。

针对这一发现，研究团队提出了"双流频域词元化器"（DSFT）架构。该架构将263维的人体动作特征拆分为190维的"基础流"（包含关节位置和旋转角度）和73维的"物理流"（包含关节速度和根部动态）。基础流仅保留前5个低频成分，物理流则保留前25个高频成分，分别通过独立训练的BPE编码器生成词元序列。这种设计使词元序列长度减少24%，同时将动作分布与真实数据的差异指标（rFID）从0.9461降至0.1868，显著提升了重建质量。

在模型架构方面，MotionVLA以阿里巴巴Qwen3.5大语言模型为基础，通过扩展8,195个运动专用词元构建了统一的生成框架。训练过程分为两个阶段：首先冻结模型参数预热词元嵌入，随后通过LoRA适配器进行微调。推理阶段引入"相位感知约束"，确保基础姿态词元先于物理细节词元生成，维持了动作的层次结构。该模型同时支持文本和场景图像输入，在ViMoGen-228K数据集上结合了41,971条野外视频和170,942条光学捕捉数据，在HumanML3D数据集上则使用23,384条纯文本数据进行训练。

实验结果显示，MotionVLA在多个关键指标上超越现有方法。在MBench基准测试中，其动作与条件一致性得分达0.55，较上一代基线提升3.8%；脚部滑动指标降至0.0049，优于对比方法的0.0051。在HumanML3D测试集上，该模型在动作多样性（9.548 vs 真实数据9.503）和多模态性（2.821）指标上表现突出，同时保持了有竞争力的FID和R-Precision得分。人类偏好研究进一步验证了其优势：在500次盲测比较中，64%的评估者认为MotionVLA生成的动作更优，仅14%选择对比方法。

技术验证不仅停留在数字层面。研究团队将MotionVLA部署在宇树科技G1 EDU人形机器人上，实现了"径直走向房间另一端"、"转身然后走到尽头"等复杂动作的实时执行。在MuJoCo物理仿真器中的可视化验证也表明，生成的动作能准确遵循物理规律，避免了传统方法中常见的穿透和漂浮现象。这些实践证明了该技术从虚拟环境到真实硬件的可行性。

尽管取得显著进展，研究团队也指出了当前系统的局限性。例如，20亿参数的骨干网络规模是否最优尚未明确，固定划分基础流和物理流的方式可能不适用于所有场景，生成顺序的固定性也缺乏自适应调整。这些发现为后续研究指明了方向，包括探索更大规模模型、更灵活的分流策略，以及更广泛的数据集应用。

该研究的代码已开源至GitHub的AIGeeksGroup/MotionVLA仓库，为研究人员提供了完整的实现框架。通过分离快慢信号的编码空间，这项工作为人体动作生成领域提供了新的设计哲学：有效的运动表示应尊重信号本身的物理特性，而非简单追求压缩效率。这种思路的转变，可能推动具身智能和人机交互技术迈向新的发展阶段。

更多>同类内容

参数量仅1B的小模型，如何以架构革新超越百倍规模顶尖AI？

06-20

“蓝鲲智种”蓝色种业大模型平台发布助力我国水产育种迈向新台阶

06-20

MIT团队打破常规：AI模型“中间窄两头宽”架构实现高效智能升级

06-20

四川大学与华为联合研究：AI逻辑推理为何难破中文“语言迷宫”？

06-20

复旦与阿里通义千问团队突破AI瓶颈：让AI“看图”“画图”无缝衔接

06-20

清华等高校联合研究：AI扩散语言模型“自蒸馏”新法，效率飙升十倍

06-20

港理工突破AI图片编辑瓶颈：文字与手势协同，开启精准创作新体验

06-20

清华大学研究：AI大模型“取巧”真相，全注意力层才是长文本关键

06-20

Layer 6 AI新突破：破解大模型训练“崩溃”困局，让学习更稳健

06-20

7B小模型“循环思考”显神通：代码任务中力压数百亿参数大模型

06-20

香港中文大学等团队突破创新：机器人借人类视频“解锁”高效学习新路径

06-20

南洋理工频谱强制技术：为AI图像生成精准“导航” 聚焦有效信号

06-20

中央大学与Adobe Research创新AI图像修复：高清参考图助力告别生成失真

06-20

英伟达新突破：ZPPO方法助力AI小模型高效学习，效果显著提升

06-20

AI造游戏能力大揭秘：顶尖模型挑战完整开发，最高仅获四成成绩

06-20

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

沃尔玛蝉联榜首零食量贩崛起区域零售突围：中国零售格局深度重构

青海电商降本增效秘籍：5个获客软件实用技巧助力精准获客

端午北京：老字号守正创新新潮粽抢占市场粽香撬动夏日消费热潮

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号