具身智能领域迎来重大突破,一支研究团队成功利用大规模真机数据完成预训练,发布了全球规模最大的开源预训练具身世界模型——τ0-World Model(τ0-WM)。该模型参数量达50亿,预训练数据总量接近3万小时,其中真机遥操作数据占比超过六成,达到1.78万小时。这一数据规模相当于一台机器人持续两年不间断接受人类远程操控,为具身智能训练树立了新的里程碑。
传统认知中,真机数据因其采集成本高昂、规模难以扩展,通常仅用于模型微调阶段。研究团队通过构建完整的数据采集与回流体系,首次将真机数据作为预训练主体。模型采用独特的三阶段决策流程:首先通过视频动作模型生成多组候选动作及模糊未来画面;随后利用动作条件视频模拟器推演各动作的多视角未来状态;最终通过双重评估机制筛选最优动作。当最优动作评分不足时,系统会启动模拟器修正机制,重新生成动作方案。
该模型的创新之处在于将"未来想象"贯穿决策全过程。研究团队特别设计的测试时计算模块,使机器人在执行前能够进行多次内部模拟推演。实验数据显示,在抽纸巾和捡笔入盒等未见过的任务中,加入测试时计算的模型成功率从43%提升至60%,其中复杂任务成功率提升幅度达66%。这种"慢思考"机制使机器人能够评估动作后果,而非仅依赖即时反应。
训练数据体系呈现金字塔式结构:底层为3000小时人类第一视角视频,提供真实交互场景但缺乏动作标签;中层6500小时UMI数据覆盖多样化操作但动作空间与真实机器人存在差异;顶层1.78万小时真机遥操作数据确保动作精度与部署环境完全匹配。研究团队开发的模态特定监督掩码技术,成功将三类异构数据统一训练,使模型既能学习通用视觉规律,又能掌握精确操作技能。
在动作质量评估方面,该模型突破传统方法局限。常规的分类器引导和动作连贯性评估仅关注动作本身合理性,而τ0-WM通过重建一致性评分和低质量动作修正机制,重点评估动作对任务推进的实际效果。这种评估标准使模型在未见任务中表现出更强的适应性,成功率显著优于同类方法。
研究团队历时一年多构建的数据飞轮体系发挥关键作用。从规模化真机采集基础设施的搭建,到将强化学习引入后训练阶段形成闭环,最终实现真机数据从"后期耗材"到"预训练燃料"的转变。这种数据采集、模型训练、部署回流的完整链路,为具身智能的工业化应用提供了可复制的解决方案。相关代码、模型和项目文档已通过开源平台向学术界和产业界开放。






