科技·商业·财经

揭秘具身智能进化:元客视界CTO详谈数据飞轮与智能大模型突破

   时间:2025-08-28 11:04 作者:钟景轩

人形机器人与具身智能的发展正处于从实验室迈向量产的关键阶段,但这一领域的进步面临多重挑战。尽管已能完成抓取、走跑跳等基本动作,人形机器人仍被视为拥有“初级大脑”,在复杂长程任务上的能力相对薄弱,交互表现生硬且不自然。硬件的长期稳定性与一致性不足、软件的泛化能力弱以及数据的匮乏与无标准化,构成了人形机器人与具身智能真正落地的三大困境。

为了推动从0到1的智能进化,搭建感知、推理、执行的完整链路至关重要,而这一过程离不开大量数据的支持。数据如同燃料,驱动着大模型支撑的多模态理解与泛化能力,使其能够适应复杂任务与动态环境。在具身智能大模型领域,模型的性能遵循Scaling Law,即当模型的参数或计算量按比例扩大时,性能也会相应提升。然而,要实现这一提升,必须跨越某个参数规模的阈值,大模型才会“涌现”出上下文学习、复杂推理等能力。因此,无论是真实环境交互产生的操作数据,还是通过远程操纵或人类示范获取的学习数据,都是不可或缺的。

为了克服数据采集的难题,北京和上海等地的创新中心以及智元等头部企业正在加速搭建“仿真-真机融合”的数据训练场。这些训练场通过并行机器人、远程操控、仿真回放等机制,高效采集覆盖不同场景、任务和交互模式的大规模数据,旨在打通数据采集、处理、训练、仿真、部署的全栈式解决方案。这一举措旨在构建高标准、可扩展的训练场,以开启数据飞轮与产品迭代的良性循环。

在数据采集方面,动捕技术扮演着重要角色。动捕技术主要分为光学捕捉和惯性捕捉两大流派。光学动捕以其高精度,可达0.1毫米级,能够实时捕捉人或物体的运动轨迹,尤其适用于手指灵巧作业等高精度要求场景。而惯性动补则以其数据连续性好、不怕遮挡的特点,在应急救援等领域受到青睐。元客视界的FZMotion运动捕捉系统采用了光学与惯性融合的技术路线,既保证了高精度数据的获取,又解决了被遮挡的困扰,显著提升了数据采集的连续性。

元客视界CTO陈溥指出,人形机器人与具身智能目前仍处于“幼儿园孩子阶段”,对于复杂交互性强的工作仍处于探索期。他强调了三大核心问题:硬件的稳定性、智能与数据的匮乏、以及执行任务的效率低下。为了解决这些问题,元客视界采取了降低真机采集数据的成本、扩大真机数据采集的效率的策略,并与仿真平台公司合作,完善物理仿真引擎,以弥补仿真环境训练数据迁移的泛化性不足。

在数据应用方面,行业目前主要按照“仿真+真机”比例混合训练模型。纯真实数据训练虽然更贴近实际,但采集效率低、成本高,且模型难以从失败中学习。而单靠互联网与仿真数据,虽然建设通用性的场景感知和指令理解能力速度快,却存在明显的Sim2Real Gap。因此,真实数据用于纠偏与对齐,仿真数据用于规模扩展和多样性覆盖,二者融合训练成为行业公认的发展方向。

元客视界还尝试开发了一套人体Human to Robot的映射重定向算法,能够将人体关节的物理量及空间坐标等参数转化为机器人运动控制的目标位置、速度、力矩等,从而让机器人在自由度限制内更丝滑地完成动作。这一算法打破了单模态的局限,提高了数据采集的效率。

在数据采集到应用的量化评估体系方面,元客视界正在与头部企业合作,基于实际应用定义标准,并尝试与国内标准机构对接,推动国标行标的制定。这一评估体系旨在综合评估机器人产品的技术性能、安全性、可靠性、经济性及场景适配性等多项指标。

对于能耗这一机器人商业化的关键瓶颈,元客视界也提出了通过运动学与动力学分析,优化关节运动轨迹和精准计算功耗的解决方案,以期长远降低机器人功耗。

在谈到机器人数据训练场所需的数据规模时,陈溥表示,具体需看场景任务复杂度。对于环境变化较大的场景,可能需要百万条以上的数据。而对于工业场景,如工厂中的分拣、码垛等环节,可能需要千万条级别的数据规模。

最后,陈溥还分享了元客视界在具身智能数据采集领域的核心优势,包括数据采集端的高精度与连续性、重定向算法方面的深厚经验,以及向产业链后端延伸,构建完整的“Real-to-Sim-to-Real”数据应用闭环的能力。

 
 
更多>同类内容
全站最新
热门内容