科技·商业·财经

具身智能浪潮下:数据采集成新赛道,“卖铲人”抢先掘金获利

   时间:2026-06-16 20:13 作者:快讯

在具身智能产业蓬勃发展的当下,数据采集正成为一条备受瞩目的赛道,众多企业纷纷入局,在资本与市场的双重推动下,展现出强大的发展潜力与商业价值。

具身智能大模型的训练对数据有着极高要求,需要海量、多模态、高保真的物理交互数据。然而,截至目前,全球高质量真实物理交互数据总量仅约50万小时,而训练通用具身模型至少需要千万小时级数据,缺口超过99%。这种供需失衡使得数据成为稀缺资源,数据采集也因此成为具身智能产业细分赛道的新型“铲子”,印证了“数据先行、铲子先富”的逻辑。

数据采集赛道的竞争格局已初步形成,大致可分为四大流派。以智元等头部机器人公司为代表的“真机数据”派,通过“本体 + 数据”闭环运作,数据业务成为内部能力的自然外溢。智元合伙人、高级副总裁、具身业务部总裁姚卯青牵头建成行业规模最大的数采超级工厂,部署近百台远征A2 - D专机,实现单机单日千条数据的极速采集。2026年4月,智元联合多方开源全球首个基于全域真实场景的百万真机数据集AgiBot World,在“真机数据”领域占据领先地位。

定位为数据基础设施服务商的初创公司则聚焦仿真数据/合成数据。如光轮智能,成立于2023年1月,致力于为企业落地AI提供合成数据解决方案。2026年3月,该公司完成10亿元A++及A+++轮融资,成为全球首个具身数据领域的独角兽企业;5月又获蚂蚁集团领投的新一轮融资,投后估值超20亿美元。光轮智能将人类数据与仿真打造成闭环基础设施,人类视频数据产品覆盖2.5万 + 环境节点、10万 + 任务种类,累计交付超150万小时高质量人类数据。无问智科成立于2022年11月,2023年5月正式启动运营,基于长三角(德清)具身智能数据采集训练场,日产数据上千小时,形成万级规模化合成数据与千万次仿真验证能力,2026年Q1在手订单数亿元,本年度营收将突破超亿元。

跨界平台型巨头如京东、中国移动等依靠产业场景优势入局,采用混合采集模式。京东宣布建设具身智能数据采集中心,覆盖物流仓储、工业制造等五大核心场景,发动数十万人参与采集,计划一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,并同步采集100万小时机器人本体数据。中国移动围绕家庭生活场景推出“灵犀数霄”具身智能训练场,构建融合真机遥操作与无本体轻量化采集的混合数据采集体系,辅以仿真合成数据。

还有专注于提供标准化、模块化采集硬件的“UMI型公司”,如鹿明机器人、松灵机器人等。鹿明机器人以“UMI协议”数据为主,于2026年3月推出行业首个“FastUMI Pro数据超市”。

随着具身智能产业热度攀升,新创公司在数据采集领域成绩斐然。弈人科技利用自动驾驶积累的车辆感知网络,转型采集具身智能数据,2025年实现AI数据业务收入过亿元,2026年一季度获得具身智能数据新增订单超亿元。相比之下,成立于2016年的宇树科技,2022年实现营业收入约1.23亿元,2024年才实现净利润约9547.47万元。而光轮智能、无问智科等新创公司成立仅3年,便在2026年实现过亿营收,成为“卖数据的先赚钱”的典型例证。

在数据定价方面,具身智能数据总体定价区间在200 - 500元/小时。其中,真机数据因最适合训练落地模型,需求旺盛、价格最贵,国内市场价格在500 - 1000元/小时。姚卯青透露,随着产能稳定,无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。

面对大模型对数据需求维度的几何级膨胀,单一技术路线难以满足“规模、成本、精度、泛化”的苛刻要求,行业全面迈向多源融合采集时代。以人类视频注入通用物理常识,以仿真合成数据海量覆盖长尾边界,以UMI采集分布式扩充真实交互动作,最后依托高精度遥操作进行垂直场景的专家级微调。在具身智能产业链上,数据采集正从“分散采集”走向“平台化供给”,成为被资本市场单独定价、被产业巨头系统性押注的重要赛道。

 
 
更多>同类内容
全站最新
热门内容