滚动资讯

当前位置：网界 > 行业动态 > 正文内容

马里兰大学等团队：小数据量训练出高效机器人操控系统Guava

时间：2026-06-23 02:02 作者：互联网

在机器人技术领域，如何让机械臂像人类一样灵活应对复杂任务，一直是科研人员努力突破的难题。近期，一项由多所知名高校联合开展的研究取得了重要进展，他们开发出一种名为Guava的机器人操控框架，为提升机器人自主操作能力提供了新思路。

传统上，让机器人执行任务主要有两种思路。一种是将海量机器人操作示范数据喂给视觉语言模型，将其改造成“视觉-语言-动作模型”，直接输出动作指令。像π0、OpenVLA等系统就采用了这种方法，但这种方式存在明显弊端。收集和标注大量真实机器人操作录像成本极高，而且换个机器人型号或场景，数据可能就不适用了，难以应对现实中的复杂多变情况。当机器人按预设脚本执行任务时，一旦中途出现抓取失手、物体被碰歪等问题，系统往往无法察觉，会继续按原计划行事，最终导致任务失败。

另一种思路是“Harness（框架/驾驭）工程”，即给AI配备“工具箱”，让AI负责高层次思考和决策，选择合适的工具完成任务，如“抓取某物体”“移动到某位置”等，工具负责执行具体动作。然而，这种思路也面临诸多问题，比如“工具箱设计”的合理性难以把握，工具太底层，AI需耗费大量精力算细节；工具太粗糙，又难以应对复杂情况。而且，交互流程是一次性计划好还是边做边思考，此前也没有系统性答案。

为了解决这些问题，研究团队在Robosuite机器人仿真环境中设计了六种复杂操作序列任务，经过系统测试，提炼出三种对机器人操控效果影响显著的关键要素。首先是“边做边想”的迭代循环，区别于传统的一次性规划到底。这类似于下棋，传统方式是开局就想好所有步骤，不管对手怎么走都照着走；而迭代循环则是每走一步观察对手落子，再决定下一步。研究显示，采用迭代循环方式的系统，面对执行失误和环境变化时，鲁棒性远超一次性生成计划的系统。

其次是“有语义含义的操作工具”。例如，若工具是“grasp（物体名称）”，AI只需告诉系统抓取某个物体，底层感知、定位、抓取姿态计算由专门模块完成；若工具是“move（x, y, z, roll, pitch, yaw, width）”，AI就得自己计算手爪的三维坐标、角度和张开程度。对比发现，提供有语义含义高层工具的系统，整体任务成功率显著高于使用低层几何工具的系统，这验证了让专业模块做专业事的有效性。

最后是“多模态的感知输入”，即同时给AI提供图片和文字描述。图片能呈现物体的空间位置、形状和状态，文字可提供精确数值信息，如机械臂坐标、夹爪开合程度，两者结合能减少AI误判。实验表明，仅提供图片或文字的系统，表现都不如同时提供两者的系统。

Guava框架将这三种要素组合在一起，其核心设计思想是：每一步操作后，系统更新场景的图像和文字描述，AI据此推理，调用有语义意义的工具执行下一步动作，再观察结果、推理，如此循环，直至任务完成或确认无法完成。

为了让读者更直观了解，研究团队介绍了Guava给AI配备的“工具箱”。整套工具箱有九种工具，核心工具grasp可让机器人抓取指定物体，系统先用SAM3视觉分割模型切出目标物体，估计抓取姿态后抓取，返回“抓取成功”或“夹爪闭合未抓到”结果。与grasp配套的align工具，可将机械臂夹爪移到物体周围特定位置，AI可指定方向和距离，具体坐标转换由底层模块完成。get_position和get_position_size工具用于查询物体位置和尺寸，对AI推理空间关系很有帮助。move工具允许AI以数值方式指定夹爪移动坐标，rotate工具可旋转夹爪，close_gripper和release分别用于闭合和张开夹爪，home_pose工具让机器人回到安全初始姿态。这套工具箱设计有层次感，既减轻了AI认知负担，又保留了精细操作微调能力。

设计好框架后，研究团队面临新问题：直接用GPT-5.4等顶级商业大模型运行Guava，虽效果好但代价高，每一步都需调用API，延迟和成本难以接受，不利于大规模部署。于是，团队考虑将大模型能力“压缩”进小模型。

团队先收集数据，将GPT-5.4部署在Robosuite仿真环境，执行各种操作任务，记录每一步的场景图片、推理过程、调用工具和执行结果，作为训练小模型的“教材”。为增加数据多样性，随机改变物体位置、光照条件和摄像机角度，还生成“恢复轨迹”，主动引入错误让GPT-5.4自救。收集完数据后，经过严格清洗，保留成功完成任务轨迹，过滤异常轨迹，人工检查低质量样本，对重复轨迹去重。最终整理出1934条轨迹、对应237个不同任务描述的数据集，其中62%是正常成功执行轨迹，38%是包含错误和恢复过程轨迹，规模在机器人学习领域较小，但效果良好。

拿到数据后，团队以Qwen3.5-4B开源视觉语言模型为基础，进行两阶段训练，产出Guava-Agent-4B模型。第一阶段是“监督微调（SFT）”，将1934条轨迹喂给模型，让它学习推理和调用工具，掌握操作任务基本套路，包括正常流程和出错恢复流程。第二阶段是“强化学习后训练（GRPO）”，针对“贝壳游戏”“把所有红色物体放进篮子”等难的长序列任务进行。强化学习激励机制简单，任务成功得奖励，失败无奖励，系统让模型生成4条不同执行方案，根据成功方案更新参数，强化成功策略。

研究团队对Guava-Agent-4B进行了全面评测，分为仿真环境和真实世界两类，并与三个对照系统比较。第一个对照是基础版Qwen3.5-4B，用于衡量框架提升效果；第二个对照是GPT-5.4，代表当前技术天花板；第三个对照是CaP-Agent0，其特点是让AI一次性写出完整操作程序后执行，无迭代循环能力。

在仿真环境里，研究团队设计了15个不同任务，分成四类。结果令人惊喜，Guava-Agent-4B总体成功率达75.6%，超过GPT-5.4的70.2%和CaP-Agent0的62.7%。基础版Qwen3.5-4B成功率仅23.1%，说明框架有用，但专项训练必不可少。具体任务中，Guava-Agent-4B在多个任务上表现出色，在“贝壳游戏”和“把所有红色物体放进篮子”任务上，加入GRPO强化训练后成功率大幅提升。

在真实世界实验中，Guava-Agent-4B部署在法兰卡机械臂上，配合英特尔RealSense D435 RGB-D摄像头，未进行额外真实世界训练直接测试。结果同样令人满意，在分布内和分布外任务上都有较高成功率，在多个任务上实现100%成功率，在“推篮子”任务上表现优于GPT-5.4。

Guava能实现从仿真到真实世界的直接迁移，关键在于它将视觉感知和底层控制外包给专门模块，AI只负责语义层面推理，而语义理解在仿真和真实世界无本质区别，避免了传统方法因仿真和真实世界视觉差异导致的问题。

实验过程中，研究团队还观察到一些意外行为。系统能自主应对训练数据中未出现的错误类型，如机械臂因运动超出关节极限或目标位置不可达触发错误中断时，系统能识别并采取合理应对策略。系统还具备任务进度内部跟踪能力，机械臂抓住物体执行被中断后重新启动，系统能判断物体已在手里，直接进行下一步放置操作。

不过，研究团队也指出Guava目前存在局限。当前工具箱设计不支持“灵巧操作”，如拧螺丝、穿针等需要手指精细协调的任务。系统无法直接纠正工具层面错误，只能通过多次重试或换动作策略间接应对。系统仅使用固定位置摄像头，物体被遮挡或视角不合适时会有困难。在需要精确空间推理的任务上，所有测试AI模型成功率都偏低，原因是现有视觉语言模型对空间概念理解不够扎实。

将Guava与同期相关系统比较，CaP-Agent0与Guava思路接近，但核心模式是一次性写出完整操作程序后执行，无迭代观察和调整机制，总体测试中与Guava-Agent-4B差距明显。Maestro依赖将商业模型与专门工具结合，但未系统性研究框架设计原则，也未尝试将能力蒸馏进小模型。与需要大量真实机器人数据训练的端到端VLA系统相比，Guava数据需求少，且全部在仿真环境生成，无需真实机器人示范，部署成本和数据收集难度大幅降低。从推理效率看，Guava-Agent-4B每个任务平均消耗的token数比GPT-5.4少约27%，更经济。

这项研究表明，精心设计的“工作框架”能让小模型通过少量针对性训练，达到甚至超过大模型水平。这为机器人领域发展提供了新方向，若该思路被广泛采纳，未来家用、工厂辅助、医疗护理等机器人领域的开发周期和成本有望大幅缩短。同时，研究也留下一些挑战，如如何让系统处理精细操作、真正理解三维空间关系、在更大规模和多样化任务上验证框架普适性等。

更多>同类内容

沉寂半年后低调回归！顶流车评人陈震再引热议，车圈期待值拉满

06-23

鸡蛋涨价背后：养殖端、渠道端、加工端利润几何？行业周期波动如何应对？

06-23

远信工业等成立智链科技公司，含AI相关业务

06-23

中国中车等在苏州新设创投基金

06-23

紫光股份在厦门投资成立智能科技新公司

06-23

创业黑马等成立凌雄智算科技公司，含AI业务

06-23

乐聚机器人等新设具身壹号股权投资基金

06-23

红豆股份投资成立智能科技公司，含AI及机器人业务

06-23

杭州高新等成立新公司，含AI及集成电路业务

06-23

06-23

06-23

06-23

06-23

震有科技在成都新设子公司，含互联网安全服务业务

06-23

福然德投资成立汽车科技新公司

06-23

点击查看更多 +

全站最新

胖东来郑州成立新餐饮公司同步下调多款自营产品售价惠及消费者

盒马酒铺“店中店”新玩法：低门槛酒水消费，是增长点还是流量噱头？

马云领衔阿里高管下田插秧挽裤光脚体验农耕田间欢声笑语不断

马云领衔阿里高层下田插秧，蒋凡周靖人等现身共绘田园团建新图景

马云携阿里高管下田插秧，以农耕之道诠释AI战略坚定深耕决心

链博会“新面孔”Walker C1登场：具身智能人形机器人“入职”千行百业

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号