科技·商业·财经

马里兰大学等团队:小数据量训练出高效机器人操控系统Guava

   时间:2026-06-23 02:02 作者:互联网

在机器人技术领域,如何让机械臂像人类一样灵活应对复杂任务,一直是科研人员努力突破的难题。近期,一项由多所知名高校联合开展的研究取得了重要进展,他们开发出一种名为Guava的机器人操控框架,为提升机器人自主操作能力提供了新思路。

传统上,让机器人执行任务主要有两种思路。一种是将海量机器人操作示范数据喂给视觉语言模型,将其改造成“视觉-语言-动作模型”,直接输出动作指令。像π0、OpenVLA等系统就采用了这种方法,但这种方式存在明显弊端。收集和标注大量真实机器人操作录像成本极高,而且换个机器人型号或场景,数据可能就不适用了,难以应对现实中的复杂多变情况。当机器人按预设脚本执行任务时,一旦中途出现抓取失手、物体被碰歪等问题,系统往往无法察觉,会继续按原计划行事,最终导致任务失败。

另一种思路是“Harness(框架/驾驭)工程”,即给AI配备“工具箱”,让AI负责高层次思考和决策,选择合适的工具完成任务,如“抓取某物体”“移动到某位置”等,工具负责执行具体动作。然而,这种思路也面临诸多问题,比如“工具箱设计”的合理性难以把握,工具太底层,AI需耗费大量精力算细节;工具太粗糙,又难以应对复杂情况。而且,交互流程是一次性计划好还是边做边思考,此前也没有系统性答案。

为了解决这些问题,研究团队在Robosuite机器人仿真环境中设计了六种复杂操作序列任务,经过系统测试,提炼出三种对机器人操控效果影响显著的关键要素。首先是“边做边想”的迭代循环,区别于传统的一次性规划到底。这类似于下棋,传统方式是开局就想好所有步骤,不管对手怎么走都照着走;而迭代循环则是每走一步观察对手落子,再决定下一步。研究显示,采用迭代循环方式的系统,面对执行失误和环境变化时,鲁棒性远超一次性生成计划的系统。

其次是“有语义含义的操作工具”。例如,若工具是“grasp(物体名称)”,AI只需告诉系统抓取某个物体,底层感知、定位、抓取姿态计算由专门模块完成;若工具是“move(x, y, z, roll, pitch, yaw, width)”,AI就得自己计算手爪的三维坐标、角度和张开程度。对比发现,提供有语义含义高层工具的系统,整体任务成功率显著高于使用低层几何工具的系统,这验证了让专业模块做专业事的有效性。

最后是“多模态的感知输入”,即同时给AI提供图片和文字描述。图片能呈现物体的空间位置、形状和状态,文字可提供精确数值信息,如机械臂坐标、夹爪开合程度,两者结合能减少AI误判。实验表明,仅提供图片或文字的系统,表现都不如同时提供两者的系统。

Guava框架将这三种要素组合在一起,其核心设计思想是:每一步操作后,系统更新场景的图像和文字描述,AI据此推理,调用有语义意义的工具执行下一步动作,再观察结果、推理,如此循环,直至任务完成或确认无法完成。

为了让读者更直观了解,研究团队介绍了Guava给AI配备的“工具箱”。整套工具箱有九种工具,核心工具grasp可让机器人抓取指定物体,系统先用SAM3视觉分割模型切出目标物体,估计抓取姿态后抓取,返回“抓取成功”或“夹爪闭合未抓到”结果。与grasp配套的align工具,可将机械臂夹爪移到物体周围特定位置,AI可指定方向和距离,具体坐标转换由底层模块完成。get_position和get_position_size工具用于查询物体位置和尺寸,对AI推理空间关系很有帮助。move工具允许AI以数值方式指定夹爪移动坐标,rotate工具可旋转夹爪,close_gripper和release分别用于闭合和张开夹爪,home_pose工具让机器人回到安全初始姿态。这套工具箱设计有层次感,既减轻了AI认知负担,又保留了精细操作微调能力。

设计好框架后,研究团队面临新问题:直接用GPT-5.4等顶级商业大模型运行Guava,虽效果好但代价高,每一步都需调用API,延迟和成本难以接受,不利于大规模部署。于是,团队考虑将大模型能力“压缩”进小模型。

团队先收集数据,将GPT-5.4部署在Robosuite仿真环境,执行各种操作任务,记录每一步的场景图片、推理过程、调用工具和执行结果,作为训练小模型的“教材”。为增加数据多样性,随机改变物体位置、光照条件和摄像机角度,还生成“恢复轨迹”,主动引入错误让GPT-5.4自救。收集完数据后,经过严格清洗,保留成功完成任务轨迹,过滤异常轨迹,人工检查低质量样本,对重复轨迹去重。最终整理出1934条轨迹、对应237个不同任务描述的数据集,其中62%是正常成功执行轨迹,38%是包含错误和恢复过程轨迹,规模在机器人学习领域较小,但效果良好。

拿到数据后,团队以Qwen3.5-4B开源视觉语言模型为基础,进行两阶段训练,产出Guava-Agent-4B模型。第一阶段是“监督微调(SFT)”,将1934条轨迹喂给模型,让它学习推理和调用工具,掌握操作任务基本套路,包括正常流程和出错恢复流程。第二阶段是“强化学习后训练(GRPO)”,针对“贝壳游戏”“把所有红色物体放进篮子”等难的长序列任务进行。强化学习激励机制简单,任务成功得奖励,失败无奖励,系统让模型生成4条不同执行方案,根据成功方案更新参数,强化成功策略。

研究团队对Guava-Agent-4B进行了全面评测,分为仿真环境和真实世界两类,并与三个对照系统比较。第一个对照是基础版Qwen3.5-4B,用于衡量框架提升效果;第二个对照是GPT-5.4,代表当前技术天花板;第三个对照是CaP-Agent0,其特点是让AI一次性写出完整操作程序后执行,无迭代循环能力。

在仿真环境里,研究团队设计了15个不同任务,分成四类。结果令人惊喜,Guava-Agent-4B总体成功率达75.6%,超过GPT-5.4的70.2%和CaP-Agent0的62.7%。基础版Qwen3.5-4B成功率仅23.1%,说明框架有用,但专项训练必不可少。具体任务中,Guava-Agent-4B在多个任务上表现出色,在“贝壳游戏”和“把所有红色物体放进篮子”任务上,加入GRPO强化训练后成功率大幅提升。

在真实世界实验中,Guava-Agent-4B部署在法兰卡机械臂上,配合英特尔RealSense D435 RGB-D摄像头,未进行额外真实世界训练直接测试。结果同样令人满意,在分布内和分布外任务上都有较高成功率,在多个任务上实现100%成功率,在“推篮子”任务上表现优于GPT-5.4。

Guava能实现从仿真到真实世界的直接迁移,关键在于它将视觉感知和底层控制外包给专门模块,AI只负责语义层面推理,而语义理解在仿真和真实世界无本质区别,避免了传统方法因仿真和真实世界视觉差异导致的问题。

实验过程中,研究团队还观察到一些意外行为。系统能自主应对训练数据中未出现的错误类型,如机械臂因运动超出关节极限或目标位置不可达触发错误中断时,系统能识别并采取合理应对策略。系统还具备任务进度内部跟踪能力,机械臂抓住物体执行被中断后重新启动,系统能判断物体已在手里,直接进行下一步放置操作。

不过,研究团队也指出Guava目前存在局限。当前工具箱设计不支持“灵巧操作”,如拧螺丝、穿针等需要手指精细协调的任务。系统无法直接纠正工具层面错误,只能通过多次重试或换动作策略间接应对。系统仅使用固定位置摄像头,物体被遮挡或视角不合适时会有困难。在需要精确空间推理的任务上,所有测试AI模型成功率都偏低,原因是现有视觉语言模型对空间概念理解不够扎实。

将Guava与同期相关系统比较,CaP-Agent0与Guava思路接近,但核心模式是一次性写出完整操作程序后执行,无迭代观察和调整机制,总体测试中与Guava-Agent-4B差距明显。Maestro依赖将商业模型与专门工具结合,但未系统性研究框架设计原则,也未尝试将能力蒸馏进小模型。与需要大量真实机器人数据训练的端到端VLA系统相比,Guava数据需求少,且全部在仿真环境生成,无需真实机器人示范,部署成本和数据收集难度大幅降低。从推理效率看,Guava-Agent-4B每个任务平均消耗的token数比GPT-5.4少约27%,更经济。

这项研究表明,精心设计的“工作框架”能让小模型通过少量针对性训练,达到甚至超过大模型水平。这为机器人领域发展提供了新方向,若该思路被广泛采纳,未来家用、工厂辅助、医疗护理等机器人领域的开发周期和成本有望大幅缩短。同时,研究也留下一些挑战,如如何让系统处理精细操作、真正理解三维空间关系、在更大规模和多样化任务上验证框架普适性等。

 
 
更多>同类内容
全站最新
热门内容