科技·商业·财经

​谷歌Gemini Robotics 1.5系列登场:赋予机器人思考力,实现跨形态技能迁移​

   时间:2025-09-26 15:59 作者:冯璃月

谷歌旗下DeepMind团队近日推出针对机器人与具身智能领域的Gemini Robotics 1.5系列模型,通过赋予机器人跨形态学习能力与深度推理机制,推动其向具备自主决策能力的智能体迈进。该系列包含Gemini Robotics 1.5与Gemini Robotics-ER 1.5两个核心模型,分别聚焦动作执行与环境推理,形成协同工作的智能框架。

作为视觉-语言-动作模型,Gemini Robotics 1.5可将视觉感知与语言指令转化为精准的机械运动。其升级后的版本新增"思考后行动"能力,能在执行前通过自然语言生成内部推理序列。例如在垃圾分类任务中,机器人通过查阅规则并观察物品特征,将物品准确分配至堆肥、回收或垃圾容器;在行李打包场景中,机器人不仅完成指令要求,还主动查询目的地天气并添加雨伞,展现多步骤任务规划能力。

另一核心模型Gemini Robotics-ER 1.5则专注于物理世界推理,具备顶尖的空间理解与逻辑决策能力。该模型支持自然语言交互,可调用谷歌搜索等数字工具获取实时信息,并能评估任务进度与成功率。在协同工作中,ER 1.5负责生成分步自然语言指令,由Gemini Robotics 1.5执行具体动作,同时后者还能通过语言反馈反思行为,提升复杂语义任务的处理能力。

跨具身学习能力是该系列的突破性创新。传统机器人模型需针对不同形态单独调整,而Gemini Robotics 1.5可将单个机器人习得的技能迁移至其他形态设备。实验显示,从未接触过衣柜场景的Apollo机器人,通过迁移学习成功完成开门、取衣等动作,证明模型对不同感知能力与自由度设备的泛化适配性。这种能力将加速物流、零售等领域机器人的研发进程,实现跨场景知识共享。

在技术实现层面,两个模型均基于Gemini核心架构,通过针对性数据集微调优化各自功能。学术测试表明,Gemini Robotics-ER 1.5在物体检测、轨迹预测等基准中达到领先水平。其支持的任务类型涵盖状态估计、分割掩码生成、指向识别等复杂操作,并能实时评估任务完成度。

实际应用场景中,该系列模型已展现出处理链式任务的能力。在水果分类实验中,机器人通过颜色感知与环境分析完成精准分拣;在洗衣分类任务中,机器人可动态调整机械臂角度以优化抓取效率,并对突发状况作出即时反应。这些案例证明,机器人正从单一指令执行者转变为具备环境理解与自主决策的智能体。

 
 
更多>同类内容
全站最新
热门内容