李飞飞团队ESI-Bench：打破AI“视力测试”局限，解锁具身智能新维度

时间：2026-05-25 17:10 作者：格隆汇

李飞飞团队最新推出的ESI-Bench（具身空间智能基准测试）正在引发人工智能领域的新一轮讨论。这项被业界称为具身智能版"ImageNet"的评测体系，通过重构AI空间认知能力的评估方式，揭示了当前多模态大模型在物理世界交互中的深层缺陷。

传统AI空间能力评估长期停留在"视觉解谜"层面。研究人员指出，过往测试多采用"静态图片推理"模式——给定几张最佳视角的图像，要求模型完成物体识别或空间关系判断。这种评估方式本质上是在检验模型的视觉识别能力，而非真正的空间认知水平。ESI-Bench的创新之处在于强制构建"感知-行动闭环"，要求模型必须通过自主探索获取信息，而非被动接受预设视角。

该基准测试的设计灵感源自认知心理学领域。研究团队基于Elizabeth Spelke教授提出的"人类婴儿核心知识理论"，构建了包含物体表征、空间几何、数量感知和目标导向行动四大维度的评估框架。测试环境依托OmniGibson仿真平台搭建，整合了BEHAVIOR-1K场景库的3081个任务实例，覆盖10个主要类别和29个子类别，形成目前规模最大的具身智能评测数据集。

在对GPT-5、Gemini系列等前沿模型的测试中，研究团队发现了三个关键认知断层。当模型被剥夺"上帝视角"特权后，其空间推理准确率从95.1%骤降至14.6%。这种"动作盲视"现象表明，当前模型普遍缺乏有效的导航策略，错误的移动决策会导致观测视角持续恶化，形成恶性循环。更令人意外的是，使用VGGT模型重建的3D场景反而产生误导——几何伪影和深度偏差构成的"有毒数据"，使模型表现甚至不如直接处理2D图像。

测试中最具哲学意味的发现，是AI与人类在元认知层面的根本差异。人类在面对不确定信息时，会主动寻求证伪视角并降低判断置信度；而AI模型往往在信息严重不足时仍坚持给出高确定性答案。这种"虚假自信"现象暴露出模型缺乏自我怀疑机制，无法评估当前信息是否足以支撑可靠结论。研究团队将其定义为"元认知缺陷"，认为这是阻碍AI理解物理世界的关键瓶颈。

ESI-Bench的出现标志着具身智能评估范式的根本转变。这项研究明确指出，单纯提升视觉编码器性能或增加计算资源，无法解决空间智能的核心问题。未来的突破方向应聚焦于三个维度：构建自主探索的序列决策能力，增强模型在非完美观测条件下的鲁棒性，以及开发具备自我反思能力的元认知系统。当AI能够像人类婴儿那样，通过主动试错逐步构建对物理世界的理解时，真正的空间智能才可能实现。

更多>同类内容

瑞银上调信诺目标价至400美元

05-25

江瀚新材(603281.SH)：目前6N级四氯化硅生产线处于在建阶段，最快明年可向光纤预制棒厂家供货

05-25

宣泰医药(688247.SH)：产品盐酸安非他酮缓释片获得哥伦比亚INVIMA批准文号

05-25

天奈科技(688116.SH)：目前部分头部钠电池企业已在其相关产品方案中采用公司单壁相关产品

05-25

研报掘金丨浙商证券：维持禾望电气“买入”评级，数据中心电源前景广阔

05-25

中汽股份(301215.SZ)：目前智能驾驶产业整体发展态势向好

05-25

泰永长征(002927.SZ)：公司固态断路器具备量产能力

05-25

宝丽迪(300905.SZ)：今年以来，耀科新材料才开始着手COFs材料在固态电解质领域的应用研究探索

05-25

四会富仕(300852.SZ)：1.6T光模块用PCB已有小批量订单

05-25

天海电子(001365.SZ)：已开展光连接器相关领域的技术研发与市场前期拓展工作

05-25

奥克股份(300082.SZ)：公司暂无直接芯片晶圆切割客户

05-25

奥克股份(300082.SZ)：公司开发的光固化单体原材料尚需经过试验验证

05-25

研报掘金丨国海证券：首予兴森科技“买入”评级，持续看好封装基板业务

05-25

东信和平(002017.SZ)：暂无电子社保卡相关业务

05-25

天海电子(001365.SZ)：业务暂未涉及航空航天领域

05-25

点击查看更多 +

全站最新

具脑磐石获亿元级融资，以类脑智能驱动具身智能认知世界模型落地

2026上海超级个体经济大会：灵感绿洲启新程，动力引擎助梦飞

曾估值2亿美元的拉勾网主动申请破产，辉煌不再，大股东确认属实

40岁园林人徐林：拥抱AI不是转行，是为行业探索未来新可能

蓝思科技：从亏损到转型求变，“玻璃女王”周群飞如何布局新赛道？

深圳文博会上海南馆大放异彩古韵新潮交融琼味文化盛宴引众人驻足

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号