上海交大领衔团队发布SWE-Explore，AI编码智能体行级定位短板获量化评估

时间：2026-06-15 16:03 作者：天脉网

一支由上海交通大学参与的国际科研团队，近日正式发布了一款名为SWE-Explore的创新基准测试工具。该工具通过将代码搜索过程与实际修复阶段进行独立评估，首次以量化方式指出当前人工智能编码系统在“行级精度”方面存在显著不足。这一突破性发现改变了以往仅依赖“最终修复成功率”的单一评价体系，为衡量智能体在代码搜索阶段的质量提供了全新维度，推动人工智能软件工程评估进入更精细化的阶段。

传统基准测试如SWE-bench主要关注端到端修复结果，这种评估方式容易掩盖智能体在代码阅读理解环节的真实问题。研究团队基于GPT-5.4、Gemini3Pro、Claude Sonnet4.6及Kimi K2.6等主流大模型的运行轨迹，通过分析多条独立修复路径的交汇点，提取出共识性代码段作为评估标准。最终构建的数据集涵盖10种编程语言，包含203个开源项目的848个缺陷修复任务，为系统评估提供了丰富样本。

测试数据显示，虽然Claude Code、OpenHands等通用编码系统在文件级定位任务中表现优异，但当聚焦到具体代码行时，其核心区域覆盖率仅维持在14%至19%之间。进一步实验验证了“最小上下文阈值”现象：当关键代码区域的可见比例低于50%时，模型修复几乎无法成功；而当可见比例提升至50%至75%区间时，修复成功率会出现显著跃升。这表明上下文信息的完整度对模型性能具有决定性影响。

研究指出，当前人工智能编码系统的瓶颈主要不在于补丁生成能力，而在于对关键上下文的精准识别与提取。在软件工程领域，项目经理对自动化方案采纳率不足50%的现实背景下，SWE-Explore提出的“强化代码阅读、减少无效过滤”技术路径，为CoSIL等新一代专用代码定位系统的开发提供了重要参考。这种技术导向将推动自动化软件工程从依赖大规模生成的模式，转向更注重精准信息检索的发展方向。

06-15

智谱GLM-5.2全量开源，国产AI以开放姿态引领全民创新潮

06-15

国产算力新突破：星火X2-VL基于全国产算力训练，交出亮眼成绩单

06-15

苹果或推系统级AI代理系统：打破订阅限制，安全隐私成落地关键

06-15

斑马智能蔡明：中国智舱领先海外，智能化出海正迎关键机遇期

06-15

455辆大单签约！上汽大通刷新马来西亚车市纪录皮卡新品再拓海外版图

06-15

吉利战略新篇：极氪领克管理层交接，李书福布局代际传承有序推进

06-15

吉利银河TT续航信息曝光：三款电池组加持最高续航突破725公里

06-15

从单车到智能终端：哈啰升级如何打开物理AI城市落地新可能？

06-15

享界G9强势入局9系旗舰SUV赛道，北汽蓝谷业绩增量与估值提升可期

06-15

赛道基因融入日常，蔚来2026款冠军纪念版三车上市，看点十足！

06-15

全新一代问界M9全国首交，以五高标准与服务书写豪华汽车新篇章

06-15

新款smart精灵1号亮相工信部目录：535km续航+800V平台 8月将上市

06-15

雷军武汉街头品味热干面：重温求学时光，直言味道如初几十年未改

06-15

雷军小米YU7装600斤车厘子引争议，回应称在封闭道路分装，交警谈公共道路规定

06-15

点击查看更多 +

全站最新

从超跑到家用车：新能源汽车如何以多元姿态，开启出行与生活的崭新篇章

HDC 2026早餐会：AI赋能鸿蒙生态，共探智能体与开发新范式增长路

溜溜梅港交所主板上市首日表现亮眼，涨幅超170%市值近94亿港元

鸡蛋价格连续五周上扬，上海商超自有品牌鸡蛋成消费新宠

全新起亚K4闪亮登场，车身尺寸比肩大众速腾，设计尽显时尚前卫范儿

罗志渊官宣：6月20日金渊荟预热启航，专属私享会邀精英共赴文化盛宴

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号