一支由上海交通大学参与的国际科研团队,近日正式发布了一款名为SWE-Explore的创新基准测试工具。该工具通过将代码搜索过程与实际修复阶段进行独立评估,首次以量化方式指出当前人工智能编码系统在“行级精度”方面存在显著不足。这一突破性发现改变了以往仅依赖“最终修复成功率”的单一评价体系,为衡量智能体在代码搜索阶段的质量提供了全新维度,推动人工智能软件工程评估进入更精细化的阶段。
传统基准测试如SWE-bench主要关注端到端修复结果,这种评估方式容易掩盖智能体在代码阅读理解环节的真实问题。研究团队基于GPT-5.4、Gemini3Pro、Claude Sonnet4.6及Kimi K2.6等主流大模型的运行轨迹,通过分析多条独立修复路径的交汇点,提取出共识性代码段作为评估标准。最终构建的数据集涵盖10种编程语言,包含203个开源项目的848个缺陷修复任务,为系统评估提供了丰富样本。
测试数据显示,虽然Claude Code、OpenHands等通用编码系统在文件级定位任务中表现优异,但当聚焦到具体代码行时,其核心区域覆盖率仅维持在14%至19%之间。进一步实验验证了“最小上下文阈值”现象:当关键代码区域的可见比例低于50%时,模型修复几乎无法成功;而当可见比例提升至50%至75%区间时,修复成功率会出现显著跃升。这表明上下文信息的完整度对模型性能具有决定性影响。
研究指出,当前人工智能编码系统的瓶颈主要不在于补丁生成能力,而在于对关键上下文的精准识别与提取。在软件工程领域,项目经理对自动化方案采纳率不足50%的现实背景下,SWE-Explore提出的“强化代码阅读、减少无效过滤”技术路径,为CoSIL等新一代专用代码定位系统的开发提供了重要参考。这种技术导向将推动自动化软件工程从依赖大规模生成的模式,转向更注重精准信息检索的发展方向。






