滚动资讯

当前位置：网界 > 行业动态 > 正文内容

AI思路混乱有救了？约翰斯·霍普金斯大学给出“自我整理”新解法

时间：2026-06-26 05:02 作者：ITBEAR

约翰斯·霍普金斯大学与苹果公司联合开展的一项研究，为解决当前AI助手处理复杂任务时面临的“上下文腐烂”问题提供了新思路。这一现象指AI在持续工作中积累大量无效信息，导致推理能力下降，最终给出错误答案。研究团队提出的SELFCOMPACT方案，通过让AI自主判断何时整理工作记录，显著提升了任务处理效率与准确性，相关论文已以预印本形式发布，编号为arXiv:2606.23525。

AI助手的工作机制类似于记录思考过程的笔记本：每完成一步推理或查询，内容便不断累积。然而，这本“笔记本”不会自动清理错误假设、无效路径或冗余信息。随着任务复杂度增加，记录可能突破百万词，不仅占用大量计算资源，还会干扰后续推理。例如，AI可能在验证三个关键事实后被迫中断总结，导致已确认的信息丢失，最终得出错误结论。这种“越努力越混乱”的现象，正是当前AI助手的核心痛点。

传统解决方案采用定时清理策略，即当记录达到一定词数时强制总结。但研究团队指出，这种“一刀切”的方法存在根本缺陷：它可能打断关键推理步骤，导致已验证的信息丢失。实验数据显示，定时清理虽使部分错误答案转为正确，但同时导致近40%的正确答案被误改。这种不可控的“双刃剑”效应，限制了其在复杂任务中的应用。

SELFCOMPACT方案的核心在于赋予AI自主决策权。该方案包含两部分：一是可调用的总结工具，用于压缩记录；二是“整理守则”，明确触发条件。以搜索任务为例，守则要求AI同时满足四个条件：完成阶段性推理、关键信息可压缩为三到五个事实、有实质性进展、未陷入重复搜索。数学任务则关注是否得出明确答案、是否停滞及是否明确下一步方向。AI需根据守则逐条验证，仅当全部满足时才触发整理。

实验覆盖竞赛数学与深度搜索两大领域，测试了七个不同规模的AI模型。结果显示，在数学任务中，SELFCOMPACT使较大模型（如Qwen3.5-9B）的准确率提升10至18个百分点；在搜索任务中，模型成本降低33%至67%，同时准确率显著提高。尤为突出的是，该方案在处理高难度任务时优势明显：在最难的题目档次中，准确率较定时清理高出5至20个百分点。这表明，任务越复杂，精准清理无效信息的价值越大。

研究团队通过对比实验证实了“整理守则”的关键作用。当移除守则后，AI或因频繁触发整理打断推理，或因长期不整理积累冗余信息，导致准确率下降甚至低于定时清理方案。进一步分析发现，SELFCOMPACT触发的整理时机普遍早于定时策略，通常在记录积累至30%上限前完成清理。这种“及时清理”模式避免了无效信息的长期滞留，同时未中断关键推理流程。

论文附录中的案例直观展示了方案效果。在寻找特定乐队的任务中，定时清理因保留错误排除名单导致AI陷入死循环；SELFCOMPACT则通过整理提炼关键条件，最终锁定正确答案。另一案例中，定时清理将早期错误线索固化为“原罪”，而SELFCOMPACT等待错误纠正后才整理，确保了正确信息的保留。这些案例表明，清理时机的差异直接决定了任务成败。

尽管SELFCOMPACT在开源模型上表现优异，但其对闭源商业模型（如GPT-5.5）的适用性尚未验证。研究团队认为，更强大的模型可能具备隐式“元认知”能力，但SELFCOMPACT作为无需训练的辅助框架，仍可为模型能力不足的场景提供价值。该研究未采用强化学习，而是通过明确规则引导AI行为，为未来训练提供了清晰目标：可将守则定义的“好时机”作为正向信号，帮助AI内化判断能力。

对于普通用户而言，这一成果意味着AI助手将更智能地管理工作记录。未来，AI可能根据任务阶段自主决定何时总结、何时继续，而非机械执行固定清理。这不仅提升了答案准确性，还降低了使用成本。目前，完整研究已公开，感兴趣者可查阅论文获取技术细节。

更多>同类内容

联想预警：存储价格难回低位，AI需求或成厂商扩产关键支撑

06-26

DeepSeek高调发布招聘信息七大类岗位广纳贤才寻找闪光发亮的你

06-26

MeshFlow革新三维建模：AI秒速生成高质量网格，效率飙升18倍

06-26

从“没教材”到“精训练”：6000条数据助力AI终端代理能力跃升

06-26

参数总量不变，仅调整分配方式，语言模型性能竟获显著提升？

06-26

百度“无限OCR”突破：AI像人类抄书般高效，长文档处理一键搞定

06-26

AI助力因果推断：定位"助手"角色，守护科学推断的严谨边界

06-26

清华大学提出OpenRath框架：用"会话对象"破解AI多智能体协作"黑箱"困境

06-26

阿里通义千问团队新突破：AI学会自我纠错数学解题能力显著跃升

06-26

阿里巴巴与清华团队新突破：让AI摆脱“礼貌陷阱”，输出更精准答案

06-26

AI职场大考：真实办公场景下，最强组合仅得66.3分说明了什么？

06-26

DeepSeek技术升级加速：开启大规模招聘，多领域岗位虚位以待

06-26

海光同济强强联手！国产千卡智算集群开启AI赋能工程新时代

06-26

从“犹豫”到精准：Notes2Skills让AI读懂科学家实验记录的“弦外之音”

06-26

小模型大能量！9B参数AI终端任务逆袭，挑战32B前辈

06-26

点击查看更多 +

全站最新

百度高考服务数据揭晓：1500万考生借AI志愿助手，真人专家背书成新亮点

奥迪E5 Sportback第三次OTA升级来袭！智能驾驶与座舱交互再进阶

视频播客单日播放破亿分钟：深度内容崛起，麦克风定义新表达赛道

预算二三十万买纯电轿车咋选？启境GT7与小米SU7全方位对比见分晓

蜜度与火山引擎深化合作共探AI应用新路径助力多行业智能化升级

火山引擎“领跑”Token经济：从模型爆发到赋能千行百业新图景

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号