约翰斯·霍普金斯大学与苹果公司联合开展的一项研究,为解决当前AI助手处理复杂任务时面临的“上下文腐烂”问题提供了新思路。这一现象指AI在持续工作中积累大量无效信息,导致推理能力下降,最终给出错误答案。研究团队提出的SELFCOMPACT方案,通过让AI自主判断何时整理工作记录,显著提升了任务处理效率与准确性,相关论文已以预印本形式发布,编号为arXiv:2606.23525。
AI助手的工作机制类似于记录思考过程的笔记本:每完成一步推理或查询,内容便不断累积。然而,这本“笔记本”不会自动清理错误假设、无效路径或冗余信息。随着任务复杂度增加,记录可能突破百万词,不仅占用大量计算资源,还会干扰后续推理。例如,AI可能在验证三个关键事实后被迫中断总结,导致已确认的信息丢失,最终得出错误结论。这种“越努力越混乱”的现象,正是当前AI助手的核心痛点。
传统解决方案采用定时清理策略,即当记录达到一定词数时强制总结。但研究团队指出,这种“一刀切”的方法存在根本缺陷:它可能打断关键推理步骤,导致已验证的信息丢失。实验数据显示,定时清理虽使部分错误答案转为正确,但同时导致近40%的正确答案被误改。这种不可控的“双刃剑”效应,限制了其在复杂任务中的应用。
SELFCOMPACT方案的核心在于赋予AI自主决策权。该方案包含两部分:一是可调用的总结工具,用于压缩记录;二是“整理守则”,明确触发条件。以搜索任务为例,守则要求AI同时满足四个条件:完成阶段性推理、关键信息可压缩为三到五个事实、有实质性进展、未陷入重复搜索。数学任务则关注是否得出明确答案、是否停滞及是否明确下一步方向。AI需根据守则逐条验证,仅当全部满足时才触发整理。
实验覆盖竞赛数学与深度搜索两大领域,测试了七个不同规模的AI模型。结果显示,在数学任务中,SELFCOMPACT使较大模型(如Qwen3.5-9B)的准确率提升10至18个百分点;在搜索任务中,模型成本降低33%至67%,同时准确率显著提高。尤为突出的是,该方案在处理高难度任务时优势明显:在最难的题目档次中,准确率较定时清理高出5至20个百分点。这表明,任务越复杂,精准清理无效信息的价值越大。
研究团队通过对比实验证实了“整理守则”的关键作用。当移除守则后,AI或因频繁触发整理打断推理,或因长期不整理积累冗余信息,导致准确率下降甚至低于定时清理方案。进一步分析发现,SELFCOMPACT触发的整理时机普遍早于定时策略,通常在记录积累至30%上限前完成清理。这种“及时清理”模式避免了无效信息的长期滞留,同时未中断关键推理流程。
论文附录中的案例直观展示了方案效果。在寻找特定乐队的任务中,定时清理因保留错误排除名单导致AI陷入死循环;SELFCOMPACT则通过整理提炼关键条件,最终锁定正确答案。另一案例中,定时清理将早期错误线索固化为“原罪”,而SELFCOMPACT等待错误纠正后才整理,确保了正确信息的保留。这些案例表明,清理时机的差异直接决定了任务成败。
尽管SELFCOMPACT在开源模型上表现优异,但其对闭源商业模型(如GPT-5.5)的适用性尚未验证。研究团队认为,更强大的模型可能具备隐式“元认知”能力,但SELFCOMPACT作为无需训练的辅助框架,仍可为模型能力不足的场景提供价值。该研究未采用强化学习,而是通过明确规则引导AI行为,为未来训练提供了清晰目标:可将守则定义的“好时机”作为正向信号,帮助AI内化判断能力。
对于普通用户而言,这一成果意味着AI助手将更智能地管理工作记录。未来,AI可能根据任务阶段自主决定何时总结、何时继续,而非机械执行固定清理。这不仅提升了答案准确性,还降低了使用成本。目前,完整研究已公开,感兴趣者可查阅论文获取技术细节。






