阿里巴巴通义千问团队联合清华大学、北京大学研究人员提出了一种名为轨迹增强策略优化(TAPO)的新型训练框架,为大型语言模型在数学推理领域的训练带来了突破性进展。该研究以预印本形式发布,论文编号为arXiv:2606.18844,为AI训练提供了全新思路。
传统AI训练数学题主要依赖强化学习中的组相对策略优化(GRPO)和自蒸馏方法。GRPO通过奖励正确答案、惩罚错误答案来提升模型能力,但如同老师只看答案对错而不讲解错误原因,AI无法理解自身错误所在。自蒸馏方法虽让AI模仿“优等生版本”的思维模式,却未明确指出错误点及纠正方法,且会压制错误推理路径,导致AI思维多样性下降,丧失自主探索和自我纠正能力。
研究团队受教育心理学中“最近发展区”理论启发,指出有效教学应从学习者当前理解水平出发,引导其走向正确理解。基于此,TAPO框架将训练过程从“模仿正确答案”转变为“从错误中构建修正路径”。每次训练迭代时,AI对同一道题给出多个答案,TAPO从中挑选错误答案和正确答案,让AI分析错误答案,找出第一个关键错误点,保留错误点前的正确推理,插入诊断语句后重新正确推理至最终答案,形成微反思轨迹。这种轨迹包含错误 - 诊断 - 纠正过程,蕴含丰富学习信息,且保留错误前缀的设计使训练数据与AI当前思维模式分布接近,便于学习。
为确保训练效果,研究团队设计了难度感知候选选择(DCS)机制。该机制根据AI对每道题给出答案的正确数量,将题目分为“已掌握区”“超出能力区”和“最近发展区”,只选择“最近发展区”的题目构建微反思轨迹。随着训练推进,AI能力提升,系统会自动聚焦到更难的题目上,产生自然涌现的课程学习效应。
在将微反思轨迹融入训练时,研究团队解决了优势污染和分布漂移两个问题。优势污染指微反思轨迹拉高答案组平均奖励,间接惩罚错误答案,导致AI倾向给出短答案,降低思维多样性。为此,研究团队提出解耦优势估计(DAE),给原始答案和微反思轨迹分别打上不同“小组编号”,互不干扰地计算优势值,保留微反思轨迹组内部的正确与错误轨迹对比结构。分布漂移指微反思轨迹中的认知过渡词对AI来说是“外星语言”,会引入不稳定梯度信号。研究团队提出OOD词元抑制(OTS)机制,根据词在当前上下文的自然生成可能性和AI思维不确定性计算分数,压低陌生词的权重,降低其对模型参数更新的影响。
正式强化学习训练前,研究团队进行了冷启动阶段准备。基础模型Qwen3 - 8B - Instruct原本不擅长按特定格式输出分析内容和修正内容,也无显式分析错误习惯。研究团队用约40,000道数学题构建45,000条训练样本,训练3个轮次后,AI初步掌握相关能力。后续分析表明,有冷启动的模型在训练中OTS平均权重接近1.0,学习效率高;无冷启动的模型OTS权重持续下滑,学习效率大打折扣。
研究团队用8B参数规模的Qwen3 - 8B - Instruct在AIME 2024、AIME 2025和HMMT 2025三个顶级数学竞赛题库上测试TAPO效果。有冷启动设置下,TAPO在三个榜单上均优于对比方法,Pass@1和Pass@5指标均排名最高,说明其能力提升真实全面。无冷启动设置下,TAPO在AIME 2024表现最好,但在AIME 2025和HMMT 2025上略输给GRPO,与OTS权重分析结论一致。
为验证TAPO训练的AI是否真正内化纠错能力,研究团队设计了直接解题率(DSR)和有效反思率(ERR)两个评估指标,并请Qwen3 - 235B - A22B担任裁判分析答案。测试结果显示,有冷启动的TAPO在DSR上三个榜单分别高出有冷启动的GRPO约13.5、15.9和22.3个百分点,在ERR上也均优于GRPO。这表明TAPO不仅提升了纠错能力,还大幅提高了初始推理质量。
研究团队通过受控消融实验验证了TAPO每个设计选择的必要性。微反思设计优于完整重建方案,强化学习方式优于监督学习方式,解耦优势估计和负样本需配合使用,OOD词元抑制对训练效果有积极影响。研究团队对训练过程进行动态监控,形成六张分析图,从多个维度验证了TAPO的训练健康状况,如OTS权重走势、训练稳定性、梯度范数、响应长度和KL散度等指标均表明TAPO具有优势。
TAPO方法改变了AI学习错误的方式,将错误变为有价值的训练材料。它不仅降低了训练成本,提升了AI在数学推理等高难度任务上的能力,还使AI具备在出错时识别并纠正错误的能力,对现实世界复杂问题处理至关重要。目前该研究仅限于数学竞赛题目,未来能否在更广泛任务类型上复现效果,以及自动课程机制能支撑AI成长到何种程度,值得进一步探索。有兴趣的读者可通过arXiv编号2606.18844查阅完整论文。






