滚动资讯

当前位置：网界 > 行业动态 > 正文内容

阿里通义千问团队新突破：AI学会自我纠错数学解题能力显著跃升

时间：2026-06-26 05:02 作者：ITBEAR

阿里巴巴通义千问团队联合清华大学、北京大学研究人员提出了一种名为轨迹增强策略优化（TAPO）的新型训练框架，为大型语言模型在数学推理领域的训练带来了突破性进展。该研究以预印本形式发布，论文编号为arXiv:2606.18844，为AI训练提供了全新思路。

传统AI训练数学题主要依赖强化学习中的组相对策略优化（GRPO）和自蒸馏方法。GRPO通过奖励正确答案、惩罚错误答案来提升模型能力，但如同老师只看答案对错而不讲解错误原因，AI无法理解自身错误所在。自蒸馏方法虽让AI模仿“优等生版本”的思维模式，却未明确指出错误点及纠正方法，且会压制错误推理路径，导致AI思维多样性下降，丧失自主探索和自我纠正能力。

研究团队受教育心理学中“最近发展区”理论启发，指出有效教学应从学习者当前理解水平出发，引导其走向正确理解。基于此，TAPO框架将训练过程从“模仿正确答案”转变为“从错误中构建修正路径”。每次训练迭代时，AI对同一道题给出多个答案，TAPO从中挑选错误答案和正确答案，让AI分析错误答案，找出第一个关键错误点，保留错误点前的正确推理，插入诊断语句后重新正确推理至最终答案，形成微反思轨迹。这种轨迹包含错误 - 诊断 - 纠正过程，蕴含丰富学习信息，且保留错误前缀的设计使训练数据与AI当前思维模式分布接近，便于学习。

为确保训练效果，研究团队设计了难度感知候选选择（DCS）机制。该机制根据AI对每道题给出答案的正确数量，将题目分为“已掌握区”“超出能力区”和“最近发展区”，只选择“最近发展区”的题目构建微反思轨迹。随着训练推进，AI能力提升，系统会自动聚焦到更难的题目上，产生自然涌现的课程学习效应。

在将微反思轨迹融入训练时，研究团队解决了优势污染和分布漂移两个问题。优势污染指微反思轨迹拉高答案组平均奖励，间接惩罚错误答案，导致AI倾向给出短答案，降低思维多样性。为此，研究团队提出解耦优势估计（DAE），给原始答案和微反思轨迹分别打上不同“小组编号”，互不干扰地计算优势值，保留微反思轨迹组内部的正确与错误轨迹对比结构。分布漂移指微反思轨迹中的认知过渡词对AI来说是“外星语言”，会引入不稳定梯度信号。研究团队提出OOD词元抑制（OTS）机制，根据词在当前上下文的自然生成可能性和AI思维不确定性计算分数，压低陌生词的权重，降低其对模型参数更新的影响。

正式强化学习训练前，研究团队进行了冷启动阶段准备。基础模型Qwen3 - 8B - Instruct原本不擅长按特定格式输出分析内容和修正内容，也无显式分析错误习惯。研究团队用约40,000道数学题构建45,000条训练样本，训练3个轮次后，AI初步掌握相关能力。后续分析表明，有冷启动的模型在训练中OTS平均权重接近1.0，学习效率高；无冷启动的模型OTS权重持续下滑，学习效率大打折扣。

研究团队用8B参数规模的Qwen3 - 8B - Instruct在AIME 2024、AIME 2025和HMMT 2025三个顶级数学竞赛题库上测试TAPO效果。有冷启动设置下，TAPO在三个榜单上均优于对比方法，Pass@1和Pass@5指标均排名最高，说明其能力提升真实全面。无冷启动设置下，TAPO在AIME 2024表现最好，但在AIME 2025和HMMT 2025上略输给GRPO，与OTS权重分析结论一致。

为验证TAPO训练的AI是否真正内化纠错能力，研究团队设计了直接解题率（DSR）和有效反思率（ERR）两个评估指标，并请Qwen3 - 235B - A22B担任裁判分析答案。测试结果显示，有冷启动的TAPO在DSR上三个榜单分别高出有冷启动的GRPO约13.5、15.9和22.3个百分点，在ERR上也均优于GRPO。这表明TAPO不仅提升了纠错能力，还大幅提高了初始推理质量。

研究团队通过受控消融实验验证了TAPO每个设计选择的必要性。微反思设计优于完整重建方案，强化学习方式优于监督学习方式，解耦优势估计和负样本需配合使用，OOD词元抑制对训练效果有积极影响。研究团队对训练过程进行动态监控，形成六张分析图，从多个维度验证了TAPO的训练健康状况，如OTS权重走势、训练稳定性、梯度范数、响应长度和KL散度等指标均表明TAPO具有优势。

TAPO方法改变了AI学习错误的方式，将错误变为有价值的训练材料。它不仅降低了训练成本，提升了AI在数学推理等高难度任务上的能力，还使AI具备在出错时识别并纠正错误的能力，对现实世界复杂问题处理至关重要。目前该研究仅限于数学竞赛题目，未来能否在更广泛任务类型上复现效果，以及自动课程机制能支撑AI成长到何种程度，值得进一步探索。有兴趣的读者可通过arXiv编号2606.18844查阅完整论文。

更多>同类内容

阿里巴巴与清华团队新突破：让AI摆脱“礼貌陷阱”，输出更精准答案

06-26

AI职场大考：真实办公场景下，最强组合仅得66.3分说明了什么？

06-26

DeepSeek技术升级加速：开启大规模招聘，多领域岗位虚位以待

06-26

海光同济强强联手！国产千卡智算集群开启AI赋能工程新时代

06-26

从“犹豫”到精准：Notes2Skills让AI读懂科学家实验记录的“弦外之音”

06-26

小模型大能量！9B参数AI终端任务逆袭，挑战32B前辈

06-26

理想汽车第30届汽车电子大会发声详解AI原生架构与具身智能新路

06-26

慧仑科技携手广汽动力BU 共启万台人形机器人量产新征程

06-26

一汽-大众双车齐发！迈腾PHEV与探岳L PHEV 16.99万元起正式登场

06-26

尊界V800亮相：80-120万预售价，国产豪华MPV新挑战者登场

06-26

新款问界M8谍照来袭：配备激光雷达后轮转向，C柱摄像头成亮点

06-26

阿维塔07L弦月银新色官图发布！内饰升级智驾加持 7月将亮相

06-26

雷军回应网友呼声：若喜欢多或重启小米YU7“深海蓝”配色生产

06-26

张钧甯回应原名上热搜坦言因字难打惹困扰诚恳致歉并解释缘由

06-26

谢霆锋王菲同居生活细节曝光：岁月沉淀后的爱情更显真挚与温暖

06-26

点击查看更多 +

全站最新

百度高考服务数据揭晓：1500万考生借AI志愿助手，真人专家背书成新亮点

奥迪E5 Sportback第三次OTA升级来袭！智能驾驶与座舱交互再进阶

视频播客单日播放破亿分钟：深度内容崛起，麦克风定义新表达赛道

预算二三十万买纯电轿车咋选？启境GT7与小米SU7全方位对比见分晓

蜜度与火山引擎深化合作共探AI应用新路径助力多行业智能化升级

火山引擎“领跑”Token经济：从模型爆发到赋能千行百业新图景

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号

阿里通义千问团队新突破：AI学会自我纠错 数学解题能力显著跃升

阿里通义千问团队新突破：AI学会自我纠错数学解题能力显著跃升