滚动资讯

当前位置：网界 > 行业动态 > 正文内容

Layer 6 AI新突破：破解大模型训练“崩溃”困局，让学习更稳健

时间：2026-06-20 02:03 作者：鞭牛士

在人工智能领域，大语言模型的训练稳定性一直是制约技术突破的关键难题。加拿大Layer 6 AI研究团队近期提出一项突破性方法，通过重构强化学习训练机制，成功解决了模型训练过程中频繁出现的"崩溃"现象。这项研究成果以预印本形式发布于学术平台，编号为arXiv:2606.16154，为行业提供了全新的技术路径。

研究人员发现，当前主流的GRPO训练框架存在根本性缺陷。该框架通过比较新旧模型版本生成答案的差异来指导训练，但当引入"重要性比率截断"机制以控制模型偏离时，反而加剧了训练不稳定。实验数据显示，过度截断"差异较大"的样本会导致模型输出迅速恶化——要么生成包含多国语言和乱码的"高熵崩溃"内容，要么陷入无限重复固定模板的"低熵崩溃"状态。

通过数学建模与梯度分析，研究团队揭示了训练崩溃的深层机制。他们将词汇表中的每个词根据模型当前概率分布划分为"峰值词"和"谷值词"，并发现负优势信号与谷值词的组合更新（Neg-valley）会过度压缩模型输出，而正优势信号与谷值词的组合（Pos-valley）则会引发输出混乱。这两种效应的叠加，正是导致训练崩溃的根源。

基于上述发现，团队提出"赢家优势策略优化"（WAPO）方法。该方案颠覆了传统训练逻辑，仅保留优势值为正的样本进行参数更新，完全摒弃负样本的训练信号。这种选择性更新机制通过自适应权重因子实现动态调节——当模型在特定任务上表现优异时，自动降低该任务的训练强度，从而避免过度优化导致的泛化能力下降。

实验验证显示，WAPO在多步推理任务中表现尤为突出。在包含两万余道数学竞赛题的NuminaMath-LEAN数据集上，使用Qwen3-4B模型的训练过程中，WAPO相比次优方法领先9.9个百分点。在难度更高的Hotpot-QA问答任务中，该方法的优势扩大至10.6个百分点。特别值得注意的是，传统方法频繁出现的训练中途崩溃现象在WAPO框架下完全消失。

数学推理任务的测试结果呈现出不同特点。虽然WAPO在训练初期进度略慢于基线方法，但这种保守策略使其在后期展现出更强的难题攻克能力。在顶级数学竞赛题集AIME'25的测试中，WAPO训练的模型与基线方法表现相当，证明了该方法在处理极端复杂任务时的可靠性。

该研究的创新价值不仅体现在性能提升，更在于其理论突破。通过解构每个训练样本对模型概率分布的影响，研究团队建立了全新的分析框架。这种将训练稳定性问题转化为词汇级梯度效应的研究视角，为后续优化算法设计提供了理论基础。实验中观察到的"难题优先"自适应机制，也为开发更具智能性的训练系统指明了方向。

目前，研究团队已公开完整代码实现。这项成果对AI应用开发具有重要实践意义，特别是在需要处理复杂推理任务的场景中，新方法可显著降低模型输出不可控的风险。对于教育、医疗等对准确性要求极高的领域，稳定的训练过程意味着更可靠的技术保障。

学术界对该成果给予高度关注。有专家指出，WAPO方法通过简化训练信号处理流程，反而实现了更优的性能表现，这种"减法创新"为强化学习领域提供了新的研究范式。同时，该方法保留的相对优势归一化和截断机制，也为后续融合负样本信息留下了改进空间。

更多>同类内容

7B小模型“循环思考”显神通：代码任务中力压数百亿参数大模型

06-20

香港中文大学等团队突破创新：机器人借人类视频“解锁”高效学习新路径

06-20

南洋理工频谱强制技术：为AI图像生成精准“导航” 聚焦有效信号

06-20

中央大学与Adobe Research创新AI图像修复：高清参考图助力告别生成失真

06-20

英伟达新突破：ZPPO方法助力AI小模型高效学习，效果显著提升

06-20

AI造游戏能力大揭秘：顶尖模型挑战完整开发，最高仅获四成成绩

06-20

基于宇树G1改装的人形机器人 Pemba 登顶火山未来剑指珠峰开展多项任务

06-20

SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程

06-20

摩尔线程2026移动云大会展实力，全栈算力助力Token生态与智算发展

06-20

摩尔线程MTT S5000实现MiniMax M2.7 Day-0适配国产GPU加速AI创新落地

06-20

呼兰支招AI时代：摆脱焦虑，投身具体事务成就超级个体之路

06-20

七鳃鳗全脑三维图谱绘就为脊椎动物脑演化研究打开新窗口

06-20

硅基“登山者”破界：人形机器人登顶钦博拉索，珠峰挑战在望？

06-20

短剧圈疯狂刷屏！本能工作室突然发疯派发上千份端午礼盒

06-20

和Fable 5五五开？GPT-5.6 Pro实测首次曝光

06-20

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

沃尔玛蝉联榜首零食量贩崛起区域零售突围：中国零售格局深度重构

青海电商降本增效秘籍：5个获客软件实用技巧助力精准获客

端午北京：老字号守正创新新潮粽抢占市场粽香撬动夏日消费热潮

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号