科技·商业·财经

Layer 6 AI新突破:破解大模型训练“崩溃”困局,让学习更稳健

   时间:2026-06-20 02:03 作者:鞭牛士

在人工智能领域,大语言模型的训练稳定性一直是制约技术突破的关键难题。加拿大Layer 6 AI研究团队近期提出一项突破性方法,通过重构强化学习训练机制,成功解决了模型训练过程中频繁出现的"崩溃"现象。这项研究成果以预印本形式发布于学术平台,编号为arXiv:2606.16154,为行业提供了全新的技术路径。

研究人员发现,当前主流的GRPO训练框架存在根本性缺陷。该框架通过比较新旧模型版本生成答案的差异来指导训练,但当引入"重要性比率截断"机制以控制模型偏离时,反而加剧了训练不稳定。实验数据显示,过度截断"差异较大"的样本会导致模型输出迅速恶化——要么生成包含多国语言和乱码的"高熵崩溃"内容,要么陷入无限重复固定模板的"低熵崩溃"状态。

通过数学建模与梯度分析,研究团队揭示了训练崩溃的深层机制。他们将词汇表中的每个词根据模型当前概率分布划分为"峰值词"和"谷值词",并发现负优势信号与谷值词的组合更新(Neg-valley)会过度压缩模型输出,而正优势信号与谷值词的组合(Pos-valley)则会引发输出混乱。这两种效应的叠加,正是导致训练崩溃的根源。

基于上述发现,团队提出"赢家优势策略优化"(WAPO)方法。该方案颠覆了传统训练逻辑,仅保留优势值为正的样本进行参数更新,完全摒弃负样本的训练信号。这种选择性更新机制通过自适应权重因子实现动态调节——当模型在特定任务上表现优异时,自动降低该任务的训练强度,从而避免过度优化导致的泛化能力下降。

实验验证显示,WAPO在多步推理任务中表现尤为突出。在包含两万余道数学竞赛题的NuminaMath-LEAN数据集上,使用Qwen3-4B模型的训练过程中,WAPO相比次优方法领先9.9个百分点。在难度更高的Hotpot-QA问答任务中,该方法的优势扩大至10.6个百分点。特别值得注意的是,传统方法频繁出现的训练中途崩溃现象在WAPO框架下完全消失。

数学推理任务的测试结果呈现出不同特点。虽然WAPO在训练初期进度略慢于基线方法,但这种保守策略使其在后期展现出更强的难题攻克能力。在顶级数学竞赛题集AIME'25的测试中,WAPO训练的模型与基线方法表现相当,证明了该方法在处理极端复杂任务时的可靠性。

该研究的创新价值不仅体现在性能提升,更在于其理论突破。通过解构每个训练样本对模型概率分布的影响,研究团队建立了全新的分析框架。这种将训练稳定性问题转化为词汇级梯度效应的研究视角,为后续优化算法设计提供了理论基础。实验中观察到的"难题优先"自适应机制,也为开发更具智能性的训练系统指明了方向。

目前,研究团队已公开完整代码实现。这项成果对AI应用开发具有重要实践意义,特别是在需要处理复杂推理任务的场景中,新方法可显著降低模型输出不可控的风险。对于教育、医疗等对准确性要求极高的领域,稳定的训练过程意味着更可靠的技术保障。

学术界对该成果给予高度关注。有专家指出,WAPO方法通过简化训练信号处理流程,反而实现了更优的性能表现,这种"减法创新"为强化学习领域提供了新的研究范式。同时,该方法保留的相对优势归一化和截断机制,也为后续融合负样本信息留下了改进空间。

 
 
更多>同类内容
全站最新
热门内容