在人工智能领域,强化学习训练中一个长期困扰研究者的问题终于有了突破性解决方案。美国普渡大学研究团队提出名为Entrocraft的新方法,通过精确调控AI的“探索欲”,成功解决了训练过程中常见的“性能饱和”难题。实验数据显示,采用该方法的40亿参数模型在数学推理任务上的表现,甚至超越了传统方法训练的80亿参数模型,同时训练效率提升4倍,解题多样性增加50%。
研究人员发现,AI在强化学习过程中会逐渐丧失探索新策略的动力,这种现象被称为“熵崩溃”。就像人类学习者在掌握基础技能后容易陷入固定模式,AI也会因过度依赖已知有效策略而停止进步。传统方法试图通过惩罚单调回答或强制剔除高置信度答案来维持多样性,但这些间接干预手段无法实现精准控制,导致训练效果波动明显。
研究团队通过数学建模揭示了熵变化的内在规律:当AI学习被判定为“正确”的回答时,其探索能力会显著下降;反之,学习错误回答反而能提升多样性。更关键的是,AI对正确答案的信心普遍高于错误答案,这种系统性偏差使得传统平衡策略难以奏效。基于这一发现,研究人员设计了直接干预训练样本选择的Entrocraft框架。
该框架的操作逻辑堪称精妙:在每轮训练前,系统会检测当前AI的熵值水平。若探索欲过低,则自动剔除所有正面评价样本,仅用负面样本更新模型;若探索欲过高,则反向操作。这种动态筛选机制既不改变原有训练目标,也不增加计算负担,反而因减少无效样本处理提升了效率。实验记录显示,随着训练推进,实际参与更新的样本量逐渐减少,与理论预测完全吻合。
在熵曲线设计方面,研究团队对比了固定目标、余弦衰减和线性衰减三种策略。固定目标在训练后期因负面样本稀缺导致操作失控;余弦衰减虽有所改善但仍存在波动;最终线性衰减方案脱颖而出,其“前期充分探索、后期逐步收敛”的特性,使模型在保持稳定性的同时持续进步。这种设计哲学颠覆了传统认知——不再追求恒定探索水平,而是根据训练阶段动态调整探索强度。
数学竞赛基准测试验证了新方法的优越性。在AMC-23、AIME系列和MATH-500等权威数据集上,Entrocraft训练的模型平均正确率提升3.8%-7.5%,至少答对一次的比例提升4.3%-9.6%。特别在AIME-25高难度测试中,40亿参数模型以微弱优势战胜80亿参数传统模型,证明训练方法的质量比单纯扩大规模更关键。长期训练实验进一步显示,标准GRPO算法在10万样本后即停滞,而Entrocraft模型持续进步至40万样本,且未出现性能回退现象。
这项突破具有广泛适用性。研究团队在Qwen3-8B、Qwen3-14B和Llama-3.1-8B等不同架构模型上均验证了方法的有效性,表明其不是针对特定模型的优化技巧,而是可普遍应用的训练工具。不过研究者也指出,当前方法在多轮对话和混合专家架构等复杂场景中的表现尚待验证,这将成为后续研究的重要方向。
针对技术细节的疑问,研究团队解释称Entrocraft与GRPO并非竞争关系,而是可叠加使用的增强模块。其核心优势在于不修改任何训练目标或损失函数,仅通过样本筛选实现精准控制。对于熵自然下降的现象,数学模型清晰展示了正确回答的高信心度如何系统性地压制探索能力,这解释了为何传统平衡策略难以奏效。而线性衰减方案的成功,则印证了“适度探索”的重要性——既避免早期探索不足,又防止后期因样本稀缺导致的操作失控。






