滚动资讯

当前位置：网界 > 行业动态 > 正文内容

普渡大学新突破：Entrocraft让AI摆脱“越学越死板”，探索力持续在线

时间：2026-05-19 01:08 作者：CHINAZ

在人工智能领域，强化学习训练中一个长期困扰研究者的问题终于有了突破性解决方案。美国普渡大学研究团队提出名为Entrocraft的新方法，通过精确调控AI的“探索欲”，成功解决了训练过程中常见的“性能饱和”难题。实验数据显示，采用该方法的40亿参数模型在数学推理任务上的表现，甚至超越了传统方法训练的80亿参数模型，同时训练效率提升4倍，解题多样性增加50%。

研究人员发现，AI在强化学习过程中会逐渐丧失探索新策略的动力，这种现象被称为“熵崩溃”。就像人类学习者在掌握基础技能后容易陷入固定模式，AI也会因过度依赖已知有效策略而停止进步。传统方法试图通过惩罚单调回答或强制剔除高置信度答案来维持多样性，但这些间接干预手段无法实现精准控制，导致训练效果波动明显。

研究团队通过数学建模揭示了熵变化的内在规律：当AI学习被判定为“正确”的回答时，其探索能力会显著下降；反之，学习错误回答反而能提升多样性。更关键的是，AI对正确答案的信心普遍高于错误答案，这种系统性偏差使得传统平衡策略难以奏效。基于这一发现，研究人员设计了直接干预训练样本选择的Entrocraft框架。

该框架的操作逻辑堪称精妙：在每轮训练前，系统会检测当前AI的熵值水平。若探索欲过低，则自动剔除所有正面评价样本，仅用负面样本更新模型；若探索欲过高，则反向操作。这种动态筛选机制既不改变原有训练目标，也不增加计算负担，反而因减少无效样本处理提升了效率。实验记录显示，随着训练推进，实际参与更新的样本量逐渐减少，与理论预测完全吻合。

在熵曲线设计方面，研究团队对比了固定目标、余弦衰减和线性衰减三种策略。固定目标在训练后期因负面样本稀缺导致操作失控；余弦衰减虽有所改善但仍存在波动；最终线性衰减方案脱颖而出，其“前期充分探索、后期逐步收敛”的特性，使模型在保持稳定性的同时持续进步。这种设计哲学颠覆了传统认知——不再追求恒定探索水平，而是根据训练阶段动态调整探索强度。

数学竞赛基准测试验证了新方法的优越性。在AMC-23、AIME系列和MATH-500等权威数据集上，Entrocraft训练的模型平均正确率提升3.8%-7.5%，至少答对一次的比例提升4.3%-9.6%。特别在AIME-25高难度测试中，40亿参数模型以微弱优势战胜80亿参数传统模型，证明训练方法的质量比单纯扩大规模更关键。长期训练实验进一步显示，标准GRPO算法在10万样本后即停滞，而Entrocraft模型持续进步至40万样本，且未出现性能回退现象。

这项突破具有广泛适用性。研究团队在Qwen3-8B、Qwen3-14B和Llama-3.1-8B等不同架构模型上均验证了方法的有效性，表明其不是针对特定模型的优化技巧，而是可普遍应用的训练工具。不过研究者也指出，当前方法在多轮对话和混合专家架构等复杂场景中的表现尚待验证，这将成为后续研究的重要方向。

针对技术细节的疑问，研究团队解释称Entrocraft与GRPO并非竞争关系，而是可叠加使用的增强模块。其核心优势在于不修改任何训练目标或损失函数，仅通过样本筛选实现精准控制。对于熵自然下降的现象，数学模型清晰展示了正确回答的高信心度如何系统性地压制探索能力，这解释了为何传统平衡策略难以奏效。而线性衰减方案的成功，则印证了“适度探索”的重要性——既避免早期探索不足，又防止后期因样本稀缺导致的操作失控。

更多>同类内容

AI下半场回归“算账时代”：百度用新尺子丈量AI商业价值潜力

05-19

SpaceX星舰V3周三首飞在即：IPO前夕的关键技术验证与登月计划新进展

05-19

直径超蓝鲸！小行星2026 JH2将飞掠地球距地9万公里可观测

05-19

千帆星座第九批18星成功入轨，卫星总数达162颗全球组网提速

05-19

河南安徽夜空现“水母云”？非UFO！长征六号改火箭发射造就奇景

05-19

神舟二十三号载人飞船与火箭组合体5月16日顺利转运至发射区

05-19

贾跃亭重掌FF后获7000万美元募资，FF中国关联公司注册资本增至4.81亿

05-19

赛力斯高层变动：张兴海任董事长，注册资本增至约17.4亿人民币

05-19

40.98万起腾势N9闪充版上市：420km纯电续航+二代刀片电池

05-19

魏建军亲自代言魏牌V9X正式上市：34.98万元起

05-19

张朝阳：企业家不能“用劲”塑造个人IP 要创造稀缺做真实的自己

05-19

“豆包说你那里卖野猪"冲上热搜究竟咋回事？

05-19

iPhone 18 Pro外观定版：首批保护壳已试产相机更凸

05-19

智能手机内存价格Q2预计环比上涨超过70% 比Q1涨幅更高

05-19

消息称折叠屏iPhone试产受阻核心卡点不是屏幕折痕

05-19

点击查看更多 +

全站最新

特斯拉座椅防夹功能实测：折叠遇障碍物秒回弹，细节守护安全

高德云图城市级仿真训练场：为具身机器人铺就真实场景落地“高速路”

全域营销新路径：中小团队借智能工具破投流困局，实现降本增效

Odoo助力麦科利中国：打破传统束缚，开启电商与多公司运营新篇章

刘东畅谈智能时代：互联网迈向新阶段，底层基建成竞争关键

京东Q1财报揭秘：经营利润扭亏为盈，外卖业务转型“轻资产”谋新篇

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号