滚动资讯

当前位置：网界 > 行业动态 > 正文内容

英伟达新突破：ZPPO方法助力AI小模型高效学习，效果显著提升

时间：2026-06-20 02:03 作者：鞭牛士

在人工智能领域，如何让算力有限的小模型获得接近大模型的能力，一直是困扰研究者的难题。英伟达研究团队近期提出的新方法ZPPO（近端发展区策略优化），为这一难题提供了突破性解决方案。该研究在0.8B参数的小模型上，将视觉语言理解能力提升了9.3个百分点，并在31个基准测试中全面超越现有方法，相关论文已通过arXiv编号2606.18216公开。

当前小模型训练主要依赖两种方法：知识蒸馏和强化学习。知识蒸馏要求小模型完全模仿大模型的输出概率分布，但小模型有限的“脑容量”难以吸收如此复杂的信息，导致在遇到新问题时表现甚至不如未训练的模型。强化学习则通过奖励机制让模型自主探索，但会系统性地忽略那些小模型反复失败的题目，即使加入大模型答案作为“作弊”手段，也会引发策略漂移问题。这两种方法都未能有效解决小模型的学习困境。

研究团队从苏联心理学家维果茨基的“近端发展区”理论中获得灵感，提出将大模型的指导嵌入题目背景而非答案中的创新思路。在ZPPO框架下，大模型不再直接提供答案，而是将其推理过程转化为题目中的辅助信息。小模型需要独立分析这些信息并生成自己的答案，训练过程中仅使用小模型自身的输出计算梯度，确保学习过程真正反映模型自身能力的提升。

针对小模型反复失败的难题，研究团队设计了两种题目改造策略。二元候选问题（BCQ）将大模型的正确推理和小模型的错误推理匿名化后作为候选选项，要求模型判断哪个更合理并给出答案。负面候选问题（NCQ）则收集小模型的所有错误尝试，明确告知这些答案全错，引导模型分析错误模式后重新作答。这两种策略通过不同的方式让小模型直面自身弱点，在保持挑战性的同时提供可学习的改进方向。

为确保困难题目得到充分练习，研究团队引入了提示词回放缓冲区机制。该机制自动存储小模型正确率低于50%的题目，在后续训练中反复呈现这些题目，但每次都会生成新的BCQ或NCQ版本。这种动态调整方式既避免了模型对固定题目的机械记忆，又通过持续提供新的学习信号促进能力提升。实验数据显示，单独使用回放缓冲区或题目改造策略效果有限，但两者结合可产生超加性效应。

在训练参数优化方面，研究团队发现将每批数据的梯度更新次数从传统的16次调整为4次，可有效避免模型参数偏离当前状态。同时，通过排除零优势组计算批次优势归一化统计量，防止了非零优势分被人为放大，显著提升了训练稳定性。这些看似微小的调整对最终性能产生了重要影响。

实验在Qwen3.5系列的四个规模模型上展开，以270亿参数的Qwen3.5作为教师模型。结果显示，ZPPO对小模型的提升效果尤为显著：0.8B模型在视觉语言测试中提升9.3个百分点，2B模型提升5.2个百分点，而9B模型仅提升2.8个百分点。这种规模依赖性提升印证了研究假设——模型越小，与大模型的能力差距越大，ZPPO提供的学习信号就越丰富。

在纯语言和视频理解等未训练任务上，ZPPO同样表现出色，而知识蒸馏方法在这些测试中反而导致模型性能下降。这表明ZPPO的训练过程不仅提升了模型在特定任务上的表现，还促进了能力的泛化迁移。对于初始正确率为零的最难题目，ZPPO能使28%的题目最终达到毕业标准，远超对比方法的4%。

通过详细审计模型在BCQ和NCQ任务中的表现，研究团队验证了学习过程的有效性。在BCQ任务中，模型答案与正确候选的匹配率在答对样本中为78%-91%，在答错样本中为77%-97%，证明模型确实在进行判断而非机械复制。NCQ任务的审计则显示，0.8B模型有82.7%的推理重复了已知错误答案，但随着模型规模增大，这一比例迅速下降，解释了NCQ对大模型更有效的原因。

尽管ZPPO在多个方面取得突破，但研究团队也指出其局限性：当教师模型无法解答某些题目时，BCQ策略将失去效用。如何让小模型的学习能力超越教师模型的覆盖范围，成为该研究留下的重要开放问题。对于希望深入了解技术细节的读者，原始论文提供了完整的算法伪代码、所有基准测试的详细数据及消融实验结果。

更多>同类内容

AI造游戏能力大揭秘：顶尖模型挑战完整开发，最高仅获四成成绩

06-20

基于宇树G1改装的人形机器人 Pemba 登顶火山未来剑指珠峰开展多项任务

06-20

SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程

06-20

摩尔线程2026移动云大会展实力，全栈算力助力Token生态与智算发展

06-20

摩尔线程MTT S5000实现MiniMax M2.7 Day-0适配国产GPU加速AI创新落地

06-20

呼兰支招AI时代：摆脱焦虑，投身具体事务成就超级个体之路

06-20

七鳃鳗全脑三维图谱绘就为脊椎动物脑演化研究打开新窗口

06-20

硅基“登山者”破界：人形机器人登顶钦博拉索，珠峰挑战在望？

06-20

短剧圈疯狂刷屏！本能工作室突然发疯派发上千份端午礼盒

06-20

和Fable 5五五开？GPT-5.6 Pro实测首次曝光

06-20

深圳梅林“好大一个瓜”市集清凉来袭，冰品甜品+游乐，假期好去处！

06-20

商务部明确：6月20日零点起对澳进口牛肉加征55%关税

06-20

印度首富安巴尼发力AI：推多款新品，欲让印度成AI创造者与全球领跑者

06-20

德军工巨头莱茵金属CEO呼吁：为军事AI应用立全球规则人类保留最终开火权

06-20

存储成本飙升库克放风涨价，iPhone 18 Pro扛压，苹果这次还能稳住吗？

06-20

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

沃尔玛蝉联榜首零食量贩崛起区域零售突围：中国零售格局深度重构

青海电商降本增效秘籍：5个获客软件实用技巧助力精准获客

端午北京：老字号守正创新新潮粽抢占市场粽香撬动夏日消费热潮

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号