滚动资讯

当前位置：网界 > 行业动态 > 正文内容

参数总量不变，仅调整分配方式，语言模型性能竟获显著提升？

时间：2026-06-26 05:02 作者：ITBEAR

在人工智能语言模型领域，一项突破性研究为提升模型性能开辟了新路径。这项由加拿大蒙特利尔人工智能研究所与康奈尔大学联合开展的研究，提出了一种名为“渐缩语言模型”（Tapered Language Models，简称TLMs）的创新架构设计，通过优化参数在模型各层间的分配方式，在无需增加参数总量和计算成本的前提下，显著提升了模型性能。

传统语言模型普遍采用“均匀分配”策略，即模型各层的MLP（多层感知器）宽度完全相同。这种设计自2017年Transformer架构问世以来沿用至今，却从未经过系统性验证。研究团队通过实验发现，模型不同层对最终结果的贡献存在显著差异：早期层主要负责处理语法和词汇层面的浅层模式，后期层则更多进行语义推理和内容确认，且后期层的工作往往是对已有内容的强化而非新特征的计算。

基于这一发现，研究团队提出了“渐缩设计”理念：将更多计算资源分配给模型早期层，后期层则相应减少，形成从前到后逐渐变窄的“锥形”结构。为验证这一设计的有效性，团队在4.4亿参数的Transformer模型上进行了对照实验，测试了四种参数分配方案：均匀分配、“前宽后窄”、“前窄后宽”以及“中间宽两头窄”。结果显示，“前宽后窄”方案使模型困惑度降低0.32个点，而“前窄后宽”方案则导致困惑度上升超过1个点，充分证明了参数分配方向对模型性能的关键影响。

为进一步优化渐缩设计，研究团队考察了线性衰减、余弦衰减和Sigmoid衰减三种变化曲线，并测试了五组不同的宽度比例配置。实验表明，余弦衰减在所有配置下均表现最佳，其特点是在模型两端变化缓慢、中间过渡较快，避免了参数分配的突变。在宽度比例上，1.5倍到0.5倍的配置取得了最优效果，使模型困惑度较均匀基准降低1.84个点。

为验证渐缩设计的普适性，研究团队将其应用于四种主流模型架构（标准Transformer、门控注意力模型、Hope-attention和Titans）及7.6亿和13亿参数两个规模。结果显示，在所有架构和规模下，渐缩设计均稳定提升了模型性能：常识推理准确率全面上升，LAMBADA困惑度全部改善，WikiText困惑度在15个测试中改善、1个持平，长文本检索能力也未出现退步。这些提升均在参数总量和计算成本不变的前提下实现，凸显了渐缩设计的工程价值。

研究团队通过余弦相似度分析揭示了渐缩设计有效的机制：模型后期层的输出与已有残差流高度相似，表明其工作更多是强化已有内容而非计算新特征。将参数从后期层转移至早期层，可使早期层有更多资源处理真正需要计算的新内容，从而提高参数利用效率。这一发现还暗示，渐缩原则可能适用于注意力头、键值维度等其他参数维度，为未来研究提供了新方向。

尽管研究取得了显著成果，但团队也指出了其局限性：超参数搜索仅在4.4亿参数模型上进行，最优配置可能因模型深度、隐层维度等因素而异；研究专注于解码器类型语言模型，其在视觉、扩散等其他领域的应用尚需验证。尽管如此，这项研究通过重新审视并修正一个被长期忽视的设计假设，为语言模型架构优化提供了新思路，展示了“重新分配”而非“堆料”提升性能的可能性。

对于普通用户而言，这项研究意味着未来AI助手的交互质量可能进一步提升：在相同硬件成本下，工程师可设计出性能更优的模型，或在达到相同性能目标时减少资源消耗。这一思路在算力成本高企、能源消耗备受关注的当下，具有显著的现实意义。该研究的完整技术细节已发布在预印本平台arXiv，论文编号为arXiv:2606.23670v1。

更多>同类内容

百度“无限OCR”突破：AI像人类抄书般高效，长文档处理一键搞定

06-26

AI助力因果推断：定位"助手"角色，守护科学推断的严谨边界

06-26

清华大学提出OpenRath框架：用"会话对象"破解AI多智能体协作"黑箱"困境

06-26

阿里通义千问团队新突破：AI学会自我纠错数学解题能力显著跃升

06-26

阿里巴巴与清华团队新突破：让AI摆脱“礼貌陷阱”，输出更精准答案

06-26

AI职场大考：真实办公场景下，最强组合仅得66.3分说明了什么？

06-26

DeepSeek技术升级加速：开启大规模招聘，多领域岗位虚位以待

06-26

海光同济强强联手！国产千卡智算集群开启AI赋能工程新时代

06-26

从“犹豫”到精准：Notes2Skills让AI读懂科学家实验记录的“弦外之音”

06-26

小模型大能量！9B参数AI终端任务逆袭，挑战32B前辈

06-26

理想汽车第30届汽车电子大会发声详解AI原生架构与具身智能新路

06-26

慧仑科技携手广汽动力BU 共启万台人形机器人量产新征程

06-26

一汽-大众双车齐发！迈腾PHEV与探岳L PHEV 16.99万元起正式登场

06-26

尊界V800亮相：80-120万预售价，国产豪华MPV新挑战者登场

06-26

新款问界M8谍照来袭：配备激光雷达后轮转向，C柱摄像头成亮点

06-26

点击查看更多 +

全站最新

百度高考服务数据揭晓：1500万考生借AI志愿助手，真人专家背书成新亮点

奥迪E5 Sportback第三次OTA升级来袭！智能驾驶与座舱交互再进阶

视频播客单日播放破亿分钟：深度内容崛起，麦克风定义新表达赛道

预算二三十万买纯电轿车咋选？启境GT7与小米SU7全方位对比见分晓

蜜度与火山引擎深化合作共探AI应用新路径助力多行业智能化升级

火山引擎“领跑”Token经济：从模型爆发到赋能千行百业新图景

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号