在人工智能语言模型领域,一项突破性研究为提升模型性能开辟了新路径。这项由加拿大蒙特利尔人工智能研究所与康奈尔大学联合开展的研究,提出了一种名为“渐缩语言模型”(Tapered Language Models,简称TLMs)的创新架构设计,通过优化参数在模型各层间的分配方式,在无需增加参数总量和计算成本的前提下,显著提升了模型性能。
传统语言模型普遍采用“均匀分配”策略,即模型各层的MLP(多层感知器)宽度完全相同。这种设计自2017年Transformer架构问世以来沿用至今,却从未经过系统性验证。研究团队通过实验发现,模型不同层对最终结果的贡献存在显著差异:早期层主要负责处理语法和词汇层面的浅层模式,后期层则更多进行语义推理和内容确认,且后期层的工作往往是对已有内容的强化而非新特征的计算。
基于这一发现,研究团队提出了“渐缩设计”理念:将更多计算资源分配给模型早期层,后期层则相应减少,形成从前到后逐渐变窄的“锥形”结构。为验证这一设计的有效性,团队在4.4亿参数的Transformer模型上进行了对照实验,测试了四种参数分配方案:均匀分配、“前宽后窄”、“前窄后宽”以及“中间宽两头窄”。结果显示,“前宽后窄”方案使模型困惑度降低0.32个点,而“前窄后宽”方案则导致困惑度上升超过1个点,充分证明了参数分配方向对模型性能的关键影响。
为进一步优化渐缩设计,研究团队考察了线性衰减、余弦衰减和Sigmoid衰减三种变化曲线,并测试了五组不同的宽度比例配置。实验表明,余弦衰减在所有配置下均表现最佳,其特点是在模型两端变化缓慢、中间过渡较快,避免了参数分配的突变。在宽度比例上,1.5倍到0.5倍的配置取得了最优效果,使模型困惑度较均匀基准降低1.84个点。
为验证渐缩设计的普适性,研究团队将其应用于四种主流模型架构(标准Transformer、门控注意力模型、Hope-attention和Titans)及7.6亿和13亿参数两个规模。结果显示,在所有架构和规模下,渐缩设计均稳定提升了模型性能:常识推理准确率全面上升,LAMBADA困惑度全部改善,WikiText困惑度在15个测试中改善、1个持平,长文本检索能力也未出现退步。这些提升均在参数总量和计算成本不变的前提下实现,凸显了渐缩设计的工程价值。
研究团队通过余弦相似度分析揭示了渐缩设计有效的机制:模型后期层的输出与已有残差流高度相似,表明其工作更多是强化已有内容而非计算新特征。将参数从后期层转移至早期层,可使早期层有更多资源处理真正需要计算的新内容,从而提高参数利用效率。这一发现还暗示,渐缩原则可能适用于注意力头、键值维度等其他参数维度,为未来研究提供了新方向。
尽管研究取得了显著成果,但团队也指出了其局限性:超参数搜索仅在4.4亿参数模型上进行,最优配置可能因模型深度、隐层维度等因素而异;研究专注于解码器类型语言模型,其在视觉、扩散等其他领域的应用尚需验证。尽管如此,这项研究通过重新审视并修正一个被长期忽视的设计假设,为语言模型架构优化提供了新思路,展示了“重新分配”而非“堆料”提升性能的可能性。
对于普通用户而言,这项研究意味着未来AI助手的交互质量可能进一步提升:在相同硬件成本下,工程师可设计出性能更优的模型,或在达到相同性能目标时减少资源消耗。这一思路在算力成本高企、能源消耗备受关注的当下,具有显著的现实意义。该研究的完整技术细节已发布在预印本平台arXiv,论文编号为arXiv:2606.23670v1。






