滚动资讯

当前位置：网界 > 行业动态 > 正文内容

清华大学研究：AI大模型“取巧”真相，全注意力层才是长文本关键

时间：2026-06-20 02:03 作者：鞭牛士

清华大学与OpenBMB联合团队在人工智能长文本处理领域取得突破性进展，相关研究成果已发表于学术平台arXiv（编号2606.15378）。该研究通过系统性实验，首次揭示了混合注意力架构中不同组件对模型长文本能力的差异化影响，为优化大语言模型架构设计提供了全新视角。

当前主流大模型普遍采用混合注意力架构，通过交替叠加全注意力层与高效注意力层来平衡计算效率与处理能力。研究团队构建了包含1500万至6.6亿参数的五个规模模型，系统比较了纯全注意力模型、三种滑动窗口注意力模型（窗口大小分别为128、512、2048）及三种循环序列混合模型（Lightning、Mamba-2、GDN）的性能表现。实验采用验证集损失和log(LongPPL)两项连续指标，分别衡量短文本建模质量与长文本处理能力。

实验数据显示，在短文本处理任务中，七种架构的验证集损失曲线几乎完全重合，表明高效注意力设计对基础文本理解能力影响微弱。但在长文本场景下，不同架构表现出显著差异：训练初期，2048窗口大小的滑动窗口模型（SWA-2048）的log(LongPPL)指标较其他架构高出30%以上，显示其长文本处理能力明显滞后。随着训练数据量增加，这种差距逐渐缩小，最终所有架构的长文本性能趋于接近全注意力模型水平。

进一步探究发现，全注意力层才是长文本理解能力的核心载体。研究团队通过"受限实验"证实，当限制全注意力层的记忆范围时，模型长文本处理能力急剧下降；而限制高效注意力层记忆范围时，性能变化可忽略不计。逐层探针实验也显示，长距离信息仅在全注意力层出现时显著增加，高效注意力层对此贡献甚微。这种特性在循环序列模型中同样存在——尽管理论上具备无限记忆能力，但其循环状态中实际存储的长距离信息量不足全注意力层的1/5。

研究揭示了"大窗口懒惰症"这一反直觉现象：过大的滑动窗口（如2048）使模型过度依赖局部信息，导致全注意力层中负责长距离检索的"检索头"发展迟缓。实验表明，SWA-2048模型的检索头注意力熵持续高于其他架构，Q/K参数收敛速度慢40%以上。相比之下，128窗口模型迫使全注意力层更早承担长距离检索任务，其检索头在训练初期即表现出更强的学习活性。

基于机制发现，研究团队提出优化方案：在全注意力层移除旋转位置编码（RoPE），改用无位置编码（NoPE）设计。实验显示，采用SWA-128-NoPE架构的模型在16K上下文长度的RULER基准测试中得分52.88，较基础版本提升14.6%；在LongBench测试中得分19.02，提升8.6%。更关键的是，这种改进未影响短文本性能，19项短文本基准平均分甚至略有提升。进一步在32K长度上扩展训练后，该模型在NIAH子任务中得分70.42，超越全注意力模型7.8个百分点。

研究同时指出当前工作的局限性：实验最大模型规模为6.6亿参数，训练数据量约1000亿词，与工业级模型存在数量级差距；未涵盖RWKV-7等新型高效注意力机制；架构优化探索更多属于机制验证而非系统性设计。团队建议后续研究应重点关注更大规模模型的训练动态，以及不同长文本扩展训练策略对混合架构的影响。

这项研究修正了业界对混合注意力架构的认知偏差：提升长文本能力的关键不在于增强高效注意力模块，而在于优化全注意力层的长距离检索能力发展路径。其提出的NoPE设计等优化方案，为开发更高效的长文本处理模型提供了可立即应用的解决方案。完整研究细节可通过arXiv编号2606.15378查阅。

更多>同类内容

Layer 6 AI新突破：破解大模型训练“崩溃”困局，让学习更稳健

06-20

7B小模型“循环思考”显神通：代码任务中力压数百亿参数大模型

06-20

香港中文大学等团队突破创新：机器人借人类视频“解锁”高效学习新路径

06-20

南洋理工频谱强制技术：为AI图像生成精准“导航” 聚焦有效信号

06-20

中央大学与Adobe Research创新AI图像修复：高清参考图助力告别生成失真

06-20

英伟达新突破：ZPPO方法助力AI小模型高效学习，效果显著提升

06-20

AI造游戏能力大揭秘：顶尖模型挑战完整开发，最高仅获四成成绩

06-20

基于宇树G1改装的人形机器人 Pemba 登顶火山未来剑指珠峰开展多项任务

06-20

SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程

06-20

摩尔线程2026移动云大会展实力，全栈算力助力Token生态与智算发展

06-20

摩尔线程MTT S5000实现MiniMax M2.7 Day-0适配国产GPU加速AI创新落地

06-20

呼兰支招AI时代：摆脱焦虑，投身具体事务成就超级个体之路

06-20

七鳃鳗全脑三维图谱绘就为脊椎动物脑演化研究打开新窗口

06-20

硅基“登山者”破界：人形机器人登顶钦博拉索，珠峰挑战在望？

06-20

短剧圈疯狂刷屏！本能工作室突然发疯派发上千份端午礼盒

06-20

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

沃尔玛蝉联榜首零食量贩崛起区域零售突围：中国零售格局深度重构

青海电商降本增效秘籍：5个获客软件实用技巧助力精准获客

端午北京：老字号守正创新新潮粽抢占市场粽香撬动夏日消费热潮

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号