过去十年,人工智能(AI)领域的创新似乎遵循着一条简单公式:增加参数数量、扩大数据规模、提升算力水平。然而,随着行业进入新的发展阶段,这种模式是否还能持续引领进步,已成为学界和产业界共同关注的焦点。当"算力决定一切"的信念逐渐渗透到整个领域的研究文化中,学术界因资源匮乏被边缘化、研究参与地域高度集中、资本投入导致发表传统封闭化等问题日益凸显。
前谷歌大脑研究员、Cohere前AI研究负责人Sara Hooker近期发表文章指出,深度神经网络领域持续扩展训练计算资源的效率正在急剧下降。当前模型训练中,大量资源被用于学习低频特征的长尾部分,而所有迹象表明,这种投入已进入收益递减阶段。在模型规模增长速度放缓的背景下,如何让模型从环境中有效学习并适应新知识,成为比单纯扩大规模更关键的问题。
一个值得关注的现象是,近年来多个领域出现小模型性能超越大型模型的案例。这种逆转趋势表明,模型规模与性能之间的关系正在发生根本性转变。研究发现,训练后的模型可以删除大量权重而不显著影响性能,但若在训练初期就限制权重数量,则无法达到同等效果。这种矛盾现象反映出深度学习技术本身存在效率问题——或许存在更优的学习方法,能够摆脱对庞大网络规模的依赖。
深度神经网络在学习效率方面存在显著缺陷:它们能快速掌握常见特征,却需要消耗大量算力来学习罕见特征。由于训练过程基于平均误差最小化原则,低频特征的信号在批量更新中被稀释,导致现实世界中大量低频属性的学习变得异常困难。人类智能能够高效处理这类长尾数据,而当前深度学习技术在这方面表现欠佳,大量计算资源被浪费在记忆长尾数据上。
数据质量对计算资源依赖度的降低作用正在显现。研究表明,通过去重、数据修剪和优先级排序等手段改进训练语料库,可以弥补模型规模的不足。这意味着可学习参数数量并非性能提升的绝对限制因素,提高数据质量能够减少对计算资源的需求。同时,指令微调、模型蒸馏、思维链推理、检索增强生成等新型算法技术,正在通过优化训练方式弥补计算量的不足,使相同资源能够产生更显著的效益。
模型架构设计对可扩展性的影响不容忽视。新架构的引入能够从根本上改变计算量与性能之间的关系,使现有的扩展规律失去意义。当前流行的Scaling Law(扩展定律)虽然对预训练测试损失预测有一定价值,但在真实下游任务中的表现往往混乱且不一致。这种理论局限性的根源在于,它试图用算力规模精确预测复杂系统的未来表现,而现实中的能力提升曲线常不符合幂律分布,不同领域的可靠性差异巨大。
行业正在经历方向性转变:一方面,短期内仍会继续扩大模型规模以榨取现有架构的剩余性能;另一方面,算力与性能的关系已变得难以预测,单纯依赖算力的路径正逐渐失去稳定性。前沿实验室开始将研究重心转向优化空间的根本性重塑,包括在推理阶段投入更多计算资源、通过搜索和工具调用提升表现、利用合成数据塑造训练分布等新方向。这些方法大多不依赖梯度更新,彻底偏离了以训练为中心的传统路径。
智能系统的发展重心正在从"更强模型"转向"更善互动的系统"。算法本身不再是唯一关键,交互方式、界面设计和多组件协同正在成为决定智能上限的重要因素。曾经属于人机交互领域的小众问题,如今已上升为计算机科学研究的核心议题。这种转变标志着AI发展进入新阶段,需要同时优化算法、数据和系统架构等多个维度。
现有以Transformer为核心的架构已显现明显的边际收益递减特征。随着模型开始持续与世界互动,如何避免灾难性遗忘成为关键挑战,而依赖全局参数更新的深度网络在持续学习方面存在先天局限。越来越多的迹象表明,下一次真正的技术跃迁需要全新的架构设计,能够形成相对独立、可专门化的知识区域,更接近人类大脑的学习方式。这种架构革新将成为突破当前发展瓶颈的关键所在。







