科技·商业·财经

DeepSeek与字节跳动:残差流创新路上接力前行 共拓AI新路径

   时间:2026-01-15 13:00 作者:冯璃月

中国AI领域再次迎来突破性进展。DeepSeek团队近日在神经网络架构领域取得重要创新,提出名为"流形约束超连接"(manifold-constrained HyperConnection,简称mHC)的新型架构,为解决大规模模型训练中的稳定性难题提供了全新方案。这项成果以通讯作者梁文锋为代表的研究团队,通过数学约束与系统优化的双重创新,在硬件受限条件下实现了性能与效率的平衡。

残差连接自2016年ResNet架构提出以来,已成为深度学习模型的基石设计。其通过"捷径连接"机制有效缓解梯度消失问题,支撑起现代深度学习模型的深度发展。然而随着模型规模扩大,传统残差连接在信号传播稳定性方面逐渐显现局限。2024年字节跳动推出的超连接(HyperConnection)技术虽通过拓宽残差流提升了模型表达能力,却在规模化训练中暴露出信号发散的致命缺陷。

DeepSeek的研究直指这一核心矛盾。测试数据显示,在270亿参数模型训练中,传统超连接架构在12000步训练后出现梯度范数剧烈波动,第60层信号强度竟膨胀至输入值的3000倍。研究团队发现,问题根源在于超连接架构为追求表达能力,放弃了残差连接原有的恒等映射约束,这种设计在小规模模型中可通过调参掩盖,但在大规模训练中会导致灾难性后果。

mHC架构的创新性在于引入双重随机矩阵的流形约束。这种数学工具要求变换矩阵每行每列元素之和均为1且非负,形成严格的"信号预算"机制。通过将输出信号强度限制在输入信号的最大最小值之间,从根本上杜绝了信号爆炸的可能性。更关键的是,双重随机矩阵的组合不变性确保多层叠加后仍保持稳定,实验显示相同场景下信号放大峰值被控制在1.6倍以内。

为控制计算开销,研究团队采用Sinkhorn-Knopp迭代算法进行矩阵投影,仅需20轮迭代即可收敛,将额外训练成本压制在6.7%以内。这种数学创新与工程实现的完美结合,使mHC架构在保持理论优势的同时具备实际可行性。配合基于TileLang开发的混合精度内核(以bfloat16为主,float32保障关键精度),实现了全参数规模下的稳定性能提升。

硬件约束倒逼出的创新不止于算法层面。针对超连接架构带来的数据读写量倍增问题,DeepSeek实施了三项系统级优化:通过算子融合减少数据搬运,采用反向传播重计算以计算换内存,以及流水线并行优化掩盖通信延迟。这些措施将内存开销从随层数线性增长转化为可由模块大小控制的有界开销,使30亿至270亿参数模型均能稳定运行。

性能测试数据印证了创新价值。搭载mHC架构的270亿参数模型在BIG-Bench Hard复杂推理任务上提升2.1%,在DROP阅读理解任务上提升2.3%。这种全参数规模的性能提升,打破了"规模越大性能越好"的简单认知,展示了架构创新带来的质变效应。

值得关注的是,DeepSeek选择通过arXiv、Hugging Face等开放平台发布成果,这种策略虽牺牲部分学术声望,却换来了技术传播的速度与广度。当mHC的性能增益可量化、实现可复现时,全球AI实验室不得不重新评估自身技术路径——要么跟进类似创新,要么证明现有方案的优越性。这种开放竞争模式,正在重塑AI技术发展的生态格局。

此前R1模型的发布已引发推理模型研发热潮,mHC架构的推出很可能推动残差流优化进入新阶段。字节跳动与DeepSeek的接力创新形成有趣对照:前者率先探路却受阻于规模化瓶颈,后者在硬件约束下通过数学与系统的双重创新架起技术桥梁。这种发展轨迹清晰证明,硬件限制非但不是创新障碍,反而能催生更具本质性的突破。

随着2026年春节临近,业界普遍预期DeepSeek即将发布搭载mHC架构的下一代旗舰模型R2。无论基准测试结果如何,这条"在约束中创新"的路径已具有里程碑意义——它向全球展示,AI竞赛不只有"烧钱堆算力"的单选项,数学创新与系统优化同样能开辟通向巅峰的道路。

 
 
更多>同类内容
全站最新
热门内容