科技·商业·财经

梁文锋再署名!DeepSeek开源Engram架构 或成V4模型核心技术支撑

   时间:2026-01-13 12:13 作者:沈如风

近日,人工智能领域迎来一项重要技术突破。DeepSeek开源了全新架构模块「Engram」,并同步发表了相关技术论文,署名作者中包括知名研究者梁文锋。这一创新模块为大模型引入了可扩展的查找式记忆结构,开辟了区别于传统Transformer与MoE架构的全新稀疏性维度,引发业界广泛关注。

当前主流大模型在处理特定任务时普遍存在效率瓶颈。论文指出,无论是依赖固定知识的"查表式"记忆任务,还是需要复杂推理的组合计算任务,传统Transformer架构(包括Dense和MoE变体)都需要通过多层注意力机制和MLP网络重建静态模式。这种重复性操作导致大量计算资源被消耗在已知模式的重构上,而非真正需要处理的复杂逻辑。

Engram模块的核心创新在于构建了基于现代化哈希N-Gram嵌入的O(1)时间复杂度查找系统。该系统首先将输入Token序列进行N-Gram切片处理,随后通过多头哈希映射技术将这些片段存储到可扩展的静态记忆表中。这种设计使得无论记忆表规模如何增长(即使达到百亿级参数),检索操作都能保持恒定的计算成本,从根本上解决了传统架构的扩展性难题。

与传统MoE架构的条件计算机制不同,Engram实现了真正的"条件记忆"功能。模块通过分析当前上下文的隐向量特征,动态决定是否激活查找结果,并利用门控机制将检索到的信息与主干网络进行有机融合。这种设计既保证了记忆检索的精准性,又避免了无关信息的干扰,显著提升了模型对复杂场景的适应能力。

实验数据显示,在270亿参数规模的模型测试中,研究人员将部分MoE专家参数重新分配给Engram记忆表后,在保持总参数和计算量不变的情况下,模型在知识记忆、逻辑推理、代码生成和数学计算等关键指标上均取得显著提升。特别值得注意的是,Engram模块通常被部署在模型早期层,专门承担静态模式重建任务,从而为后续网络层释放出更多计算资源用于深度推理。

技术社区对这项创新给予高度评价。开发者指出,Engram架构有效解决了大规模静态记忆与GPU存储容量之间的矛盾,通过确定性寻址技术实现了主机内存预取功能,在推理阶段保持极低的额外开销。有观察者推测,这项技术很可能成为DeepSeek下一代"V4"模型的核心组件,为人工智能大模型的发展开辟新的技术路径。

 
 
更多>同类内容
全站最新
热门内容