DeepSeek新突破:Engram模块破解Transformer记忆难题,V4架构或迎跃迁

   时间:2026-01-14 03:45 来源:快讯作者:柳晴雪

近日,DeepSeek团队联合北京大学发布了一项突破性研究,提出了一种名为Engram的创新模块,旨在解决Transformer架构中长期存在的记忆瓶颈问题。该研究通过引入条件记忆机制,使模型在保持计算效率的同时显著提升了知识存储与检索能力,为大语言模型(LLM)的发展开辟了新路径。

当前主流的稀疏模型架构,如混合专家模型(MoE),虽通过条件计算降低了计算成本,但仍依赖大量参数模拟知识检索过程,导致效率低下。研究团队指出,Transformer缺乏原生知识查找机制,使得许多本应通过简单检索完成的任务被迫依赖复杂计算,既浪费资源又限制性能。针对这一问题,Engram模块通过将静态模式存储与动态计算分离,为模型提供了近似O(1)复杂度的确定性知识查找能力。

Engram的核心设计包含两大关键组件:基于哈希N-gram的稀疏检索机制和上下文感知门控系统。前者通过分词器压缩和确定性哈希函数,将局部上下文映射至预存储的记忆条目;后者则利用动态查询与记忆嵌入的交互,解决哈希冲突和多义词干扰问题。实验表明,该模块在实体识别、固定短语匹配等任务中表现出高度选择性激活,且行为可跨语言泛化。

研究团队通过系统实验验证了Engram与MoE的互补性。他们发现,当模型总参数固定时,合理分配MoE计算资源与Engram记忆容量存在最优比例,形成独特的"U型扩展法则"。在270亿参数规模下,Engram架构模型在严格等参数、等计算量条件下,较纯MoE基线在知识密集型任务(MMLU、CMMLU)中提升达4%,在推理、代码和数学任务(BBH、Humaneval、GSM8K)中提升更显著,最高达5%。

长上下文处理能力是Engram的另一重要优势。通过将局部依赖建模任务卸载至静态查找模块,模型得以保留更多注意力资源处理全局信息。在32K上下文窗口的实验中,Engram架构模型在长程检索和推理任务上展现出显著优势,尤其在等损失和等计算量设定下,性能全面超越MoE基线,甚至在仅使用82%计算量的极端设定下仍保持竞争力。

该研究的工程价值同样突出。Engram的确定性检索机制支持参数存储与计算资源的解耦,为模型优化提供了新思路。训练阶段可采用标准模型并行策略处理大规模嵌入表;推理阶段则可通过预取和重叠策略提升效率。这种设计使得模型在扩展内存容量时无需增加计算成本,为构建更大参数、更高吞吐的LLM提供了可行路径。

据悉,该研究主要由北京大学博士生Xin Cheng领衔完成。作为自然语言处理领域的新锐研究者,Xin Cheng已在NeurIPS、ACL等顶级会议发表多篇一作论文,专注于大语言模型与检索增强生成技术研究。此次提出的Engram架构,已被业界视为稀疏模型发展的重要里程碑,有望在下一代模型中得到广泛应用。

 
 
更多>同类内容
全站最新
热门内容