DeepSeek Engram - 为 LLM 添加第二大脑的条件记忆架构

Summary

DeepSeek 的 Engram 架构将常见 N gram Lookup 模式存储在查找表中，而非通过神经层计算，对频繁序列实现 O(1) 检索复杂度。架构包含四大组件：Tokenizer 压缩（减少 23% 词汇量）、Multi Head Hashing（并行哈希表缓解碰撞）、Context Aware Gating（动态判断何时使用查找表 vs 神经计算）和多分支集成（不同 N-gram 尺寸独立处理后卷积合并）。Engram-27B 在 NIAH 长上下文检索任务上提升 +12.8，最优分配策略为将约 20%-25% 的稀疏参数预算分配给 Engram。

Key Concepts

Engram - 条件记忆架构，将 N-gram 模式存储在查找表中
N gram Lookup - O(1) 复杂度的频繁序列检索
Multi Head Hashing - K 个不同哈希头并行缓解碰撞
Context Aware Gating - 动态判断查找表可信度 vs 神经计算
LLM Architecture - 大语言模型架构设计

Detailed Content

四大架构组件

Tokenizer 压缩：通过语义合并冗余 token，有效词汇量减少 23%
Multi Head Hashing：对每个 N-gram 阶使用 K 个哈希头，并行哈希表缓解碰撞
Context Aware Gating：用隐藏状态作为动态查询，判断 N gram Lookup 何时可信
多分支集成：不同 N-gram 尺寸保持独立处理路径，通过学习的卷积合并输出

性能提升（Engram-27B）

任务	提升
MMLU（知识）	+3.0
CMMLU	+4.0
BBH（推理）	+5.0
DROP	+3.3
NIAH（长上下文检索）	+12.8

系统设计

训练：嵌入表跨 GPU 分片，5x 学习率缩放
推理：确定性 ID 实现运行时预取，100B 参数卸载到 CPU 内存仅 <3% 开销

最优分配策略

U 形缩放规律：约 20%-25% 的稀疏参数预算分配给 Engram 效果最佳，该比例跨模型尺寸保持稳定。

Scaling Laws
Sparse Models
DeepSeek
Mixture of Experts

Summary​

Key Concepts​

Detailed Content​

四大架构组件​

性能提升（Engram-27B）​

系统设计​

最优分配策略​

Related Topics​