稀疏性
搜索文档
DeepSeek:基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术,2026报告
欧米伽未来研究所2025· 2026-01-15 08:29
文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构,通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度,旨在解决当前Transformer架构缺乏原生知识查找原语的问题,从而在提升模型推理能力的同时,打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务,现有Transformer通过昂贵的运行时计算来重建静态查找表,浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念,通过对文本后缀进行哈希映射,以O(1)时间复杂度直接检索静态嵌入向量,相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦,通过在浅层网络直接检索静态知识,将主干网络解放出来以处理复杂的全局上下文和逻辑推理,从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”,在固定总参数和训练计算量下,MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块,能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数(27B)的Engram模型,在同等参数量和激活开销下,相比纯MoE-27B基线模型,在多项任务上取得全面超越:MMLU(+3.4)、CMMLU(+4.0)、通用推理BBH(+5.0)、代码生成HumanEval(+3.0)、数学解题MATH(+2.4) [4] - 在长文本处理上,Engram-27B在“大海捞针”等多查询检索任务中,准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的,允许系统在计算前一层网络时,异步地从主机内存(CPU RAM)中预取所需嵌入向量,实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下,将一个1000亿参数(100B)规模的Engram表完全卸载到主机内存,仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次,将高频知识保留在GPU显存,将长尾低频知识放入海量的CPU内存或SSD,为在有限硬件资源下部署超大规模模型开辟新路径,对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”(MoE)迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置,为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]
DeepSeek论文披露全新模型机制,SSD等存储需求有望再进一步,龙头还发布炸裂业绩
选股宝· 2026-01-14 07:24
论文技术要点 - DeepSeek发布新论文提出“条件内存”作为大语言模型稀疏性的新维度 [1] - 论文通过引入Engram模块实现条件记忆 该模块类似“字典”功能 [1] - 现有Transformer架构缺乏原生知识查找机制 需通过昂贵计算模拟检索 浪费模型深度 [1] - 条件记忆与MoE(混合专家模型)的条件计算形成互补 [1] - Engram模块在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [1] Engram模块技术细节 - Engram模块是一个巨大的、可扩展的嵌入表 [2] - 其功能是给Transformer增加一个外接记忆库 [2] - 模块将当前token附近的一小段内容 以快速、省参数的方式在超大的静态记忆表中查找对应内容 [2] - 采用分层存储设计 将高频访问的嵌入缓存于更快的存储介质中(如GPU HBM或主机DRAM) [2] - 将大量低频的长尾模式存放在容量更大但速度较慢的存储介质中(如SSD) [2] - 分层设计使Engram能够扩展到极大规模的记忆容量 同时将有效访问延迟的影响保持在最低水平 [2] 存储行业展望 - 未来2年NAND行业资本开支可能有限 头部厂商在扩产方面可能保持相对克制的水平 [2] - 三星、美光与SK海力士的资本开支有望持续向HBM倾斜而非NAND [2] - 未来AI应用有望推动SSD用量保持高速增长态势 [2] - 叠加全行业资本开支可能有限 NAND与SSD供不应求有望持续 迎来较长的景气周期 [2] 相关公司动态 - 佰维存储预告年报净利润8.5亿元-10亿元 同比增长427.19%-520.22% [2] - 江波龙已推出多款高速企业级eSSD产品 覆盖480GB至7.68TB的主流容量范围 [3]
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
机器之心· 2025-11-11 16:40
3D Gaussian Splatting (3DGS) 技术概述 - 3DGS是一种新视角合成方法,通过迭代训练由大量各向异性3D高斯体组成的场景表示,以捕捉场景的外观和几何形状 [2] - 与其他方法相比,3DGS具有更快的渲染速度,同时能保持相当的图像质量,因此在3D建模、数字孪生、影视制作、VR/AR和机器人视觉重建等领域展现出革命性应用潜力 [4][5] - 3DGS渲染的图像质量取决于场景表示的保真度,处理大面积或复杂场景需要更多高斯体,导致内存占用随场景大小、复杂性或输出图像分辨率增加而增长 [5] CLM系统的技术创新 - CLM系统由谢赛宁团队提出,旨在解决3DGS在扩展应用时GPU显存容量不足的障碍,允许使用单块消费级GPU(如RTX 4090)渲染大型场景 [6][8] - 系统的设计基于3DGS计算本质上是稀疏的洞察,即每次训练迭代只访问场景高斯体的一个小子集,因此只需将该子集加载到GPU内存,而将其余高斯体卸载到CPU内存 [8][11] - 评估表明,该实现可以在单个RTX 4090上渲染需要1.02亿个高斯体的大型场景,并达到顶尖水平的重建质量,与没有卸载的基线系统相比仅产生适度的性能开销 [8][9] 基于稀疏性的卸载策略 - 3DGS的计算过程具有高度稀疏性,在渲染时只有位于相机视锥体内的高斯点才对最终图像产生贡献,在大场景中单个视角访问的高斯点数量占比通常不到1% [12][14] - 团队利用这种稀疏性,通过视锥剔除逻辑提前识别每个视角所需的高斯点子集,并仅将这些必要的高斯点传输至GPU,从而显著降低内存占用与数据传输量 [12][15] - 在最大的数据集上,每个视角平均只访问了0.39%的高斯点,单个视角访问的高斯点数量上限为1.06% [23] 空间局部性优化 - 不同视角的稀疏模式虽不同但存在重叠,其交集的高斯点数与视角之间的空间位置和角度相似度密切相关 [16] - 团队利用这种空间局部性来优化CPU与GPU之间的数据传输,通过合理安排训练迭代顺序以最大化重叠访问并最小化总体通信量 [13][17] - 通过microbatch调度优化,提前计算每个微批次的稀疏模式并合理安排处理顺序,使得相邻批次之间的访问模式尽可能重叠,从而提高缓存命中率 [24] 系统设计与性能 - CLM的核心思路是通过将高斯参数和部分优化器计算卸载到CPU端来扩展有效的GPU显存容量,同时基于3DGS稀疏性和空间局部性观察结果最大限度减少通信开销 [20][25] - 系统采用流水线执行,使得通信与计算能够重叠进行,例如加载微批次i的视锥高斯时与微批次i-1的GPU反向计算重叠,传输微批次i的梯度时与微批次i+1的GPU前向计算重叠 [25][28] - CLM使得3DGS的可训练模型规模相比纯GPU训练基线提升了最高6.1倍,能够训练更大模型从而提升场景重建精度,并实现更低的通信与卸载开销 [27]