稀疏性 - 财报，业绩电话会，研报，新闻

稀疏性

搜索文档

DeepSeek：基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术，2026报告

欧米伽未来研究所2025· 2026-01-15 08:29

文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构，通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度，旨在解决当前Transformer架构缺乏原生知识查找原语的问题，从而在提升模型推理能力的同时，打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务，现有Transformer通过昂贵的运行时计算来重建静态查找表，浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念，通过对文本后缀进行哈希映射，以O(1)时间复杂度直接检索静态嵌入向量，相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦，通过在浅层网络直接检索静态知识，将主干网络解放出来以处理复杂的全局上下文和逻辑推理，从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”，在固定总参数和训练计算量下，MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块，能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数（27B）的Engram模型，在同等参数量和激活开销下，相比纯MoE-27B基线模型，在多项任务上取得全面超越：MMLU（+3.4）、CMMLU（+4.0）、通用推理BBH（+5.0）、代码生成HumanEval（+3.0）、数学解题MATH（+2.4） [4] - 在长文本处理上，Engram-27B在“大海捞针”等多查询检索任务中，准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的，允许系统在计算前一层网络时，异步地从主机内存（CPU RAM）中预取所需嵌入向量，实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下，将一个1000亿参数（100B）规模的Engram表完全卸载到主机内存，仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次，将高频知识保留在GPU显存，将长尾低频知识放入海量的CPU内存或SSD，为在有限硬件资源下部署超大规模模型开辟新路径，对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”（MoE）迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置，为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]

DeepSeek论文披露全新模型机制，SSD等存储需求有望再进一步，龙头还发布炸裂业绩

选股宝· 2026-01-14 07:24

论文技术要点 - DeepSeek发布新论文提出“条件内存”作为大语言模型稀疏性的新维度 [1] - 论文通过引入Engram模块实现条件记忆该模块类似“字典”功能 [1] - 现有Transformer架构缺乏原生知识查找机制需通过昂贵计算模拟检索浪费模型深度 [1] - 条件记忆与MoE（混合专家模型）的条件计算形成互补 [1] - Engram模块在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [1] Engram模块技术细节 - Engram模块是一个巨大的、可扩展的嵌入表 [2] - 其功能是给Transformer增加一个外接记忆库 [2] - 模块将当前token附近的一小段内容以快速、省参数的方式在超大的静态记忆表中查找对应内容 [2] - 采用分层存储设计将高频访问的嵌入缓存于更快的存储介质中（如GPU HBM或主机DRAM） [2] - 将大量低频的长尾模式存放在容量更大但速度较慢的存储介质中（如SSD） [2] - 分层设计使Engram能够扩展到极大规模的记忆容量同时将有效访问延迟的影响保持在最低水平 [2] 存储行业展望 - 未来2年NAND行业资本开支可能有限头部厂商在扩产方面可能保持相对克制的水平 [2] - 三星、美光与SK海力士的资本开支有望持续向HBM倾斜而非NAND [2] - 未来AI应用有望推动SSD用量保持高速增长态势 [2] - 叠加全行业资本开支可能有限 NAND与SSD供不应求有望持续迎来较长的景气周期 [2] 相关公司动态 - 佰维存储预告年报净利润8.5亿元-10亿元同比增长427.19%-520.22% [2] - 江波龙已推出多款高速企业级eSSD产品覆盖480GB至7.68TB的主流容量范围 [3]

打破显存墙：谢赛宁团队提出CLM，单卡RTX 4090「撬动」1亿高斯点

机器之心· 2025-11-11 16:40

3D Gaussian Splatting (3DGS) 技术概述 - 3DGS是一种新视角合成方法，通过迭代训练由大量各向异性3D高斯体组成的场景表示，以捕捉场景的外观和几何形状 [2] - 与其他方法相比，3DGS具有更快的渲染速度，同时能保持相当的图像质量，因此在3D建模、数字孪生、影视制作、VR/AR和机器人视觉重建等领域展现出革命性应用潜力 [4][5] - 3DGS渲染的图像质量取决于场景表示的保真度，处理大面积或复杂场景需要更多高斯体，导致内存占用随场景大小、复杂性或输出图像分辨率增加而增长 [5] CLM系统的技术创新 - CLM系统由谢赛宁团队提出，旨在解决3DGS在扩展应用时GPU显存容量不足的障碍，允许使用单块消费级GPU（如RTX 4090）渲染大型场景 [6][8] - 系统的设计基于3DGS计算本质上是稀疏的洞察，即每次训练迭代只访问场景高斯体的一个小子集，因此只需将该子集加载到GPU内存，而将其余高斯体卸载到CPU内存 [8][11] - 评估表明，该实现可以在单个RTX 4090上渲染需要1.02亿个高斯体的大型场景，并达到顶尖水平的重建质量，与没有卸载的基线系统相比仅产生适度的性能开销 [8][9] 基于稀疏性的卸载策略 - 3DGS的计算过程具有高度稀疏性，在渲染时只有位于相机视锥体内的高斯点才对最终图像产生贡献，在大场景中单个视角访问的高斯点数量占比通常不到1% [12][14] - 团队利用这种稀疏性，通过视锥剔除逻辑提前识别每个视角所需的高斯点子集，并仅将这些必要的高斯点传输至GPU，从而显著降低内存占用与数据传输量 [12][15] - 在最大的数据集上，每个视角平均只访问了0.39%的高斯点，单个视角访问的高斯点数量上限为1.06% [23] 空间局部性优化 - 不同视角的稀疏模式虽不同但存在重叠，其交集的高斯点数与视角之间的空间位置和角度相似度密切相关 [16] - 团队利用这种空间局部性来优化CPU与GPU之间的数据传输，通过合理安排训练迭代顺序以最大化重叠访问并最小化总体通信量 [13][17] - 通过microbatch调度优化，提前计算每个微批次的稀疏模式并合理安排处理顺序，使得相邻批次之间的访问模式尽可能重叠，从而提高缓存命中率 [24] 系统设计与性能 - CLM的核心思路是通过将高斯参数和部分优化器计算卸载到CPU端来扩展有效的GPU显存容量，同时基于3DGS稀疏性和空间局部性观察结果最大限度减少通信开销 [20][25] - 系统采用流水线执行，使得通信与计算能够重叠进行，例如加载微批次i的视锥高斯时与微批次i-1的GPU反向计算重叠，传输微批次i的梯度时与微批次i+1的GPU前向计算重叠 [25][28] - CLM使得3DGS的可训练模型规模相比纯GPU训练基线提升了最高6.1倍，能够训练更大模型从而提升场景重建精度，并实现更低的通信与卸载开销 [27]