Engram - 财报，业绩电话会，研报，新闻

Engram

搜索文档

中金· 2026-02-24 22:20

报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出，大模型的演进史是与“遗忘”抗争的历史，当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为，2026年及之后的AI基础设施主战场将增加“模型记忆”这一极，AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级，并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结模型记忆重构下的存储范式与软硬件红利 * 报告提出，模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级，并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”，其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索，硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石，对应“温数据”，软件技术包括GraphRAG与MemoryOS等，硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化，报告归纳了内隐参数、外显语义、参数化查表三条实现路径，将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统：训练、推理、Agent * 在AI基础设施体系中，数据流转围绕训练、推理与Agent运行三个核心阶段，构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心，本质是将海量语料固化为模型参数，工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导，核心瓶颈在于KV Cache对HBM容量的挤占，若启用检索增强或Agent能力，还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越，中期记忆跃升为系统智能的连续性载体，其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆：即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”，其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战：1）KV Cache显存占用随上下文长度线性增长，传统内存管理技术导致显存浪费率高达**60-80%** [31][32]；2）预填充与解码阶段存在算力权衡，混合部署会导致资源争抢 [39]；3）Agent场景下缺乏高效记忆管理，导致重复计算和资源浪费 [39] * 软件解法包括：1）单卡显存虚拟化，如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43]；2）PD分离优化集群算力调度；3）模型架构前沿探索，如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类：1）HBM用以承接KV Cache膨胀；2）片上SRAM负责处理瞬时状态；3）NVLink等互连技术编织分散的显存资源池 [50] 中期记忆：AI Agent的基石 * 中期记忆承载Agent的情景连续性，旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战：1）存储环节，SSD随机读取延迟是DRAM的**1000倍** [63]；2）检索环节，易导致“上下文污染” [63]；3）更新和遗忘环节，低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势：1）向量RAG是基础方案；2）分层RAG通过构建递归摘要树提升连贯性；3）GraphRAG引入知识图谱，在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力，在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类：1）大容量DRAM常驻热点索引与图谱拓扑；2）企业级NVMe SSD存储海量原始切片与高精度索引；3）CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆：知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制，实现知识的持续积累，模型训练与推理的界限正在模糊 [5][86] * 路线一（内隐参数）：通过微调或训练将知识固化进模型参数，如Google Titans的测试时训练机制 [91][95] * 路线二（外显语义）：将多次会话沉淀的结构化信息存储为可查阅的“百科全书”，催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三（参数化查表）：如DeepSeek Engram架构，将静态知识以内嵌参数表形式保留，通过确定性稀疏查找在推理期按需调用，允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异：内隐参数路径要求推理芯片具备训练能力并抬升HBM需求；外显语义路径是重存储架构，催生企业级SSD、CXL内存池及高性能CPU需求；参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]

人工智能

模型记忆

大语言模型

Artificial Intelligence

Artificial Intelligence

Google Titans

Google MIRAS

DeepSeek论文发表16天后，国内团队已经写出了模型的「生物字典」

机器之心· 2026-01-31 12:10

文章核心观点 - 文章介绍了一项名为Gengram（Genomic Engram）的创新技术模块，该模块将DeepSeek的Engram（条件记忆）思想应用于基因组学领域，通过为模型配备一个可查询的“外挂记忆库”来存储已知的DNA功能片段，从而显著提升了基因组基础模型的性能、效率和可解释性，并可能为构建新一代科学AI模型提供新的范式[4][30] 技术原理与创新 - **核心逻辑**：Gengram的核心逻辑是将“静态的Motif识别”与“动态的上下文推理”进行解耦处理，预先构建一个可微分的哈希表，存储所有长度为1到6的DNA片段（k-mer）对应的语义向量，相当于一本《基因组学实用短语手册》[11] - **动态门控**：模型引入了动态门控机制，可以结合上下文自主决定何时“查字典”，在关键区域（如外显子、启动子）激活检索，在非编码背景区域关闭检索以优化资源[12][13] - **效率优势**：由于DNA字符集极小（仅A/T/C/G/N），Gengram查表速度极快，几乎不增加计算开销[11] 性能表现与数据 - **模块规模**：Gengram是一个仅约2000万参数的轻量化插件[15] - **性能提升**：在8k和32k上下文版本的模型中，应用Gengram的模型在几乎所有任务中领先[16] - 剪接位点预测AUC提升了16.1%（从0.776到0.901）[17] - 表观遗传预测任务（H3K36me3）AUC提升了22.6%（从0.656到0.804）[17] - **数据杠杆效应**：集成Gengram的模型仅需极小规模的训练数据和较小的激活参数量，便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型[18] - **架构通用性**：Gengram能跨越Dense与MoE等不同模型架构实现无缝部署，有效降低训练损失并加速收敛，并改善了MoE架构中的专家负载均衡问题[19] 对生物物理规律的理解 - **窗口大小发现**：在测试局部聚合窗口大小时，性能在窗口大小设置为21bp时达到峰值[23] - **原理对应**：21个碱基正好对应DNA双螺旋两个完整的旋转周期（每10.5个碱基旋转一圈），这意味着相隔21bp的碱基在物理空间上位于螺旋同一侧，具备相似特征[24][27] - **意义**：这表明Gengram在没有学习过结构生物学知识的前提下，通过计算自己“悟到”了DNA序列信息和空间相位规律[25] 范式启示与行业影响 - **效率范式转变**：从依赖模型“暴力记忆”转向使用“结构化知识外挂”，让核心模型从繁琐的模式记忆中解脱，专注于高级推理，预示着未来科学基础模型可能是“通用模型核心+多个领域专用插件”的协同形态[30] - **归纳偏置注入**：成功将DNA双螺旋的结构特性（10.5碱基/周期）显式转化为模型内部的局部窗口机制，作为先验知识注入模型[30] - **可解释性设计**：通过显式的Hash查询和门控记忆通路，模型在浅层即展现出对TATA-box等关键功能基元的高度敏感性，内部残差强度峰值与基因组功能边界精准对齐，实现了从“黑盒计算”向“具备生物学认知足迹”的演进[31] - **解决长程依赖**：Gengram使得仅在8K长度上训练的模型，获得了处理32K长序列的优异能力，为基因调控元件预测等复杂长序列问题开辟了新途径[31] 研发团队背景 - **团队构成**：研发团队“Genos Team”背景硬核，从开源信息推断涉及之江实验室和杭州华大生命科学研究院，构建了“AI + 生命科学”的交叉创新壁垒[33][34] - **基础模型**：论文实验基于人类基因组基础模型Genos实现，从可公开获取的信息来看，Genos多数指标超越了目前的业界顶流Evo-2[35]

基因组建模