Workflow
Engram
icon
搜索文档
中金::人工智能十年展望):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金· 2026-02-24 22:20
报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出,大模型的演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极,AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级,并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结 模型记忆重构下的存储范式与软硬件红利 * 报告提出,模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级,并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”,其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索,硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石,对应“温数据”,软件技术包括GraphRAG与MemoryOS等,硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化,报告归纳了内隐参数、外显语义、参数化查表三条实现路径,将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统:训练、推理、Agent * 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导,核心瓶颈在于KV Cache对HBM容量的挤占,若启用检索增强或Agent能力,还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越,中期记忆跃升为系统智能的连续性载体,其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆:即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”,其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战:1)KV Cache显存占用随上下文长度线性增长,传统内存管理技术导致显存浪费率高达**60-80%** [31][32];2)预填充与解码阶段存在算力权衡,混合部署会导致资源争抢 [39];3)Agent场景下缺乏高效记忆管理,导致重复计算和资源浪费 [39] * 软件解法包括:1)单卡显存虚拟化,如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43];2)PD分离优化集群算力调度;3)模型架构前沿探索,如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类:1)HBM用以承接KV Cache膨胀;2)片上SRAM负责处理瞬时状态;3)NVLink等互连技术编织分散的显存资源池 [50] 中期记忆:AI Agent的基石 * 中期记忆承载Agent的情景连续性,旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战:1)存储环节,SSD随机读取延迟是DRAM的**1000倍** [63];2)检索环节,易导致“上下文污染” [63];3)更新和遗忘环节,低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势:1)向量RAG是基础方案;2)分层RAG通过构建递归摘要树提升连贯性;3)GraphRAG引入知识图谱,在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类:1)大容量DRAM常驻热点索引与图谱拓扑;2)企业级NVMe SSD存储海量原始切片与高精度索引;3)CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆:知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制,实现知识的持续积累,模型训练与推理的界限正在模糊 [5][86] * 路线一(内隐参数):通过微调或训练将知识固化进模型参数,如Google Titans的测试时训练机制 [91][95] * 路线二(外显语义):将多次会话沉淀的结构化信息存储为可查阅的“百科全书”,催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三(参数化查表):如DeepSeek Engram架构,将静态知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异:内隐参数路径要求推理芯片具备训练能力并抬升HBM需求;外显语义路径是重存储架构,催生企业级SSD、CXL内存池及高性能CPU需求;参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]
DeepSeek论文发表16天后,国内团队已经写出了模型的「生物字典」
机器之心· 2026-01-31 12:10
文章核心观点 - 文章介绍了一项名为Gengram(Genomic Engram)的创新技术模块,该模块将DeepSeek的Engram(条件记忆)思想应用于基因组学领域,通过为模型配备一个可查询的“外挂记忆库”来存储已知的DNA功能片段,从而显著提升了基因组基础模型的性能、效率和可解释性,并可能为构建新一代科学AI模型提供新的范式[4][30] 技术原理与创新 - **核心逻辑**:Gengram的核心逻辑是将“静态的Motif识别”与“动态的上下文推理”进行解耦处理,预先构建一个可微分的哈希表,存储所有长度为1到6的DNA片段(k-mer)对应的语义向量,相当于一本《基因组学实用短语手册》[11] - **动态门控**:模型引入了动态门控机制,可以结合上下文自主决定何时“查字典”,在关键区域(如外显子、启动子)激活检索,在非编码背景区域关闭检索以优化资源[12][13] - **效率优势**:由于DNA字符集极小(仅A/T/C/G/N),Gengram查表速度极快,几乎不增加计算开销[11] 性能表现与数据 - **模块规模**:Gengram是一个仅约2000万参数的轻量化插件[15] - **性能提升**:在8k和32k上下文版本的模型中,应用Gengram的模型在几乎所有任务中领先[16] - 剪接位点预测AUC提升了16.1%(从0.776到0.901)[17] - 表观遗传预测任务(H3K36me3)AUC提升了22.6%(从0.656到0.804)[17] - **数据杠杆效应**:集成Gengram的模型仅需极小规模的训练数据和较小的激活参数量,便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型[18] - **架构通用性**:Gengram能跨越Dense与MoE等不同模型架构实现无缝部署,有效降低训练损失并加速收敛,并改善了MoE架构中的专家负载均衡问题[19] 对生物物理规律的理解 - **窗口大小发现**:在测试局部聚合窗口大小时,性能在窗口大小设置为21bp时达到峰值[23] - **原理对应**:21个碱基正好对应DNA双螺旋两个完整的旋转周期(每10.5个碱基旋转一圈),这意味着相隔21bp的碱基在物理空间上位于螺旋同一侧,具备相似特征[24][27] - **意义**:这表明Gengram在没有学习过结构生物学知识的前提下,通过计算自己“悟到”了DNA序列信息和空间相位规律[25] 范式启示与行业影响 - **效率范式转变**:从依赖模型“暴力记忆”转向使用“结构化知识外挂”,让核心模型从繁琐的模式记忆中解脱,专注于高级推理,预示着未来科学基础模型可能是“通用模型核心+多个领域专用插件”的协同形态[30] - **归纳偏置注入**:成功将DNA双螺旋的结构特性(10.5碱基/周期)显式转化为模型内部的局部窗口机制,作为先验知识注入模型[30] - **可解释性设计**:通过显式的Hash查询和门控记忆通路,模型在浅层即展现出对TATA-box等关键功能基元的高度敏感性,内部残差强度峰值与基因组功能边界精准对齐,实现了从“黑盒计算”向“具备生物学认知足迹”的演进[31] - **解决长程依赖**:Gengram使得仅在8K长度上训练的模型,获得了处理32K长序列的优异能力,为基因调控元件预测等复杂长序列问题开辟了新途径[31] 研发团队背景 - **团队构成**:研发团队“Genos Team”背景硬核,从开源信息推断涉及之江实验室和杭州华大生命科学研究院,构建了“AI + 生命科学”的交叉创新壁垒[33][34] - **基础模型**:论文实验基于人类基因组基础模型Genos实现,从可公开获取的信息来看,Genos多数指标超越了目前的业界顶流Evo-2[35]
科技 - DeepSeek:以更少资源实现更多价值Tech Bytes-DeepSeek – Doing More With Less
2026-01-22 10:44
涉及的行业与公司 * **行业**:人工智能(AI)行业,特别是大型语言模型(LLM)领域,以及中国半导体设备与封装行业[1][5][9][10] * **公司**: * **AI公司**:DeepSeek(深度求索)[1][4][9][11] * **中国半导体供应链公司**:北方华创(NAURA, OW评级,目标价Rmb514.2)、中微公司(AMEC, OW评级,目标价Rmb364.32)、长电科技(JCET, EW评级,目标价Rmb49.49)[5] * **其他提及的AI模型/公司**:Qwen-3(阿里巴巴)、豆包-Seed-1.8、Kimi-K2、GLM-4.5、MiniMax-M2、ChatGPT 5.2[17] 核心观点与论据 * **AI发展新范式**:AI计算的下一个前沿可能不是简单地追求更大的模型,而是通过更智能的架构选择(如混合架构)来实现效率提升[1][9] * **DeepSeek的Engram技术创新**: * Engram模块通过将存储与计算解耦,将模型的静态记忆卸载到可扩展的查找系统(如商品化DRAM),从而减少对昂贵的高带宽内存(HBM)的依赖和基础设施成本[1][2][11][15] * 该技术引入“条件记忆”作为稀疏性的新维度,与混合专家模型(MoE)的条件计算协同工作,让AI仅在需要时使用内存,提高效率[2][11][18] * 其优势包括:在相同计算量和总参数量下获得更好准确性、优化计算与内存使用的U型曲线分配法则、通过处理局部固定模式来显著提升长上下文能力[20][24] * **对中国AI行业的意义**: * 过去两年,中国领先的AI模型在先进计算、硬件获取和训练规模受到显著限制的情况下,迅速缩小了与ChatGPT 5.2等前沿模型的性能差距,这主要依靠效率驱动的创新[10] * 中国AI发展正日益受到“约束诱导创新”动态的影响,对尖端硬件的有限访问加速了算法效率、系统设计和部署实用主义方面的进展[16] * 这一轨迹表明,中国AI的进步可能越来越不依赖于直接缩小硬件差距,而是依靠绕过硬件瓶颈的算法和系统级创新[21] * **性能与成本影响**: * **性能**:采用Engram的270亿参数模型显示出更强的基准测试性能和改进的长上下文处理能力[20];多个中国模型在MMLU、GPQA和SWE-Bench等标准化基准测试上取得了与全球前沿系统相当的分数,但计算成本仅为其一小部分[16] * **成本与资源配置**:基础设施成本可能从GPU向内存转移,因为计算适度的配置可能比纯粹的GPU扩展具有更好的性价比[3];一个1000亿参数的Engram(假设FP16/BF16下每个参数2字节)意味着至少需要约200GB的系统DRAM,而Vera Rubin系统每个CPU已有1.5TB DRAM[3][12] * **硬件依赖**:该技术为在不进行芯片对芯片匹配的情况下,经济地缩小与美国前沿模型的性能差距提供了可信路径,降低了对富含HBM的尖端加速器的依赖[21];下一代LLM V4很可能可以在消费级硬件(如RTX 5090)上运行[4] * **投资启示**: * 通过解耦内存与计算,中国正在构建不仅更智能、而且在结构上更高效的大型语言模型[5] * 中国AI市场规模仍只是美国的一小部分,但其支出和采用势头表明上行潜力可能被低估[5] * 继续看好中国内存和半导体设备本土化主题,并推荐相关公司[5] 其他重要内容 * **中国主要AI模型基准对比**:提供了截至2025年底至2026年初中国主要AI模型与ChatGPT 5.2在上下文长度、多模态、开源状态及MMLU、GPQA、编码(SWE-Bench)等关键基准测试上的详细对比数据[17] * **技术对比**:通过表格对比了嵌入缩放(Embedding Scaling, 如Engram)、检索增强生成(RAG)和KV缓存(KV Cache)在内存类型、位置、扩展维度、对FLOPs的影响和最佳适用场景等方面的区别[25][26] * **估值与风险**:报告包含了对北方华创、中微公司、长电科技三家公司的估值方法论(主要采用剩余收益模型)及具体的上行与下行风险假设[27][28][29][30][31][32][33] * **行业观点**:摩根士丹利对“韩国科技”行业给予“有吸引力”(Attractive)的行业观点[6][54]
计算机行业周报:千问App接入阿里生态业务
国新证券· 2026-01-21 21:25
行业投资评级 - 报告对计算机行业评级为“看好” [6] 核心观点 - 报告建议关注AI应用等投资机会 [3] 上周市场回顾 - 上周(1月12日至1月16日)计算机(申万)板块上涨3.82%,同期沪深300指数下跌0.57%,计算机板块跑赢沪深300指数4.39个百分点 [2][11] - 在申万各行业对比中,计算机行业上周涨幅排名位列第1位 [2][11] - 目前计算机行业上市公司共335家,其中234家公司收涨,占比69.85% [14] - 上周板块涨幅前三名分别为:通达海(上涨39.73%)、浩瀚深度(上涨30.57%)、杰创智能(上涨28.95%) [2][14] - 上周板块跌幅后三名分别为:*ST立方(下跌33.66%)、航天信息(下跌14.46%)、海峡创新(下跌13.40%) [2][14] 上周行业关注要点 - **马斯克宣布开源X推荐算法**:马斯克宣布将在一周内正式开源X平台最新的内容推荐算法,覆盖所有用于决定向用户推荐自然内容和广告内容的代码,并承诺后续每四周更新一次代码 [3][8][15][16] - **苹果与谷歌达成AI合作**:苹果与谷歌正式宣布达成一项为期多年的深度合作协议,下一代苹果基础模型将直接基于谷歌的Gemini模型与云技术构建,用于今年推出的全新Apple Intelligence功能 [3][8][18] - 谷歌提供的Gemini模型规模达1.2万亿参数,远超苹果现有约1500亿参数的自研模型 [20] - 据报道,苹果计划每年支付约10亿美元使用Gemini技术 [18] - **Meta官宣Meta Compute计划**:Meta首席执行官扎克伯格宣布启动Meta Compute计划,旨在构建吉瓦(GW)级AI基础设施以加速实现“超级智能” [3][8][21] - Meta计划在未来十年内建设规模达数十吉瓦的算力设施,长期目标瞄准数百吉瓦级别 [21] - Meta已与能源巨头Vistra签署长达20年的购电协议,并从致力于开发小型模块化反应堆的企业获取电力 [22] - **美国放宽对华AI芯片管制**:美国政府批准英伟达向中国出口其人工智能芯片H200,预计将重启该芯片对中国客户的出货 [8][23][24] - **DeepSeek开源Engram模块**:DeepSeek在GitHub开源了名为Engram的模块,其研究论文阐述了一种新的大模型稀疏化方向:条件存储 [8][25] - 根据论文,在总参数和算力预算固定的情况下,将20%至25%的稀疏参数分配给Engram记忆库是最优平衡点,其测试数据显示,即便挂载规模高达千亿参数的Engram,推理吞吐损失也能控制在3%以内 [29] - 知情人士称,DeepSeek预计将在今年中国春节前后发布最新的V4模型,其内部初步测试结果在编程能力上已经超越了Anthropic的Claude模型 [29] - **千问App全面接入阿里生态**:千问App宣布全面接入淘宝、支付宝、飞猪、高德等阿里生态业务,上线超400项AI办事功能,实现点外卖、购物、订机票等AI购物功能 [3][8][30] - 千问App通过调用淘宝闪购的服务能力与支付宝原生AI支付能力“AI付”实现系统级打通,可完成从推荐、下单到支付的全流程 [31] - 千问C端事业群总裁透露,阿里千问上线两个月,其C端月度活跃用户已突破1亿 [32]
AI、半导体:台积电大幅提升2026年资本开支
华金证券· 2026-01-18 13:55
行业投资评级 - 领先大市(维持)[1] 核心观点 - 人工智能硬件需求持续强劲,推动半导体行业周期向上,看好从设计、制造、封测到上游设备材料的全产业链机会[3][34] - 通用人工智能将成为未来十年最具变革性的技术驱动力,预计到2035年全社会算力总量将实现高达10万倍的增长[3][34] - 下游需求持续回暖,上游原材料价格上行,持续看好AI PCB产业链[3][34] 行业动态总结 - **台积电业绩与展望**:2025年第四季度营收337.3亿美元,同比增长25.5%,环比增长1.9%;毛利率62.3%,同比提升3.3个百分点;净利润5057.4亿新台币,同比增长35.0%,净利率达48.3%[3][6] - **台积电业务结构**:先进制程(3nm和5nm)合计占第四季度营收63%,全年占比60%;高性能计算(HPC)平台占第四季度营收55%,全年占比58%,成为最大收入来源;智能手机占第四季度营收32%,全年占比29%[3][6] - **台积电资本开支**:预计2026年资本支出为520亿美元至560亿美元,较2025年总计409亿美元大幅提升[3][6] - **千问APP升级**:全面接入阿里生态,上线超400项AI办事功能,并接入50项支付宝政务服务,其能力提升源于底层技术在编码、全模态理解和超长上下文处理方面的突破[3][6][7] - **DeepSeek技术突破**:提出新的“条件记忆”机制Engram,在训练计算量较MoE减少18%的情况下,于32768个token的长上下文任务中性能反超同参数量MoE模型[3][7][8] 行情回顾总结 - **电子行业表现**:在2026年01月12日至01月16日期间,电子行业周涨幅为3.77%,在申万一级行业中涨幅居前[9] - **细分板块表现**:同期,申万三级电子行业细分板块中,集成电路封测板块涨幅最大,上涨14.47%;仅LED板块下跌,跌幅0.10%[11] 行业高频数据跟踪总结 - **TV面板价格**:预计2026年1月价格将温和上涨,32英寸、50英寸、55英寸面板预计均小幅上涨1美元[14][15] - **Monitor面板价格**:预计2026年1月Monitor LCM面板价格整体保持稳定,23.8英寸FHD IPS Open cell及27英寸FHD IPS Open cell价格预计环比上涨0.2美元[16][18] - **Notebook面板价格**:预计2026年1月笔记本电脑面板价格竞争加剧,部分IPS FHD&FHD+产品价格预计小幅下跌0.2美元[16][18] - **存储器价格**:在2026年01月12日至01月16日期间,多种DRAM颗粒现货价格呈现上涨趋势,例如DDR5 16G(2Gx8)4800/5600价格从32.500美元上涨至35.000美元;DDR4 16Gb(1Gx16)3200价格从70.500美元上涨至76.125美元[19] 投资建议总结 - **半导体全产业链**:建议关注中芯国际、华虹公司、寒武纪-U、海光信息、芯原股份、盛科通信-U、长电科技、通富微电、甬矽电子等[3][34] - **存储全产业链**:持续看好,重点标的包括兆易创新、德明利、江波龙、香农芯创、佰维存储、普冉股份、聚辰股份等[3][34] - **AI PCB产业链**:持续看好胜宏科技、沪电股份、生益电子、鹏鼎控股、景旺电子、东山精密、生益科技等[3][34]
腾讯研究院AI速递 20260114
腾讯研究院· 2026-01-14 00:29
Anthropic发布AI办公助手Cowork - 公司发布AI办公神器Cowork,复用Claude Code底层逻辑,可创建文档、制定计划、分析数据并自动整理桌面文件 [1] - Cowork具备主动性与自主性,能自主制定计划并实时同步进度,支持连接器整合外部信息源并与Chrome联动,Claude Max用户可在macOS应用抢先体验 [1] - 该工具由团队仅用一周半开发完成,Claude Code编写了100%的代码,默认需用户明确授权且可随时叫停 [1] 苹果与Google达成AI合作协议 - 苹果与Google达成多年深度合作协议,下一代苹果基础模型将基于Gemini构建,新版Siri将基于Gemini彻底重造,数据通过私有云计算运行以保护隐私 [2] - 苹果AI团队面临严重人才流失,100多人团队已有数十名核心成员跳槽,Gemini拥有1.2万亿参数远超苹果现有1500亿参数,合作成为按时交货的必然选择 [2] - Google每月处理1.3千万亿Tokens,Gemini全球市场份额突破20%,马斯克批评这是权力过度集中,OpenAI地位从默认智能层降为辅助角色 [2] DeepSeek发布条件记忆模块Engram - DeepSeek发布新论文提出条件记忆Engram模块,与MoE条件计算互补,通过O(1)时间复杂度完成知识查找,解决Transformer缺少原生知识查找机制的问题 [3] - Engram将270亿参数扩展至等参数等FLOPs条件下显著优于纯MoE基线,MMLU提升3.4、BBH提升5.0、HumanEval提升3.0,长上下文检索准确率从84.2%提升至97.0% [3] - 结合元旦期间公布的mHC研究,DeepSeek V4的模样愈发清晰,条件记忆将成为下一代稀疏大模型核心建模原语,支持从主机内存预取且几乎无性能开销 [3] OpenAI收购AI医疗初创公司Torch - OpenAI以约1亿美元(约合人民币6.79亿元)收购AI医疗初创公司Torch,其中6000万美元立即兑现,其余用于员工留任激励 [4] - Torch支持接入Kaiser Permanente、Apple Health等医疗系统数据,统一查看实验室检测结果、处方信息及就诊记录,并通过AI进行归类整理和健康洞察 [4] - Torch四人创始团队全部加入OpenAI参与构建ChatGPT Health模块,此前曾创办并运营线上诊所平台Forward,于2024年末关闭后创立Torch [4] Anthropic推出医疗级AI服务 - Anthropic推出符合HIPAA标准的医疗级AI服务,允许医院医疗机构及个人用户在合规前提下处理受保护健康数据,明确引用PubMed、NPI注册表等权威数据库 [5][6] - Claude支持从Apple Health、Function Health等应用导出个人健康数据进行汇总和理解,承诺不使用任何医疗用户数据训练模型 [6] - 美国最大非营利医疗系统之一Banner Health已有超22000名临床服务提供者使用Claude,85%使用者认为工作效率提升,与诺和诺德、斯坦福医疗保健等机构展开合作 [6] 百川开源医疗大模型Baichuan-M3 - 百川开源Baichuan-M3医疗大模型,在HealthBench以65.1分综合成绩位列全球第一,HealthBench Hard以44.4分夺冠,全面超越GPT-5.2,幻觉率3.5%全球最低 [7] - M3首次具备原生端到端严肃问诊能力,提出SCAN原则(安全分层、信息澄清、关联追问、规范化输出),问诊能力显著高于真人医生平均水平 [7] - M3采用全动态Verifier System升级强化学习系统,设计新SPAR算法解决长对话训练问题,医疗应用百小应已同步接入M3面向医生与患者开放 [7] OpenAI计划量产特殊音频硬件Sweetpea - OpenAI硬件项目To-go确认为取代AirPods的特殊音频产品,内部代号Sweetpea,富士康已接到通知要求在2028年第四季度前为五款设备做好量产准备 [8] - 该设备由Jony Ive团队设计,主机采用金属材质外形酷似卵石,内部装有两个胶囊状单元可佩戴耳后,主处理器目标锁定2nm制程芯片让AI推理在本地运行 [8] - 预计2026年9月发布,第一年预估出货量4000-5000万部(AirPods年出货量约6000-7000万),定制芯片允许用户通过指令控制替代iPhone操作 [8] 美团发布稀疏注意力机制LoZA - 美团LongCat系列发布稀疏注意力机制LoZA,将50%低性能MLA模块替换为流式稀疏注意力SSA,形成ZigZag交错结构,计算复杂度降至线性级O(L·S) [9] - 处理128K上下文解码速度比原版快10倍,256K上下文预加载速度快50%解码阶段省30%算力,LongCat-Flash-Exp解锁1M上下文窗口,性能超越Qwen-3 [9] - LoZA无需从头训练在中期训练阶段即可完成改造,每个窗口包含1个全局块和7个局部块(单块128Token),设计1024Token稀疏窗口兼顾局部细节与整体逻辑 [9] 2026年十大突破性技术趋势 - MIT科技评论发布2026年十大突破性技术,涵盖超大规模AI数据中心、钠离子电池、碱基编辑、机制可解释性、先进核反应堆等十大方向 [10] - 其中,超大规模数据中心吞噬超1吉瓦电力足以供整座城市使用,钠离子电池已在特定车型应用,碱基编辑首例N=1定制治疗成功 [11] - 报告特别关注AI发展从“能做什么”转向“该做什么”,生命科学在伦理争议中持续突破认知边界,技术与伦理平衡成为核心议题 [11] AI内容生成趋势与价值 - Fal平台CEO透露生成5秒24帧视频算力消耗是生成200个token文本的12000倍,4K分辨率再增10倍,顶级视频模型半衰期仅30天 [12] - Fal平台支持600多个生成式媒体模型,前100名客户平均同时使用14个不同模型,团队认为动画、动漫或卡通类内容会最先实现AI生成规模化 [12] - 对话认为当内容生成变得无限时有限IP反而更有价值,视频模型架构需提升10-100倍才能实现4K实时生成,教育和个性化广告是最具潜力应用场景 [12]
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
新浪财经· 2026-01-13 20:33
核心观点 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”的新模型训练技术,旨在绕过GPU内存限制,实现参数扩展并提升成本效率 [1][3] - 该技术通过将计算与存储解耦,提升模型处理长上下文和复杂推理的效率,并在一个270亿参数的模型中验证了其有效性,使主要行业基准测试表现提升几个百分点 [4] - 行业观察指出,DeepSeek凭借其低成本、高效率的模型(如DeepSeek-R1)在全球市场,特别是新兴市场快速普及,正对美国AI公司构成竞争压力,并预计将在2025年2月中旬发布具备强大编程能力的新V4模型 [6][7] 技术突破 - 提出“基于可扩展查找的条件记忆”技术,命名为“Engram”,用以解决扩大AI模型规模时GPU高带宽内存容量有限的关键瓶颈 [3][4] - 该技术将计算与存储“解耦”,让模型更高效地“查找”基础信息,从而节省“序列深度”以用于更高层次推理 [3][4] - 在一个拥有270亿个参数的模型中验证,使主要行业基准测试的表现提升了几个百分点,并为执行计算需求更高的复杂推理保留了更多容量 [4] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,其潜在影响被比作他们自己开发的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司动态与市场影响 - DeepSeek创始人梁文锋与北京大学研究人员共同署名发表该技术论文,论文列出了14位共同作者 [1][6] - 公司去年年初发布的DeepSeek-R1大模型,使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,但实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁布拉德·史密斯警告,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势,并指出DeepSeek的技术在非洲等新兴市场快速普及 [6][7] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 外界猜测公司将在2025年春节(2月中旬)之前发布一款重要的新模型,据称是一款具备强大编程能力的新V4模型 [1][7] 行业背景与竞争格局 - 香港《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年 [4] - 此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - 行业中最大的模型拥有数万亿个参数 [6] - 在过去一年中,DeepSeek一直是中国AI领域创新的典范 [1]
梁文锋署名DeepSeek新论文,“突破GPU内存限制”
观察者网· 2026-01-13 20:28
公司技术进展 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”(记忆痕迹)的“条件记忆”新技术 [1][2] - 该技术旨在通过将计算与存储“解耦”,绕过GPU高带宽内存(HBM)容量限制,解决扩大AI模型规模时的关键瓶颈 [2][3] - 新技术能够提升模型在处理长上下文时的效率,这是将AI聊天机器人转变为现实世界中有用代理的主要挑战之一 [3] - 研究人员在一个拥有270亿个参数的模型中验证了该技术,使主要行业基准测试的表现提升了几个百分点,并为执行更复杂的推理保留了更多容量 [3] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,并将其潜在影响比作此前开发的、已被其他中国竞争对手采用的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司发展动态与行业地位 - 外界猜测DeepSeek将在今年春节(2月中旬)之前发布一款重要的新模型 [1][7] - 美国硅谷媒体The Information报道称,DeepSeek预计将在2月中旬推出一款具备强大编程能力的新V4模型 [8] - 去年年初,DeepSeek发布的DeepSeek-R1大模型使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,却实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势 [6] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 微软总裁指出,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司面临的全球竞争,并称中国现在拥有不止一个具有竞争力的开源模型 [7] 行业背景与挑战 - DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国三星、SK海力士及美国美光科技等行业领军者落后数年 [3] - 行业中最大的模型拥有数万亿个参数 [6]
DeepSeek开源Engram,如何做到推理损失仅3%?
钛媒体APP· 2026-01-13 16:44
公司近期技术发布 - 公司于1月13日在GitHub开源名为Engram的模块,并发布与北京大学联合撰写的论文,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)[1] - 这是继1月1日发布关于mHC架构的论文后,公司的又一次重要技术发布,两篇论文均体现了公司通过架构与方法论创新来降低算力成本、追求性价比的核心方向[4] - 公司创始人兼CEO梁文锋在两篇论文中均署名,并列于作者最后[4] Engram技术原理与设计 - Engram是一个可微分、可训练、原生嵌入模型结构的组件,其核心设计是将记忆性负载从主干计算中剥离,通过高速检索模块直接调用稳定且高频出现的知识,以规避低效的反复计算[4] - 该模块首先提供确定性检索:模型基于当前token和前文形成的N-gram,通过哈希映射直接从超大规模的静态嵌入表中取出对应向量,无需复杂神经计算,速度更快、路径稳定[4] - 随后,Engram会通过引入轻量化门控机制,由当前层的隐藏状态来判断检索到的记忆是否适合当前语境,避免生硬注入,从而优化输出表现[6] - 实验表明,该机制在处理时间、专有名词等固定模式时高度活跃,而在自由生成和复杂推理时几乎不介入,这强化了记忆功能的同时,避免了不合时宜的幻觉出现[6] 公司提出的新架构维度 - 公司将大模型能力拆分为三个相互独立又协作的维度:决定逻辑与抽象能力的模型深度、以MoE为代表的计算稀疏性(减少每次激活的计算量)、以及Engram引入的存储稀疏性(条件记忆)[6] - 公司通过U型扩展定律解决了记忆模块可能影响计算与推理性能的平衡问题,在总参数和算力预算固定的情况下,系统调整MoE与Engram的比例,得出将20%至25%的稀疏参数分配给Engram是最优平衡点[6] - 测试数据显示,即便挂载规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内[7] 行业竞争与公司未来产品 - 据The Information援引知情人士消息,公司预计将在今年中国春节前后发布最新的V4模型,核心突破在于超长代码提示词的处理与解析能力,以及全流程训练中数据模式的理解力[7] - 新模型不仅推理性能将大幅提升,更擅长处理复杂任务,其编码能力是主打方向,内部初步测试结果据称已超越了Anthropic的最强编程模型Claude[7] - 竞争对手Anthropic为守护编程能力优势和入口通道,近期已陆续切断Claude Code的第三方平台入口,并于1月12日发布主打办公场景Agent落地的产品Cowork,可自动帮助用户完成制作PPT、整理邮件等工作[7] - 市场期待即将到来的公司旗舰新品能再次带来“DeepSeek春节冲击波”[7]
DeepSeek发布梁文锋署名新论文
券商中国· 2026-01-13 14:25
DeepSeek发布新论文与开源模块 - 公司于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与公司共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构来增强大型语言模型[1] - 在等参数、等算力条件下,该方法能显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] - 公司同步开源了相关记忆模块,命名为Engram[1] 论文的技术核心与影响 - 论文聚焦于大型语言模型稀疏性的新维度,即“基于可扩展查找的条件记忆”[1] - 该技术为行业提供了一种在不大幅增加计算资源消耗的前提下,提升模型多任务性能的新路径[1]