Seek .(SKLTY)
搜索文档
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
36氪· 2026-01-13 15:14
核心观点 - DeepSeek团队提出了一种名为“条件记忆”(Conditional Memory)的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1] - 该研究认为,语言建模包含需要深度动态计算的组合推理和检索静态知识两种不同性质的任务,而现有Transformer缺乏高效的原生知识查找机制,导致计算资源浪费 [4] - 通过将部分稀疏参数预算从混合专家(MoE)重新分配给Engram记忆模块,可以在固定计算预算下显著提升模型性能,形成一条U型最优曲线 [15][17] - 实验表明,在27B参数规模下,采用Engram的模型在知识、通用推理、代码和数学等多个领域的基准测试中均显著超越同规模纯MoE模型,甚至有效“加深”了网络推理深度 [21][23] - Engram的确定性寻址机制支持存储与计算的解耦,允许将海量参数表卸载至CPU内存,在推理时带来可忽略的额外开销,实现了硬件感知的高效设计 [27][29][31] 技术原理与设计 - **核心问题识别**:现有Transformer模型在识别如“Diana, Princess of Wales”这类实体时,需要消耗多达6层注意力进行逐层特征拼凑,本质是用昂贵的运行时计算来重建静态查找表,浪费了可用于高层推理的网络深度 [4][5] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度捕获局部依赖和静态知识 [6] - **关键创新 - Engram模块**:在Transformer层间插入Engram模块,对当前token及前几个token组成的N-gram进行哈希查找,从一个巨大的嵌入表中直接取出对应向量 [6] - **解决传统N-gram痛点**: - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [11] - 使用多个哈希函数将N-gram映射到固定大小的嵌入表,解决了存储爆炸问题,并通过多哈希头减少查找冲突 [11] - **上下文感知门控**:引入门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声,实现静态模式调用与动态计算的灵活切换 [8] 实验与性能分析 - **稀疏性分配研究**:固定总参数量和每token激活参数量,在MoE专家和Engram记忆间重新分配参数预算,实验得出一条U型曲线 [15] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分给Engram时,模型验证集loss最低 [17] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低0.0139 [17] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间(即20%-25%预算给Engram) [17] - **27B规模模型对比**:在激活参数量均为38亿、训练token均为2620亿的条件下进行对比 [18] - **Engram-27B**:总参26.7B,分配5.7B参数给Engram记忆模块 [18][22] - **Engram-40B**:总参39.5B,Engram记忆参数增至18.5B [18][22] - **性能提升结果**:与纯MoE-27B模型相比,Engram-27B在多项基准测试中取得显著提升 [21][22] - 知识密集型任务:MMLU提升3分(从57.4到60.4),CMMLU提升4.0分(从57.9到61.9),TriviaQA提升1.9分(从48.8到50.7) [21] - 通用推理任务:BBH大幅提升5.0分(从50.9到55.9),ARC-Challenge提升3.7分(从70.1到73.8),DROP提升3.3分(从55.7到59.0) [21] - 代码数学任务:HumanEval提升3.0分(从37.8到40.8),MATH提升2.4分(从28.3到30.7),GSM8K提升2.2分(从58.4到60.6) [21] - **性能提升原因分析**:Engram让模型早期层无需做特征组合的“苦力活”,从而“加深”了网络有效深度 [23] - KL散度曲线显示Engram模型预测收敛更快 [23] - CKA相似度分析表明,Engram-27B第5层的表征与MoE基线第12层的表征最相似 [23] - **扩展性与长上下文**:Engram-40B进一步增加记忆参数后,大部分任务性能持续提升,且训练后期损失仍在下降,说明记忆容量未饱和 [25] - 长上下文场景提升显著:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [25][26] 工程实现与效率 - **训练阶段**:巨大的词表参数(高达100B)需要拆分到多个GPU上,并通过All-to-All通信机制传递记忆片段 [27] - **推理优化**:利用Engram查找索引的确定性,可将巨大的嵌入表卸载到CPU内存,并通过PCIe异步预取实现通信与计算的重叠 [29] - 在H800 GPU上测试,为一个4B密集模型增加1000亿参数的CPU卸载Engram表,吞吐量从9031 token/s降至8858 token/s,额外开销在3%以内 [29] - 8B密集模型增加后,吞吐量从6315 token/s降至6140 token/s,开销同样低于3% [29] - **缓存策略**:利用N-gram访问遵循Zipfian分布的特点,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD),进一步压缩有效延迟 [30]
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
贝壳财经· 2026-01-13 12:41
论文发布与核心概念 - DeepSeek于1月12日晚间发布了一篇与北京大学共同完成的新论文[1] - 论文主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 论文核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一概念[2] 技术方案与架构创新 - 为实现“条件记忆”,公司提出了一个名为Engram(记忆痕迹)的模块[2] - 该模块将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支[2] - “静态模式检索”分支负责实体、固定短语等确定性知识的快速调取[2] - “动态组合推理”分支则交由Transformer架构专注完成复杂逻辑运算[2] 行业定位与未来展望 - 论文将“条件记忆”视为下一代稀疏模型不可或缺的建模原语[3] - 在业界猜测其下一代模型将于春节前发布的背景下,此篇论文或为模型方向提供了线索[3]
DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
金融界· 2026-01-13 12:38
论文核心研究成果 - 公司发布与北京大学联合完成的论文,提出“条件记忆”作为下一代稀疏大模型中不可或缺的核心建模原语 [1][4] - 论文核心洞察指出,大模型承担着组合推理与静态知识检索两类性质迥异的任务,而现有Transformer架构缺乏原生知识查找机制,导致调用固定知识时仍需低效计算,耗时且占用资源 [4] - 公司团队提出通过名为Engram的条件记忆模块来优化神经计算(MoE)与静态记忆之间的权衡关系,旨在为大模型实现“分工优化”,由Engram模块负责固定知识存储,推理模块专注复杂思考 [5] - 团队发现了“U型缩放定律”,表明在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型 [5] - 尽管记忆模块设计初衷是提升知识检索效率,但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升 [5] 下一代模型V4的行业预期 - 结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图 [1] - 公司在论文中强调条件记忆将成为下一代稀疏模型的核心建模原语,让行业进一步猜测该技术或正是DeepSeek V4模型的核心技术架构 [5] - 此前报道称,公司计划于2月发布新一代旗舰模型V4,内部初步测试显示其编程能力已超越市场现有顶级模型,但发布计划可能根据实际情况调整 [6] - 自2024年底发布V3模型后,其下一代旗舰模型备受行业关注,去年底推出的V3.2小版本更新曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro [6] - 业内普遍认为,V4模型的正式推出有望成为行业焦点事件 [6]
梁文锋署名,DeepSeek论文上新
第一财经资讯· 2026-01-13 11:41
公司研究:深度求索(DeepSeek)技术进展与产品规划 - 公司于1月12日晚发布与北京大学合作完成的新论文,聚焦大模型的条件记忆模块[2] - 论文核心观点认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语[2][7] - 论文作者包括公司创始人梁文锋,论文名称为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》[5] 技术架构创新:条件记忆与Engram模块 - 论文核心观察指出,大模型包含两种任务:需要深度动态计算的组合推理和检索静态知识[5] - 现有Transformer架构缺乏原生知识查找机制,检索静态知识时需浪费算力重新推导,效率低下[5] - 为解决此问题,团队引入条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算(MoE)与静态记忆(Engram)之间的权衡[5] - 团队发现了U型缩放定律,表明MoE专家和Engram记忆之间的混合稀疏容量分配严格优于纯MoE基准模型[6] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益[6] - 技术本质是给大模型做“分工优化”,让专门模块处理固定知识(记忆本)和复杂思考(推理模块),并按最佳比例分配资源,使模型更高效[6] 产品路线与市场预期 - 结合近期研究,业内猜测此次论文揭示的技术或许是公司下一代大模型DeepSeek V4的研究路线图[5] - 有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构[7] - 此前有爆料称,DeepSeek下一代大模型V4将在春节前后发布[5] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型[7] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro[7] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点[7]
DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?
第一财经资讯· 2026-01-13 11:32
公司技术研究进展 - 公司于1月12日晚发布了一篇与北京大学合作完成的新论文,聚焦大模型的条件记忆模块 [4] - 论文名称为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者列包含公司创始人梁文锋 [4] - 论文核心观察是,大模型包含需要深度动态计算的组合推理和检索静态知识两种性质完全不同的任务,而现有Transformer架构缺乏原生知识查找机制,导致效率低下 [4] - 为解决该问题,团队引入了条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算与静态记忆之间的权衡关系 [4] - 团队发现了U型缩放定律,表明混合稀疏容量分配严格优于纯MoE基准模型 [5] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益 [5] - 论文本质是对大模型进行“分工优化”,让专门模块处理固定知识和复杂推理,并按最佳比例分配资源,旨在提升模型效率与性能 [6] - 公司在论文结论中认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [1][6] 下一代模型发布预期 - 此前有爆料称公司下一代大模型V4将在春节前后发布,结合近期研究,业内猜测此次论文提出的条件记忆可能就是V4的技术架构路线图 [4][6] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [6] - 报道提及发布计划可能会根据实际情况进行调整,公司目前未对相关消息进行回应 [6] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本 [6] - V3.2版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro [6] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点 [6]
DeepSeek-V4 即将发布,算力效率与性能双升级!低费率云计算ETF华夏、创业板人工智能ETF华夏获资金抢筹
新浪财经· 2026-01-13 11:32
市场行情与ETF表现 - 1月13日盘中,三大指数翻绿,科技板块随市调整 [1] - 通信ETF华夏(515050)跌幅扩大至2.39%,持仓股涨跌分化,海格通信、烽火通信实现连板,普天科技、广和通、信维通信领跌 [1] - 创业板人工智能ETF华夏(159381)下跌1.64%,盘中成交额快速突破3亿元,资金交易活跃 [1] - 云计算ETF华夏(516630)跌0.64%,近3个交易日获得资金连续净流入超1.3亿元 [1] AI模型与算力技术进展 - DeepSeek计划于2月中旬推出新一代旗舰模型DeepSeek-V4,重点提升代码生成与长上下文处理能力 [1] - 内部测试显示,DeepSeek-V4在代码任务上已超越Claude和GPT系列 [1] - V4采用新架构,能在长序列训练中保持理解力,并以更高算力效率完成训练 [1] - 在CES2026展会期间,英伟达发布NVIDIA Rubin平台并已全面量产,基于Rubin的产品将在2026年下半年通过合作伙伴提供 [2] - AMD公布了“Helios”平台并首次公开完整的AMD Instinct MI400系列加速器产品组合,同时预览了新一代MI500系列GPU [2] - 全球AI算力平台的能力持续提升,与全球大模型的持续迭代升级共振,将推动全球AI产业持续蓬勃发展 [2] 相关ETF产品概况 - 云计算ETF华夏(516630)跟踪云计算指数(930851),是费率最低的ETF,该指数聚焦国产AI软硬件算力,计算机软件+云服务+计算机设备合计权重高达83.7%,deep seek、AI应用含量均超40% [3] - 创业板人工智能ETF华夏(159381)跟踪指数一半权重在AI硬件算力(CPO),一半权重在AI软件应用(计算机、传媒、电子、军工),具备较高弹性和代表性,目前该ETF场内综合费率仅0.20% [3] - 通信ETF华夏(515050)跟踪中证5G通信主题指数,深度聚焦英伟达、苹果、华为产业链,前五大持仓股为中际旭创、新易盛、立讯精密、工业富联、兆易创新 [3]
DeepSeek等8大产品都是意外?! 改变世界的项目们,最初都没被“当个事儿办”
搜狐财经· 2026-01-13 09:47
文章核心观点 - 许多具有世界级影响力的重要产品最初都起源于非主线、非KPI驱动的“支线项目”,这些项目因其灵活性和低约束环境而成为创新的重要源泉 [1] - 在AI时代,技术降低了试错成本,个人或小团队能更快速地进行探索和验证,这使得支线项目更有可能孕育出颠覆性的成果,并可能成为未来方向的早期信号 [7][8][10] 支线项目的定义与特征 - 支线项目被界定为非主线、非KPI驱动、最初非战略立项的项目,其成立之初并不重要,也非公司的核心战略方案 [1] - 这类项目通常没有项目经理、销售、市场进入策略、合规或股东的过多干预,被认为是“魔法生效的地方” [1] - 支线项目允许技术跑在需求前面,能够绕开创业项目常见的节奏、叙事、融资节点和对外承诺等约束 [2] 国内支线项目案例分析 - **DeepSeek(幻方量化)**:作为量化投资公司的支线项目诞生,并非聚光灯下的战略产品,而是内部技术演进的自然延伸 [2] - 幻方量化长期进行算力、模型和工程效率的技术研究,首先服务于量化交易,AI作为辅助金融分析的支线工具 [2] - 公司拥有丰富的GPU集群资源(算力)和金融专业场景的长期数据优势,在研发通用智能时更注重模型推理和数学能力 [2] - 长期高强度算法投入和顶尖人才储备,为打造爆款AI产品创造了条件 [2] - **Qwen(阿里巴巴)**:在阿里内部早期也是支线项目,公司当时的大模型战略主线是面向行业ToB用户的商业化交付 [3] - Qwen选择了一条开源道路,其早期发展采用了“放养”模式,公司给予研究团队空间,在证明价值后再逐步融入主线资源 [3] - 支线项目模式被认为能提高成功几率,原因包括:减少过度决策参与,将自主权交还给研发人员;减少微观管理,以更大的试错空间换取更快的迭代速度 [3] 硅谷支线项目案例分析 - **Claude Code(Anthropic)**:最初是工程师Boris Cherny的一个实验性支线项目,始于一个能连接Apple设备并告知用户所听音乐的简单功能 [5] - 在与产品经理交流后,项目方向演变为开发与系统文件交互的工具(如读/写文件、运行批处理命令),并在相当偶然的情况下诞生 [5] - 项目正式面市后产生暴风式传播效应,成为Anthropic的当家产品之一 [5] - 该项目展示了AI编程能力的飞速进步:一年前,Claude在生成bash命令时还存在问题且只能短暂工作;如今,开发者利用Claude Code+Opus4.5在30天内提交了259个PR、497次提交,添加了40000行代码并删除了38000行代码,Claude能持续运行数分钟、数小时甚至数天 [5] - 该支线项目现已推动软件工程进入新的范式时期 [6] AI时代下支线项目价值的变化 - AI显著降低了试错成本,过去需要团队协作和资源协调的探索,现在个人能更轻松、迅速地完成初步验证 [7] - 这使得“探索”不必再总是正式的立项行为,在日常工作中就可能产生新思路或新方法 [7] - 许多支线项目从解决具体问题开始,通过真实使用不断修正方向,最终成长为重要产品 [8] - AI缩短了从想法到验证的距离,项目的价值在于能否被迅速使用和反馈,从而放大了个人探索的价值 [8] - 虽然AI提升了执行效率,但未必同步提升战略判断的准确性,主线项目在技术环境变化时可能受原有判断束缚而难以调整 [10] - 支线项目探索成本更低、反馈更快,为主线方向在验证后承接规模化任务奠定了基础 [10] - 在AI时代,关乎未来方向的早期信号,可能会越来越多地出现在最初不被重视的项目里 [10]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
36氪· 2026-01-13 09:24
核心观点 - DeepSeek与北京大学联合发布新论文,提出了一种名为Engram的条件记忆模块,旨在解决Transformer架构缺乏原生知识查找机制的关键难题,通过将“稀疏化”应用于“记忆”而非仅“计算”,为大型语言模型开辟了一条新的技术路线[1][9][11] - Engram模块将语言建模中大量固定、局部、重复的模式(如实体名、固定搭配)交给一个可扩展的、具有近似O(1)复杂度的查表模块处理,从而将Transformer主干的注意力与深度计算资源解放出来,专注于需要组合与推理的任务[11][12][15] - 实验发现,MoE(条件计算)与Engram(条件记忆)之间存在“U形缩放定律”,需要在两者之间分配稀疏参数预算以找到最优权衡,这标志着稀疏化模型进入了“计算+记忆”双轴互补的新时代[3][33][46] - 在严格等参数、等计算量的条件下,集成Engram的模型(如Engram-27B)在知识、推理、代码、数学等广泛基准测试上全面优于传统的纯MoE基线模型,并且其收益具有结构性,能提升模型整体效率[5][38][48] - Engram的确定性检索特性使其在系统优化上具有优势,支持参数存储与计算资源的解耦,为“更大参数量、同等吞吐量”的工程实现提供了可行路径,并可能被集成到DeepSeek的下一代模型V4中[30][49][50] 技术架构与原理 - **核心设计**:Engram是一个插在Transformer中间层的可扩展条件记忆模块,其核心思想是将经典的哈希N-gram嵌入现代化,通过“暴力查表+记忆开关”的机制,为静态模式提供确定性的快速查找[16][18] - **工作流程**:模块分为检索和融合两个阶段。首先通过分词器压缩和确定性多头哈希,将局部上下文映射到静态记忆条目中;然后通过一个上下文感知的门控机制,动态决定是否采纳检索到的先验信息[20][21][25] - **门控机制验证**:可视化分析显示,Engram的门控机制能有效识别并激活处理多语言中的固定短语、命名实体等局部静态模式,证实了其按预期工作并将Transformer主干从记忆这些模式中解放出来[27][28][29] - **系统效率**:与MoE依赖隐藏状态动态路由不同,Engram的检索仅取决于输入Token序列,这种确定性支持在训练时进行模型并行,在推理时实现参数预取和计算重叠等优化策略[30][32] 实验发现与性能表现 - **U形缩放定律**:验证损失与分配给MoE的稀疏参数比例ρ之间存在一致的U型关系,证实了条件计算与条件记忆的结构互补性,纯MoE或纯Engram都不是最优解[33][37] - **内存扩展收益**:在探索范围内,扩展Engram的内存槽位数量能带来清晰且一致的验证损失改善,并遵循严格的幂律,表明其提供了一种可预测的、无需额外计算成本的扩展手段[37] - **基准测试全面领先**:在总参数26.7B、激活参数3.8B、训练Token数262B的同等设置下,Engram-27B在多个基准上全面超越MoE-27B,包括:MMLU准确率提升3.0个百分点,BBH提升5.0个百分点,HumanEval提升3.0个百分点,GSM8K提升2.2个百分点,MATH提升2.4个百分点[38][40] - **长上下文能力增强**:通过将局部依赖建模卸载给Engram,模型保留了更多注意力容量用于管理全局上下文,在长上下文扩展训练中,Engram模型在等损失或等计算量的设定下,其长程检索和推理任务性能显著优于MoE基线[41][44][45] 行业影响与未来展望 - **架构范式演进**:该研究标志着大模型稀疏化从单一的“条件计算”轴,进入了“条件计算”与“条件记忆”双轴互补的新时代,丰富了稀疏化的目标和内涵[46][47] - **潜在产品集成**:市场猜测DeepSeek即将发布的V4模型有很大概率将Engram融入其主干架构,若实现,将不仅是参数规模的提升,更可能是一次架构范式的跃迁[50][51] - **工程优化前景**:Engram的确定性查表特性非常适合系统级优化,为在保持吞吐量的前提下部署更大参数量的模型提供了新的工程思路,可能影响未来的硬件和系统设计[30][49]
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
36氪· 2026-01-13 08:42
公司技术发布 - DeepSeek与北京大学合作发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,提出条件记忆(conditional memory)新概念,以解决现有Transformer架构缺乏原生知识查找机制的问题 [1][3] - 公司提出并实现了一个名为“Engram”的新模块,旨在与混合专家(MoE)的条件计算形成互补,相关代码已在GitHub开源,项目获得167个星标和5个分支 [3][4][5] - 结合此前发布的《mHC: Manifold-Constrained Hyper-Connections》研究,DeepSeek v4模型的架构设计已愈发清晰 [8] 技术创新与架构 - Engram模块的设计目标是将静态模式存储与动态计算过程从Transformer主干网络中分离并增强,对序列中每个位置依次执行检索与融合两个功能阶段 [10] - 在检索阶段,通过提取与压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量 [12] - 在融合阶段,通过上下文感知门控机制对检索到的静态嵌入进行动态调整,并用轻量级卷积操作精炼,最后与多分支架构集成 [12][14] - 该架构通过分词器压缩(将128k词表规模缩减约23%)和多头哈希等方法,解决了对所有可能N-gram组合进行参数化在计算和存储上不可行的问题 [13] 系统效率与扩展性 - Engram采用的确定性检索机制支持将参数存储与计算资源解耦,不同于MoE的动态路由,其检索索引完全由输入token序列决定,支持专门的优化策略 [15] - 在训练阶段,采用模型并行将大规模嵌入表分片分布在多GPU上,通过All-to-All通信收集激活的嵌入行,使总可用记忆容量能随加速器数量线性扩展 [17] - 在推理阶段,支持“预取-重叠”策略,可提前从主机内存异步预取嵌入向量,并利用前序Transformer层的计算缓冲来掩盖通信延迟 [17] - 利用N-gram的Zipfian分布特性,可构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而扩展到极大规模记忆容量且对延迟影响最小 [18] 性能表现与实验结果 - 在总参数量267亿、激活参数量38亿的同等条件下,Engram-27B模型在多项基准测试中性能显著优于纯MoE-27B基线模型 [8][28] - 具体性能提升包括:知识检索任务(MMLU提升+3.4、CMMLU提升+4.0)、通用推理能力(BBH提升+5.0、ARC-Challenge提升+3.7)以及代码与数学推理任务(HumanEval提升+3.0、MATH提升+2.4) [9][28] - Engram能够将静态知识重建负担从模型浅层剥离,有效加深网络用于复杂推理的有效深度,并通过释放注意力机制容量来显著提升长上下文检索能力(如Multi-Query NIAH准确率从84.2提升至97.0) [9][30] - 在包含2620亿token的语料库上预训练后,Engram-27B在大多数基准测试上超越了同等FLOPs的Dense-4B和MoE-27B模型,Engram-40B(总参数量395亿)进一步减少了预训练损失并提高了大多数基准测试的性能 [27][28][29] 扩展规律与稀疏性分配 - 研究发现MoE(条件计算)与Engram(条件记忆)之间的稀疏参数分配存在一条呈U型的最优扩展规律,用以刻画神经计算与静态记忆之间的最优权衡关系 [8][19] - 在总参数量和训练计算量固定的条件下,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能,纯MoE基准被证明是次优的 [22][23] - 定量分析显示,在100亿参数范围内,验证损失从纯MoE的1.7248改善到最优分配时的1.7109(Δ = 0.0139) [23] - 在固定MoE主干(总参数量约30亿,激活参数量5.68亿)上附加Engram表并扩展槽数,验证损失随内存槽数量增加遵循严格的幂律持续改善,表明Engram提供了可预测的扩展旋钮 [21][23] 长上下文能力分析 - Engram通过将局部依赖建模卸载至静态查找,为处理全局上下文保留了宝贵的注意力容量,从而在长文本任务中带来显著性能增益 [30] - 在严格控制基础模型能力的对比测试中,Engram-27B在等损耗设置和等计算量设置下,均在长上下文检索和推理任务上显著超越MoE-27B基准模型 [31][32][33] - 即使在仅使用约82%计算量的极端设置下,提前停止训练的Engram-27B在LongPPL指标上与完整训练的MoE-27B持平,并在RULER测试中实现超越 [33]
DeekSeek深夜再发梁文锋署名论文/追觅CEO称打造首个百万亿美金公司生态/iPhone官宣接入Gemini
搜狐财经· 2026-01-13 08:34
苹果与Google达成AI合作协议 - 苹果与Google达成一项为期多年的深度合作协议,下一代“苹果基础模型”将直接基于Google的Gemini模型与云技术构建,用于今年推出的全新Apple Intelligence功能,包括大幅升级的AI Siri [3] - 根据协议,苹果的设备端模型与私有云计算仍承担隐私敏感任务,而Gemini负责更复杂的推理、摘要与任务规划,苹果强调用户数据不会直接接触Google系统 [3] - 苹果计划每年支付约10亿美元使用Gemini技术,协议落地后,Google母公司Alphabet股价一度上涨,市值突破4万亿美元 [3] - Google的Gemini模型规模达1.2万亿参数,远超苹果现有约1500亿参数的自研模型,苹果引入成熟模型被视为在新版Siri延期、AI团队核心人才流失背景下的务实选择 [5] - 此次合作被视为苹果在大模型竞争中“换取时间”的关键举措,模块化架构使苹果能在保持隐私控制的前提下引入第三方模型并继续推进自研路线 [4][6] - 国行版AI Siri预计不会使用Gemini,苹果可能会采用本土合作方案或特别版本模型 [6] 全球智能手机市场动态 - 市场研究机构Counterpoint Research数据显示,2024年全球智能手机出货量同比增长2%,在经历连续下滑后首次恢复增长 [33] - 苹果以20%的市场份额位居全球第一,成为五大品牌中占比最高的厂商,增长动力主要来自新兴市场需求回暖及经济环境改善 [33] - 三星以19%的市场份额排名第二,出货量实现温和增长;小米则凭借新兴市场的稳定需求,以13%的份额位列第三 [33] - Counterpoint研究总监指出,2025年全球智能手机市场可能面临压力,原因在于芯片制造商将产能优先供应AI数据中心,叠加芯片短缺与零部件成本上涨,可能抑制整体出货表现 [34] 存储芯片市场进入超级牛市 - 市场研究机构Counterpoint Research称,受AI服务器需求持续攀升影响,全球存储市场已进入“历史最高级别”的超级牛市,价格涨幅全面超越2018年高点 [85] - 机构预计,2024年第四季度存储价格已大幅上涨40%–50%,2025年第一季度仍将再涨40%–50%,第二季度预计继续上涨约20% [86] - 其中,64GB RDIMM价格已从2024年第三季度的255美元跃升至第四季度的450美元,并预计将在2025年3月进一步涨至700美元,今年内价格触及1000美元(约合1.95美元/Gb)并非意外 [87][88] - 价格飙升正显著推高整机厂商的成本压力,2025年,存储在iPhone 17 Pro Max的物料清单(BoM)中占比已超过10%,相比iPhone 12 Pro Max的约8%明显提升,对于搭载16GB–24GB LPDDR5X内存及512GB–1TB UFS 4.0存储的旗舰机型,存储成本占比可能达到20%或更高 [89][90] AI行业技术与合作进展 - DeepSeek开源全新架构模块“Engram”,该模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统Transformer与MoE的全新稀疏性维度 [7][8] - 在27B参数规模的实验中,将部分MoE专家参数重新分配给Engram记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升,该架构很可能成为DeepSeek下一代模型“V4”的核心技术基础 [8] - 智谱与滴滴宣布达成战略合作,双方将围绕通用人工智能(AGI)关键技术及其在出行领域的智能体应用展开协同探索,重点推进出行场景的Agent落地、人才培养及复杂业务场景验证 [61] - 沃尔玛与Google宣布将基于Gemini推出全新的AI购物体验,整合至Gemini应用中,用户可在聊天过程中获得商品推荐并完成购买,该体验将首先在美国上线 [73][74] 消费电子与硬件产品动态 - 制糖工厂旗下AI小电拼入选2025“微博年度电子潮玩”榜单,该产品总功率达160W,5路独立电路实现四口140W自由盲插,搭载自研CanOS 1.0充电系统及FluxAI自由流®算法 [8][9] - 荣耀手机官宣新机Magic8 Pro Air将于1月19日发布,该机在6.1mm厚度与155g重量下实现旗舰级堆叠,搭载天玑9500处理器,配备5500mAh青海湖电池 [102][103] - 真我宣布新一代潮玩电竞旗舰真我Neo8将全球首发165Hz三星苍穹屏,采用旗舰级M14发光基材,支持手动1000nit亮度、6500nit局部峰值亮度,屏幕功耗相比其他基材降低26% [108] - 三星Galaxy S26 Ultra国行版已入网,确认将支持eSIM与天通卫星通信功能,并支持60W有线充电 [109] - 逐际动力发布面向物理世界原生的具身Agentic OS“LimX COSA”,旨在通过深度融合高阶认知与全身运控,实现机器人的“大小脑一体化”,全尺寸人形机器人Oli已搭载该系统 [112] 互联网与AI应用监管及争议 - Google已针对部分医疗搜索请求停用了AI概览(AI Overviews)功能,此前该功能被曝在回应医疗咨询时提供了误导性甚至虚假的信息,例如错误建议胰腺癌患者避免食用高脂肪食物 [64] - 英国通信监管机构Ofcom宣布对X启动正式调查,以确认平台是否违反《在线安全法》,审查重点是其是否未能有效阻止用户利用Grok生成带有性暗示的未成年人与女性影像 [67] - 马来西亚与印度尼西亚宣布暂时封锁Grok,成为全球首批对该工具实施禁令的国家,监管机构表示Grok被多次用于生成涉及女性与儿童的色情化深度伪造内容 [69] - 国内首起因AI服务涉黄而被追究刑责的案件(AlienChat案)将迎来二审,一审中两名主要开发与运营者被判处制作淫秽物品牟利罪,该应用注册用户达11.6万,其中付费用户2.4万,非法牟利363万余元 [80] 公司战略与CEO言论 - 追觅科技CEO俞浩宣称追觅生态将致力于成为“人类历史上第一个百万亿美金的公司生态”,他认为目前全球市值最高的公司英伟达市值为4.5万亿美元,黄仁勋、马斯克一代有望将最高市值推升至8到10万亿美元,而自己目标是将企业价值再推高一个数量级至一百万亿美元 [52][55][56] - 泡泡玛特否认“造手机”传闻,但确认将与知名手机品牌(坊间猜测是荣耀)推出IP联名合作 [59] - 泡泡玛特2024年第三季度整体收入同比增长245%至250%,其中海外收入同比增幅达365%至370% [60] - 小米集团总裁卢伟冰辟谣辞职传闻,称自己驾驶小米SU7上班并全程开启HAD功能,体验“非常丝滑” [31] 其他行业与产品新闻 - 工业和信息化部公示了《移动电源安全技术规范》强制性国家标准(报批稿),面向社会公开征求意见,该标准实施后不符合安全技术规范的产品或将无法在市场流通 [44][46] - 比尔·盖茨发布年度展望,认为人工智能将在气候、医疗和教育三大领域带来深远影响,是未来十年全球发展的关键创新 [94] - 马斯克表示,AI、能源和机器人技术的进步将极大提升生产力,创造出一个资源“富足”的未来,实现“全民高收入”,因此存钱养老将变得毫无意义 [97] - 优衣库母公司迅销集团在2024年9月至11月的季度中,营收增长15%,营业利润同比增长34%达到2056亿日元,中国、北美和欧洲等国际市场的强势表现是主要驱动力 [123] - 《麻省理工科技评论》公布2026年“十大突破性技术”,包括超大规模AI数据中心、钠离子电池产业化、N=1碱基编辑疗法、AI机制可解释性突破等 [49][50]