Workflow
稀疏大模型
icon
搜索文档
腾讯研究院AI速递 20260114
腾讯研究院· 2026-01-14 00:29
Anthropic发布AI办公助手Cowork - 公司发布AI办公神器Cowork,复用Claude Code底层逻辑,可创建文档、制定计划、分析数据并自动整理桌面文件 [1] - Cowork具备主动性与自主性,能自主制定计划并实时同步进度,支持连接器整合外部信息源并与Chrome联动,Claude Max用户可在macOS应用抢先体验 [1] - 该工具由团队仅用一周半开发完成,Claude Code编写了100%的代码,默认需用户明确授权且可随时叫停 [1] 苹果与Google达成AI合作协议 - 苹果与Google达成多年深度合作协议,下一代苹果基础模型将基于Gemini构建,新版Siri将基于Gemini彻底重造,数据通过私有云计算运行以保护隐私 [2] - 苹果AI团队面临严重人才流失,100多人团队已有数十名核心成员跳槽,Gemini拥有1.2万亿参数远超苹果现有1500亿参数,合作成为按时交货的必然选择 [2] - Google每月处理1.3千万亿Tokens,Gemini全球市场份额突破20%,马斯克批评这是权力过度集中,OpenAI地位从默认智能层降为辅助角色 [2] DeepSeek发布条件记忆模块Engram - DeepSeek发布新论文提出条件记忆Engram模块,与MoE条件计算互补,通过O(1)时间复杂度完成知识查找,解决Transformer缺少原生知识查找机制的问题 [3] - Engram将270亿参数扩展至等参数等FLOPs条件下显著优于纯MoE基线,MMLU提升3.4、BBH提升5.0、HumanEval提升3.0,长上下文检索准确率从84.2%提升至97.0% [3] - 结合元旦期间公布的mHC研究,DeepSeek V4的模样愈发清晰,条件记忆将成为下一代稀疏大模型核心建模原语,支持从主机内存预取且几乎无性能开销 [3] OpenAI收购AI医疗初创公司Torch - OpenAI以约1亿美元(约合人民币6.79亿元)收购AI医疗初创公司Torch,其中6000万美元立即兑现,其余用于员工留任激励 [4] - Torch支持接入Kaiser Permanente、Apple Health等医疗系统数据,统一查看实验室检测结果、处方信息及就诊记录,并通过AI进行归类整理和健康洞察 [4] - Torch四人创始团队全部加入OpenAI参与构建ChatGPT Health模块,此前曾创办并运营线上诊所平台Forward,于2024年末关闭后创立Torch [4] Anthropic推出医疗级AI服务 - Anthropic推出符合HIPAA标准的医疗级AI服务,允许医院医疗机构及个人用户在合规前提下处理受保护健康数据,明确引用PubMed、NPI注册表等权威数据库 [5][6] - Claude支持从Apple Health、Function Health等应用导出个人健康数据进行汇总和理解,承诺不使用任何医疗用户数据训练模型 [6] - 美国最大非营利医疗系统之一Banner Health已有超22000名临床服务提供者使用Claude,85%使用者认为工作效率提升,与诺和诺德、斯坦福医疗保健等机构展开合作 [6] 百川开源医疗大模型Baichuan-M3 - 百川开源Baichuan-M3医疗大模型,在HealthBench以65.1分综合成绩位列全球第一,HealthBench Hard以44.4分夺冠,全面超越GPT-5.2,幻觉率3.5%全球最低 [7] - M3首次具备原生端到端严肃问诊能力,提出SCAN原则(安全分层、信息澄清、关联追问、规范化输出),问诊能力显著高于真人医生平均水平 [7] - M3采用全动态Verifier System升级强化学习系统,设计新SPAR算法解决长对话训练问题,医疗应用百小应已同步接入M3面向医生与患者开放 [7] OpenAI计划量产特殊音频硬件Sweetpea - OpenAI硬件项目To-go确认为取代AirPods的特殊音频产品,内部代号Sweetpea,富士康已接到通知要求在2028年第四季度前为五款设备做好量产准备 [8] - 该设备由Jony Ive团队设计,主机采用金属材质外形酷似卵石,内部装有两个胶囊状单元可佩戴耳后,主处理器目标锁定2nm制程芯片让AI推理在本地运行 [8] - 预计2026年9月发布,第一年预估出货量4000-5000万部(AirPods年出货量约6000-7000万),定制芯片允许用户通过指令控制替代iPhone操作 [8] 美团发布稀疏注意力机制LoZA - 美团LongCat系列发布稀疏注意力机制LoZA,将50%低性能MLA模块替换为流式稀疏注意力SSA,形成ZigZag交错结构,计算复杂度降至线性级O(L·S) [9] - 处理128K上下文解码速度比原版快10倍,256K上下文预加载速度快50%解码阶段省30%算力,LongCat-Flash-Exp解锁1M上下文窗口,性能超越Qwen-3 [9] - LoZA无需从头训练在中期训练阶段即可完成改造,每个窗口包含1个全局块和7个局部块(单块128Token),设计1024Token稀疏窗口兼顾局部细节与整体逻辑 [9] 2026年十大突破性技术趋势 - MIT科技评论发布2026年十大突破性技术,涵盖超大规模AI数据中心、钠离子电池、碱基编辑、机制可解释性、先进核反应堆等十大方向 [10] - 其中,超大规模数据中心吞噬超1吉瓦电力足以供整座城市使用,钠离子电池已在特定车型应用,碱基编辑首例N=1定制治疗成功 [11] - 报告特别关注AI发展从“能做什么”转向“该做什么”,生命科学在伦理争议中持续突破认知边界,技术与伦理平衡成为核心议题 [11] AI内容生成趋势与价值 - Fal平台CEO透露生成5秒24帧视频算力消耗是生成200个token文本的12000倍,4K分辨率再增10倍,顶级视频模型半衰期仅30天 [12] - Fal平台支持600多个生成式媒体模型,前100名客户平均同时使用14个不同模型,团队认为动画、动漫或卡通类内容会最先实现AI生成规模化 [12] - 对话认为当内容生成变得无限时有限IP反而更有价值,视频模型架构需提升10-100倍才能实现4K实时生成,教育和个性化广告是最具潜力应用场景 [12]
梁文锋署名,DeepSeek论文上新
第一财经资讯· 2026-01-13 11:41
公司研究:深度求索(DeepSeek)技术进展与产品规划 - 公司于1月12日晚发布与北京大学合作完成的新论文,聚焦大模型的条件记忆模块[2] - 论文核心观点认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语[2][7] - 论文作者包括公司创始人梁文锋,论文名称为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》[5] 技术架构创新:条件记忆与Engram模块 - 论文核心观察指出,大模型包含两种任务:需要深度动态计算的组合推理和检索静态知识[5] - 现有Transformer架构缺乏原生知识查找机制,检索静态知识时需浪费算力重新推导,效率低下[5] - 为解决此问题,团队引入条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算(MoE)与静态记忆(Engram)之间的权衡[5] - 团队发现了U型缩放定律,表明MoE专家和Engram记忆之间的混合稀疏容量分配严格优于纯MoE基准模型[6] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益[6] - 技术本质是给大模型做“分工优化”,让专门模块处理固定知识(记忆本)和复杂思考(推理模块),并按最佳比例分配资源,使模型更高效[6] 产品路线与市场预期 - 结合近期研究,业内猜测此次论文揭示的技术或许是公司下一代大模型DeepSeek V4的研究路线图[5] - 有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构[7] - 此前有爆料称,DeepSeek下一代大模型V4将在春节前后发布[5] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型[7] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro[7] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点[7]
DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?
第一财经资讯· 2026-01-13 11:32
公司技术研究进展 - 公司于1月12日晚发布了一篇与北京大学合作完成的新论文,聚焦大模型的条件记忆模块 [4] - 论文名称为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者列包含公司创始人梁文锋 [4] - 论文核心观察是,大模型包含需要深度动态计算的组合推理和检索静态知识两种性质完全不同的任务,而现有Transformer架构缺乏原生知识查找机制,导致效率低下 [4] - 为解决该问题,团队引入了条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算与静态记忆之间的权衡关系 [4] - 团队发现了U型缩放定律,表明混合稀疏容量分配严格优于纯MoE基准模型 [5] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益 [5] - 论文本质是对大模型进行“分工优化”,让专门模块处理固定知识和复杂推理,并按最佳比例分配资源,旨在提升模型效率与性能 [6] - 公司在论文结论中认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [1][6] 下一代模型发布预期 - 此前有爆料称公司下一代大模型V4将在春节前后发布,结合近期研究,业内猜测此次论文提出的条件记忆可能就是V4的技术架构路线图 [4][6] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [6] - 报道提及发布计划可能会根据实际情况进行调整,公司目前未对相关消息进行回应 [6] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本 [6] - V3.2版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro [6] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点 [6]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
36氪· 2026-01-13 09:24
核心观点 - DeepSeek与北京大学联合发布新论文,提出了一种名为Engram的条件记忆模块,旨在解决Transformer架构缺乏原生知识查找机制的关键难题,通过将“稀疏化”应用于“记忆”而非仅“计算”,为大型语言模型开辟了一条新的技术路线[1][9][11] - Engram模块将语言建模中大量固定、局部、重复的模式(如实体名、固定搭配)交给一个可扩展的、具有近似O(1)复杂度的查表模块处理,从而将Transformer主干的注意力与深度计算资源解放出来,专注于需要组合与推理的任务[11][12][15] - 实验发现,MoE(条件计算)与Engram(条件记忆)之间存在“U形缩放定律”,需要在两者之间分配稀疏参数预算以找到最优权衡,这标志着稀疏化模型进入了“计算+记忆”双轴互补的新时代[3][33][46] - 在严格等参数、等计算量的条件下,集成Engram的模型(如Engram-27B)在知识、推理、代码、数学等广泛基准测试上全面优于传统的纯MoE基线模型,并且其收益具有结构性,能提升模型整体效率[5][38][48] - Engram的确定性检索特性使其在系统优化上具有优势,支持参数存储与计算资源的解耦,为“更大参数量、同等吞吐量”的工程实现提供了可行路径,并可能被集成到DeepSeek的下一代模型V4中[30][49][50] 技术架构与原理 - **核心设计**:Engram是一个插在Transformer中间层的可扩展条件记忆模块,其核心思想是将经典的哈希N-gram嵌入现代化,通过“暴力查表+记忆开关”的机制,为静态模式提供确定性的快速查找[16][18] - **工作流程**:模块分为检索和融合两个阶段。首先通过分词器压缩和确定性多头哈希,将局部上下文映射到静态记忆条目中;然后通过一个上下文感知的门控机制,动态决定是否采纳检索到的先验信息[20][21][25] - **门控机制验证**:可视化分析显示,Engram的门控机制能有效识别并激活处理多语言中的固定短语、命名实体等局部静态模式,证实了其按预期工作并将Transformer主干从记忆这些模式中解放出来[27][28][29] - **系统效率**:与MoE依赖隐藏状态动态路由不同,Engram的检索仅取决于输入Token序列,这种确定性支持在训练时进行模型并行,在推理时实现参数预取和计算重叠等优化策略[30][32] 实验发现与性能表现 - **U形缩放定律**:验证损失与分配给MoE的稀疏参数比例ρ之间存在一致的U型关系,证实了条件计算与条件记忆的结构互补性,纯MoE或纯Engram都不是最优解[33][37] - **内存扩展收益**:在探索范围内,扩展Engram的内存槽位数量能带来清晰且一致的验证损失改善,并遵循严格的幂律,表明其提供了一种可预测的、无需额外计算成本的扩展手段[37] - **基准测试全面领先**:在总参数26.7B、激活参数3.8B、训练Token数262B的同等设置下,Engram-27B在多个基准上全面超越MoE-27B,包括:MMLU准确率提升3.0个百分点,BBH提升5.0个百分点,HumanEval提升3.0个百分点,GSM8K提升2.2个百分点,MATH提升2.4个百分点[38][40] - **长上下文能力增强**:通过将局部依赖建模卸载给Engram,模型保留了更多注意力容量用于管理全局上下文,在长上下文扩展训练中,Engram模型在等损失或等计算量的设定下,其长程检索和推理任务性能显著优于MoE基线[41][44][45] 行业影响与未来展望 - **架构范式演进**:该研究标志着大模型稀疏化从单一的“条件计算”轴,进入了“条件计算”与“条件记忆”双轴互补的新时代,丰富了稀疏化的目标和内涵[46][47] - **潜在产品集成**:市场猜测DeepSeek即将发布的V4模型有很大概率将Engram融入其主干架构,若实现,将不仅是参数规模的提升,更可能是一次架构范式的跃迁[50][51] - **工程优化前景**:Engram的确定性查表特性非常适合系统级优化,为在保持吞吐量的前提下部署更大参数量的模型提供了新的工程思路,可能影响未来的硬件和系统设计[30][49]
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
36氪· 2026-01-13 08:42
就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》, 与北京大学合作完成,作者中同样有梁文锋署名。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。 针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现。 此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了! 目前,模块「Engram」 ...
华为发布天才少年AI挑战课题,汇聚全球智慧共探科技前沿
搜狐财经· 2025-06-18 03:01
华为"天才少年"招聘计划 - 公司发布"天才少年挑战课题",覆盖智能联接&计算、基础研究与创新、智能终端、云计算和智能汽车五大领域 [3] - 课题面向全球青年才俊,不限学校、专业、学历,旨在吸引顶尖人才成为行业技术领军人物 [6] - 计划始于2019年,持续强化人才建设与研发投入 [6] 研发投入与基础研究 - 2024年研发费用达1797亿元,占全年收入20.8%,近十年累计研发投入超12490亿元 [7] - 每年投入30亿-50亿美元用于基础理论研究,与高校合作探索未知领域 [7] - 基础研究课题包括大模型安全、智能成像/编辑、稀疏大模型架构等,体现公司对理论创新的重视 [4][7] 智能联接&计算领域课题 - 自主智能无线通信架构研究:构建高效无线通信架构应对未来需求 [3] - 昇腾强化学习系统研究:提升昇腾系统性能 [3] - AI集群全光交换网络研究:优化AI集群数据传输效率 [3] - AI Native系统软件架构研究:释放AI性能潜力 [3] - AI智能体技术研究:开发高自主决策能力的智能体 [3] 基础研究与创新领域课题 - 大模型安全关键技术:解决大模型应用中的安全风险 [4] - 智能成像/编辑技术:突破成像与图像编辑技术 [4] - 稀疏大模型架构与训练算法:降低模型训练成本 [4] - 端侧AI+OS垂直创新:探索端侧AI与操作系统融合 [4] 智能终端领域课题 - 世界模型理论突破:让终端更好模拟物理规律 [4] - 个性化与记忆增强:实现终端个性化定制 [4] - 多媒体算法研究:推动计算机视觉与多模态技术 [4] - 终端功放架构研究:优化信号传输质量 [4] 云计算领域课题 - 具身智能操作技术:赋予云端AI控制实体设备能力 [5] - 数字原生关键技术:探索数字原生时代核心技术 [5] - 媒体AI关键技术:解决媒体领域AI应用问题 [5] - 云网络基础设施研究:构建AI驱动的先进网络 [5] 智能汽车领域课题 - 端到端大模型训练优化:提升智能汽车领域模型效率 [6] - 自动驾驶VLA模型:研发先进自动驾驶技术 [6] - 智能座舱Agent协同:实现座舱内智能体协作 [6] - 底盘协同控制技术:提升行车安全与舒适性 [6]