Workflow
稀疏模型
icon
搜索文档
DeepSeek开源大模型记忆模块!梁文锋署名新论文,下一代稀疏模型提前剧透
量子位· 2026-01-13 08:39
核心观点 - DeepSeek团队提出了一种名为“条件记忆”的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1][5] - 该技术将条件记忆视为下一代稀疏模型不可或缺的建模原语 [2] - 通过将部分稀疏参数预算分配给Engram记忆模块,可以在固定计算量下显著提升模型性能,甚至在通用推理和代码数学领域带来超预期的提升 [5][34][47] 技术原理与设计 - **核心问题**:现有Transformer架构缺乏原生知识查找机制,识别静态实体(如“Diana, Princess of Wales”)需要消耗多层注意力进行低效的特征拼凑,浪费了本可用于高层推理的网络深度 [8][9][10][11][13] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度直接获取固定实体和短语的对应向量 [6][7][14][15] - **关键技术**: - 引入上下文感知的门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声 [17][18] - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [25] - 使用多个哈希函数将N-gram映射到固定大小的embedding表,解决了传统N-gram模型的存储爆炸和语义重复问题 [24][26] 性能优化与实验发现 - **稀疏性分配**:在固定总参数量和每token激活参数量的前提下,研究MoE专家与Engram记忆之间的参数分配,结果呈现U型曲线 [30][31][32] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分配给Engram记忆时,模型验证集loss达到最低 [34] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低了0.0139 [35] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间 [36] - **大规模验证**:在270亿参数规模下对比纯MoE模型与加入Engram的混合模型,所有模型激活参数量均为38亿,训练token为2620亿 [39][40] - Engram-27B模型将5.7B稀疏参数分配给Engram记忆模块 [43] - Engram-40B模型进一步将Engram记忆参数增至18.5B,总参数达39.5B [44] - **性能提升**: - **语言建模**:在验证集上,Engram-27B的loss为1.622,优于MoE-27B的1.634和Dense-4B的1.768 [48] - **知识推理**:在多项基准测试中显著提升,例如MMLU准确率从57.4提升至60.4,C-Eval从58.0提升至62.7 [48] - **通用推理与代码数学**:提升幅度超预期,BBH提升5.0分,ARC-Challenge提升3.7分,HumanEval提升3.0分,MATH提升2.4分 [47][49] - **长上下文**:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [55][56] - **效率提升原理**:Engram让模型早期层无需进行特征组合的“苦力活”,预测收敛速度更快。Engram-27B第5层的表征与MoE基线第12层的表征最相似,相当于“加深”了网络有效深度,释放的层数用于更复杂推理 [50][51] 工程实现与硬件效率 - **训练优化**:百亿级参数的词表通过拆分到多个GPU并使用All-to-All通信机制进行处理 [59] - **推理优化**:利用Engram确定性寻址的特点,可将巨大的嵌入表卸载至CPU内存,并通过PCIe异步预取使通信与GPU计算重叠,额外延迟开销控制在3%以内 [60][62][63] - 实验将1000亿参数的Engram表放在CPU内存,在H800上运行推理,4B密集模型吞吐量从9031 token/s降至8858 token/s,8B密集模型从6315 token/s降至6140 token/s [63][64] - **缓存设计**:利用N-gram访问的Zipfian分布特性,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD)以进一步压缩延迟 [65] - **设计原则**:Engram将“硬件感知效率”确立为核心设计原则,其存储与计算解耦的特性支持海量参数表的高效卸载 [66]
腾讯研究院AI速递 20251216
腾讯研究院· 2025-12-16 00:22
Manus 1.6 发布与AI Agent能力跃升 - Manus 1.6 Max发布,实现从“辅助工具”到“独立承包商”的质变,用户满意度提升19.2%,采用子Agent并行处理架构,能独立完成复杂Excel财务建模和数据分析 [1] - 新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成可运行的iOS和Android应用 [1] - 推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点 [1] OpenAI开源稀疏模型与可解释性研究 - OpenAI开源Circuit-Sparsity模型,参数量仅0.4B,强制99.9%权重为零仅保留0.1%非零权重,旨在解决模型可解释性问题 [2] - 该稀疏模型内部形成紧凑可读的“电路”,规模比密集模型缩减16倍,神经元激活具有明确语义,但运算速度慢100至1000倍 [2] - 研究团队提出“桥梁网络”方案,在稀疏模型与密集模型间插入编码器-解码器对,实现对现有大模型的可解释性行为编辑 [2] 模型微调与推理服务更新 - 前OpenAI CTO创办的Thinking Machines全面开放Tinker产品,这是一个用于帮助开发者微调语言模型的API [3] - Tinker新增支持Kimi K2 Thinking(万亿参数规模专为长链推理设计)和Qwen3-VL视觉输入(30B和235B两款模型)的微调 [3] - 提供兼容OpenAI API的全新推理接口,用户可即插即用接入任何兼容OpenAI API的平台,简化LLM后训练过程 [3] 谷歌产品整合与AI工具进化 - NotebookLM正式“接入”Gemini体系,用户可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答 [4] - Gemini成为连接多个NotebookLM笔记的“中枢”,解决了NotebookLM不支持笔记本合并的问题,可同时调用多个笔记进行查询 [4] - NotebookLM内容开始可与网络信息同时使用,实现“个人资料+全网信息”混合式分析,从“小众研究工具”融入谷歌核心AI产品线 [4] 通义语音与识别模型升级 - 通义百聆发布Fun-CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支持9语种18方言口音跨语种克隆与情感控制 [5] - Fun-ASR在噪声场景准确率达93%,支持歌词与说唱识别、31语种自由混说、方言口音覆盖,并将流式识别模型的首字延迟降低到160ms [5] - 开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力,并开源Fun-ASR-Nano-0.8B轻量化版本以降低推理成本 [6] Zoom与AI模型在专业考试中的表现 - 视频会议公司Zoom宣称在“人类最后的考试”HLE基准测试上取得48.1%成绩,比Google Gemini 3 Pro的45.8%高出2.3个百分点 [7] - Zoom采用“联邦AI方法”,将自研小型语言模型与OpenAI、Anthropic、Google等公司的闭源和开源模型组合,通过Z-scorer评分系统选择输出 [7] - 该成绩未出现在HLE官方排行榜,发布当天Sup AI已宣布以52.15%准确率超越,Zoom正试图成为企业工作流中的AI中枢 [7] AI模型在金融专业资格考试中的突破 - 最新研究显示推理模型全部通过CFA三级考试,Gemini 3.0 Pro在一级考试中创下97.6%的历史最高纪录,GPT-5在二级考试中以94.3%领先 [8] - 在三级考试中,Gemini 2.5 Pro选择题达86.4%,Gemini 3.0 Pro问答题达92.0%,短短两年从“不及格”到“近乎满分” [8] - 专家指出会考试不等于能干活,AI在“道德伦理”类题目最吃力,且无法排除“数据污染”可能,不能替代分析师的战略思考和客户沟通 [8] 医疗AI公司估值与商业化进展 - OpenEvidence正在进行2.5亿美元股权融资,投后估值达120亿美元,较两个月前上一轮私募估值翻了一番 [9] - 该公司通过向制药公司出售聊天机器人广告位赚钱,目前年化广告收入约1.5亿美元,比8月份增长3倍,毛利率高于90% [9] - 根据OffCall调查,约45%美国医生使用OpenEvidence,每月回答来自美国医生约2000万个问题,使用医学期刊许可信息比通用聊天机器人更准确 [9] AI在软件开发中的深度应用 - OpenAI仅用4人工程团队与AI智能体Codex协作,在28天内完成安卓版Sora开发,消耗约50亿Token,约85%代码由AI完成 [10] - 团队采用“探索-验证-联邦”智能体工作流,Codex处理繁重编码任务,工程师专注架构、用户体验和质量把控,实现99.9%无崩溃率 [10] - Codex已承包OpenAI内部每周70%的PR,能监控自己训练过程并处理用户反馈,形成“AI迭代AI”的自我进化模式 [10] AI成人内容市场趋势与社会影响 - 到2025年AI成人内容市场规模将达约25亿美元,到2028年可能以每年约27%速度增长,OpenAI、Meta等巨头纷纷布局该领域 [11] - AI成人内容彻底颠覆传统生产方式,可按需定制性格、语气、外貌,研究显示人类会觉得AI生成的脸比真人脸“更真实” [11] - DeepFake技术成为校园霸凌和羞辱女性工具,仅需一张照片AI就能“脑补”裸体,专家警告AI正在制造隔离而非缓解孤独 [11]
OpenAI又开源了,仅0.4B,给模型大瘦身
36氪· 2025-12-15 16:14
文章核心观点 - OpenAI开源了名为Circuit-Sparsity的稀疏Transformer模型,该模型通过强制99.9%的权重为零,在模型内部形成了紧凑且可读的“电路”,旨在从根本上解决大语言模型(LLM)的“黑箱”可解释性问题 [1][6] - 该技术被部分观点视为对当前混合专家模型(MoE)架构的潜在挑战,但同时也面临训练成本高、计算效率低等重大瓶颈,距离直接应用于千亿参数大模型尚不成熟 [1][4][17] 技术原理与实现 - 研究团队采用“反直觉”策略,直接训练权重稀疏的Transformer模型,强制模型权重矩阵中99.9%权重为零,仅保留0.1%非零权重,以理清内部计算 [1][6] - 具体技术手段包括:动态剪枝与Top-K稀疏化、在关键位置引入AbsTopK激活函数强制仅保留前25%的激活值、以及用RMSNorm替代LayerNorm等架构微调 [10] 研究成果与优势 - 模型内部形成了可读的“电路”,在处理特定任务时逻辑极简且清晰,例如仅用12个节点就构建了检测字符串引号是否闭合的完美电路 [11] - 神经元的激活具有明确语义,出现了专门检测“单引号”或像“计数器”一样追踪列表嵌套深度的神经元 [11] - 在相同任务损失下,稀疏模型的电路规模比密集模型小了16倍,极大降低了模型解读的难度 [11] - “均值消融”实验证实,电路中的关键节点是模型执行任务的“必经之路”,移除非电路节点影响甚微 [13] 当前局限与挑战 - 稀疏模型的运算速度较密集模型慢100至1000倍,主要因为稀疏矩阵运算无法借助Tensor Cores实现加速 [4][17] - 训练成本比传统模型高100-1000倍,现阶段将该技术直接应用于千亿参数级别的大模型尚不具备可行性 [4][17] 未来方向与解决方案 - 研究团队提出了“桥梁网络”方案,通过在稀疏模型与预训练的密集模型之间插入编码器-解码器对,实现对现有“黑箱”大模型的可解释性行为编辑 [17] - 后续研究方向包括:从现有密集模型中提取稀疏电路以替代从头训练,以及研发更高效的可解释性模型训练技术 [18]
OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队
量子位· 2025-11-15 10:08
研究核心观点 - OpenAI公开了一项内部研究,旨在通过训练稀疏模型来提升大型语言模型的可解释性,使模型的内部工作机制更易于人类理解[5][7][9] - 该方法的核心思路是训练神经元连接少但神经元数量多的模型,通过强制将大部分权重设为0来简化网络结构,从而更容易识别完成特定任务的最小计算单元(即“回路”)[7][11][13] - 研究表明,通过训练更大、更稀疏的模型,可以生成功能更强大但回路更简单的模型,这为理解更复杂模型的行为提供了潜在路径[26][27] 研究方法与发现 - 研究人员训练了一个基于类似GPT-2架构的小模型,关键改动是强制将模型的大部分权重设为0,从而创建一个稀疏网络[11] - 为评估可解释性,研究设计了一系列简单算法任务,并为每个任务提取出能精准完成该任务的“最小回路”[18] - 回路被定义为由节点和边组成的图,其规模通过边数的几何平均值进行量化[16][17] - 在一个具体任务示例中(预测字符串结尾引号类型),得到的回路仅使用了5个残差通道、第0层的两个MLP神经元以及第10层的特定注意力通道,流程清晰可解释[20][22] - 对于更复杂的行为(如变量绑定),虽然难以完全解释,但仍可得出相对简单的部分解释以预测模型行为[23] 研究局限与未来方向 - 该研究仍处于早期阶段,所使用的稀疏模型比前沿模型小得多,且即使稀疏模型也存在部分“黑盒”计算[30] - 当前稀疏模型的训练效率较低,未来可能通过从现有密集模型中提取稀疏回路,或开发更高效的训练技术来解决[31][32] 研究团队背景 - 论文通讯作者为Leo Gao,其研究方向是AGI对齐,曾参与GPT-Neo和GPT-4的研究,论文被引数超过3.5万次,h-index为19[34] - 研究团队由6位成员组成,包括来自MIT、斯坦福等院校的实习生以及OpenAI内部资深研究科学家,具备跨学科背景[36][37][38][39][40]
反直觉: MoE混合专家模型和场景没什么关系
理想TOP2· 2025-08-29 00:01
混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段 旨在提高计算效率 实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算 近似实现全部参数计算效果 对最终输出影响极小[2] - 专家分配并非基于场景划分 而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题 遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练 不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下 部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家 避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家 实现算力动态分配[2] - 更难的问题可分配更多算力 同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好 但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型 超车场景可能使用另一子模型 这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman 只会画饼,Jeff 说的话才致命”
AI前线· 2025-05-28 13:17
谷歌AI发展现状与未来展望 - 谷歌传奇工程师Jeff Dean预测一年内将出现具备初级工程师能力的24/7全天候AI系统 [1][14][15] - 谷歌在AI领域贡献包括Transformer架构、BERT论文、TPU研发等关键技术 [1][5] - 谷歌AI发展遵循"模型越大、数据越多、结果越好"原则,12-15年来持续验证该规律 [5][6] AI技术演进路径 - 多模态成为重要趋势,AI可处理音频/视频/图像/文本/代码等多种输入输出形式 [6] - 智能体技术潜力巨大,未来几年物理机器人智能体将能完成数十种实际工作 [7][8] - 知识蒸馏技术可将强大模型压缩为轻量级模型,适配更多应用场景 [8][9] 硬件与基础设施 - 谷歌TPU硬件历经多代演进,最新Ironwood将接替Trillium版本 [17] - Pathways系统实现单一Python进程控制上万设备,已向云客户开放 [20] - 模拟计算在功耗效率方面具优势,数字计算仍有专业化空间 [18][19] 行业竞争格局 - 构建最先进模型需巨额投资,最终市场可能仅存少数几个通用强大模型 [8][13] - 算法改进与硬件投入同等重要,Gemini模型代际演进中算法贡献显著 [13] - 稀疏模型(如混合专家结构)可提升10-100倍效率,是未来重要方向 [26][27] AI应用场景突破 - AI已能根据YouTube视频自动生成教育游戏,成功率约30% [11] - 大型多模态模型将重塑搜索引擎,可能深度集成至Chrome浏览器 [12] - AI加速科学发现,神经网络替代传统模拟器速度提升30万倍 [18][19] 开发者生态 - 云TPU开发者体验存在改进空间,正推进Google Cloud与Gemini堆栈统一 [21] - 计算范式变革要求算法分析需考虑网络/内存带宽等硬件特性 [24][25] - 未来计算平台需适应训练/推理差异化需求,平衡资源分配 [22][23]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
新浪财经· 2025-05-19 06:46
AI技术发展预测 - 谷歌首席科学家Jeff Dean预测一年内将出现具备"初级工程师"能力的24/7全天候AI系统[1][13] - AI工程师不仅能够编写代码,还具备人类工程师难以比拟的持续性与规模化潜力[4] - 多模态成为重要趋势,AI输入输出可涵盖音频、视频、图像、文本或代码等多种形式[6] AI行业格局 - 构建最先进AI模型需要大量投资,最终市场可能仅保留少数几个主流模型[8] - 知识蒸馏技术可将强大模型压缩成轻量级模型,适配更多应用场景[9] - 谷歌通过Pathways系统实现单一Python进程控制上万设备,显著提升开发者体验[19][20] 硬件发展趋势 - 专用机器学习硬件如TPU对AI发展至关重要,谷歌已推出多代TPU产品[16] - 模拟计算在功耗效率方面具有优势,可能成为未来推理硬件发展方向[18] - AI计算需求变化推动硬件创新,需要针对训练和推理不同负载优化设计[22] 技术突破方向 - 稀疏模型和混合专家架构可带来10-100倍的效率提升[24] - 动态扩展模型结构比固定模型更具潜力,可优化资源分配[25] - AI正在改变科研方式,神经网络可加速科学模拟达30万倍[17] 产品应用前景 - AI助手可观察用户操作并协助完成任务,如浏览器标签管理[11] - 教育领域可能成为AI杀手级应用场景,可自动生成互动教学内容[10] - 物理机器人智能体在未来几年可能完成数十种实际工作任务[7]