稀疏模型 - 财报，业绩电话会，研报，新闻

稀疏模型

搜索文档

量子位· 2026-01-13 08:39

核心观点 - DeepSeek团队提出了一种名为“条件记忆”的全新建模范式，并给出了具体实现方案Engram模块，旨在为Transformer架构补上原生的知识查找机制 [1][5] - 该技术将条件记忆视为下一代稀疏模型不可或缺的建模原语 [2] - 通过将部分稀疏参数预算分配给Engram记忆模块，可以在固定计算量下显著提升模型性能，甚至在通用推理和代码数学领域带来超预期的提升 [5][34][47] 技术原理与设计 - **核心问题**：现有Transformer架构缺乏原生知识查找机制，识别静态实体（如“Diana, Princess of Wales”）需要消耗多层注意力进行低效的特征拼凑，浪费了本可用于高层推理的网络深度 [8][9][10][11][13] - **解决方案**：回归查表思想，将经典的N-gram方法嵌入Transformer，通过哈希查找以O(1)时间复杂度直接获取固定实体和短语的对应向量 [6][7][14][15] - **关键技术**： - 引入上下文感知的门控机制，用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度，自动屏蔽噪声 [17][18] - 通过压缩tokenizer，将语义相同但形式不同的token归为一类，使128k词表的有效规模减少23% [25] - 使用多个哈希函数将N-gram映射到固定大小的embedding表，解决了传统N-gram模型的存储爆炸和语义重复问题 [24][26] 性能优化与实验发现 - **稀疏性分配**：在固定总参数量和每token激活参数量的前提下，研究MoE专家与Engram记忆之间的参数分配，结果呈现U型曲线 [30][31][32] - 纯MoE并非最优，将约20%到25%的稀疏参数预算分配给Engram记忆时，模型验证集loss达到最低 [34] - 在100亿参数规模下，最优配置比纯MoE基线的loss降低了0.0139 [35] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间 [36] - **大规模验证**：在270亿参数规模下对比纯MoE模型与加入Engram的混合模型，所有模型激活参数量均为38亿，训练token为2620亿 [39][40] - Engram-27B模型将5.7B稀疏参数分配给Engram记忆模块 [43] - Engram-40B模型进一步将Engram记忆参数增至18.5B，总参数达39.5B [44] - **性能提升**： - **语言建模**：在验证集上，Engram-27B的loss为1.622，优于MoE-27B的1.634和Dense-4B的1.768 [48] - **知识推理**：在多项基准测试中显著提升，例如MMLU准确率从57.4提升至60.4，C-Eval从58.0提升至62.7 [48] - **通用推理与代码数学**：提升幅度超预期，BBH提升5.0分，ARC-Challenge提升3.7分，HumanEval提升3.0分，MATH提升2.4分 [47][49] - **长上下文**：在RULER测试集上，Multi-Query NIAH准确率从84.2跃升至97.0，Variable Tracking从77.0提升至89.0 [55][56] - **效率提升原理**：Engram让模型早期层无需进行特征组合的“苦力活”，预测收敛速度更快。Engram-27B第5层的表征与MoE基线第12层的表征最相似，相当于“加深”了网络有效深度，释放的层数用于更复杂推理 [50][51] 工程实现与硬件效率 - **训练优化**：百亿级参数的词表通过拆分到多个GPU并使用All-to-All通信机制进行处理 [59] - **推理优化**：利用Engram确定性寻址的特点，可将巨大的嵌入表卸载至CPU内存，并通过PCIe异步预取使通信与GPU计算重叠，额外延迟开销控制在3%以内 [60][62][63] - 实验将1000亿参数的Engram表放在CPU内存，在H800上运行推理，4B密集模型吞吐量从9031 token/s降至8858 token/s，8B密集模型从6315 token/s降至6140 token/s [63][64] - **缓存设计**：利用N-gram访问的Zipfian分布特性，可设计多级缓存（高频放GPU显存、中频放CPU内存、长尾放NVMe SSD）以进一步压缩延迟 [65] - **设计原则**：Engram将“硬件感知效率”确立为核心设计原则，其存储与计算解耦的特性支持海量参数表的高效卸载 [66]

Artificial Intelligence

Artificial Intelligence

DeepSeek开源大模型

腾讯研究院AI速递 20251216

腾讯研究院· 2025-12-16 00:22

Manus 1.6 发布与AI Agent能力跃升 - Manus 1.6 Max发布，实现从“辅助工具”到“独立承包商”的质变，用户满意度提升19.2%，采用子Agent并行处理架构，能独立完成复杂Excel财务建模和数据分析 [1] - 新增移动开发功能，支持端到端App开发流程，用户只需描述需求即可生成可运行的iOS和Android应用 [1] - 推出Design View设计视图，实现局部修图、精准文字渲染和多图层合成，解决AI生图不可控的痛点 [1] OpenAI开源稀疏模型与可解释性研究 - OpenAI开源Circuit-Sparsity模型，参数量仅0.4B，强制99.9%权重为零仅保留0.1%非零权重，旨在解决模型可解释性问题 [2] - 该稀疏模型内部形成紧凑可读的“电路”，规模比密集模型缩减16倍，神经元激活具有明确语义，但运算速度慢100至1000倍 [2] - 研究团队提出“桥梁网络”方案，在稀疏模型与密集模型间插入编码器-解码器对，实现对现有大模型的可解释性行为编辑 [2] 模型微调与推理服务更新 - 前OpenAI CTO创办的Thinking Machines全面开放Tinker产品，这是一个用于帮助开发者微调语言模型的API [3] - Tinker新增支持Kimi K2 Thinking（万亿参数规模专为长链推理设计）和Qwen3-VL视觉输入（30B和235B两款模型）的微调 [3] - 提供兼容OpenAI API的全新推理接口，用户可即插即用接入任何兼容OpenAI API的平台，简化LLM后训练过程 [3] 谷歌产品整合与AI工具进化 - NotebookLM正式“接入”Gemini体系，用户可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答 [4] - Gemini成为连接多个NotebookLM笔记的“中枢”，解决了NotebookLM不支持笔记本合并的问题，可同时调用多个笔记进行查询 [4] - NotebookLM内容开始可与网络信息同时使用，实现“个人资料+全网信息”混合式分析，从“小众研究工具”融入谷歌核心AI产品线 [4] 通义语音与识别模型升级 - 通义百聆发布Fun-CosyVoice3模型升级，首包延迟降低50%，中英混字准确率翻倍，支持9语种18方言口音跨语种克隆与情感控制 [5] - Fun-ASR在噪声场景准确率达93%，支持歌词与说唱识别、31语种自由混说、方言口音覆盖，并将流式识别模型的首字延迟降低到160ms [5] - 开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力，并开源Fun-ASR-Nano-0.8B轻量化版本以降低推理成本 [6] Zoom与AI模型在专业考试中的表现 - 视频会议公司Zoom宣称在“人类最后的考试”HLE基准测试上取得48.1%成绩，比Google Gemini 3 Pro的45.8%高出2.3个百分点 [7] - Zoom采用“联邦AI方法”，将自研小型语言模型与OpenAI、Anthropic、Google等公司的闭源和开源模型组合，通过Z-scorer评分系统选择输出 [7] - 该成绩未出现在HLE官方排行榜，发布当天Sup AI已宣布以52.15%准确率超越，Zoom正试图成为企业工作流中的AI中枢 [7] AI模型在金融专业资格考试中的突破 - 最新研究显示推理模型全部通过CFA三级考试，Gemini 3.0 Pro在一级考试中创下97.6%的历史最高纪录，GPT-5在二级考试中以94.3%领先 [8] - 在三级考试中，Gemini 2.5 Pro选择题达86.4%，Gemini 3.0 Pro问答题达92.0%，短短两年从“不及格”到“近乎满分” [8] - 专家指出会考试不等于能干活，AI在“道德伦理”类题目最吃力，且无法排除“数据污染”可能，不能替代分析师的战略思考和客户沟通 [8] 医疗AI公司估值与商业化进展 - OpenEvidence正在进行2.5亿美元股权融资，投后估值达120亿美元，较两个月前上一轮私募估值翻了一番 [9] - 该公司通过向制药公司出售聊天机器人广告位赚钱，目前年化广告收入约1.5亿美元，比8月份增长3倍，毛利率高于90% [9] - 根据OffCall调查，约45%美国医生使用OpenEvidence，每月回答来自美国医生约2000万个问题，使用医学期刊许可信息比通用聊天机器人更准确 [9] AI在软件开发中的深度应用 - OpenAI仅用4人工程团队与AI智能体Codex协作，在28天内完成安卓版Sora开发，消耗约50亿Token，约85%代码由AI完成 [10] - 团队采用“探索-验证-联邦”智能体工作流，Codex处理繁重编码任务，工程师专注架构、用户体验和质量把控，实现99.9%无崩溃率 [10] - Codex已承包OpenAI内部每周70%的PR，能监控自己训练过程并处理用户反馈，形成“AI迭代AI”的自我进化模式 [10] AI成人内容市场趋势与社会影响 - 到2025年AI成人内容市场规模将达约25亿美元，到2028年可能以每年约27%速度增长，OpenAI、Meta等巨头纷纷布局该领域 [11] - AI成人内容彻底颠覆传统生产方式，可按需定制性格、语气、外貌，研究显示人类会觉得AI生成的脸比真人脸“更真实” [11] - DeepFake技术成为校园霸凌和羞辱女性工具，仅需一张照片AI就能“脑补”裸体，专家警告AI正在制造隔离而非缓解孤独 [11]

生成式AI

稀疏模型

AI迭代AI

Artificial Intelligence

Artificial Intelligence

Tinker

NotebookLM

OpenAI又开源了，仅0.4B，给模型大瘦身

36氪· 2025-12-15 16:14

文章核心观点 - OpenAI开源了名为Circuit-Sparsity的稀疏Transformer模型，该模型通过强制99.9%的权重为零，在模型内部形成了紧凑且可读的“电路”，旨在从根本上解决大语言模型（LLM）的“黑箱”可解释性问题 [1][6] - 该技术被部分观点视为对当前混合专家模型（MoE）架构的潜在挑战，但同时也面临训练成本高、计算效率低等重大瓶颈，距离直接应用于千亿参数大模型尚不成熟 [1][4][17] 技术原理与实现 - 研究团队采用“反直觉”策略，直接训练权重稀疏的Transformer模型，强制模型权重矩阵中99.9%权重为零，仅保留0.1%非零权重，以理清内部计算 [1][6] - 具体技术手段包括：动态剪枝与Top-K稀疏化、在关键位置引入AbsTopK激活函数强制仅保留前25%的激活值、以及用RMSNorm替代LayerNorm等架构微调 [10] 研究成果与优势 - 模型内部形成了可读的“电路”，在处理特定任务时逻辑极简且清晰，例如仅用12个节点就构建了检测字符串引号是否闭合的完美电路 [11] - 神经元的激活具有明确语义，出现了专门检测“单引号”或像“计数器”一样追踪列表嵌套深度的神经元 [11] - 在相同任务损失下，稀疏模型的电路规模比密集模型小了16倍，极大降低了模型解读的难度 [11] - “均值消融”实验证实，电路中的关键节点是模型执行任务的“必经之路”，移除非电路节点影响甚微 [13] 当前局限与挑战 - 稀疏模型的运算速度较密集模型慢100至1000倍，主要因为稀疏矩阵运算无法借助Tensor Cores实现加速 [4][17] - 训练成本比传统模型高100-1000倍，现阶段将该技术直接应用于千亿参数级别的大模型尚不具备可行性 [4][17] 未来方向与解决方案 - 研究团队提出了“桥梁网络”方案，通过在稀疏模型与预训练的密集模型之间插入编码器-解码器对，实现对现有“黑箱”大模型的可解释性行为编辑 [17] - 后续研究方向包括：从现有密集模型中提取稀疏电路以替代从头训练，以及研发更高效的可解释性模型训练技术 [18]

可解释AI

稀疏模型

Artificial Intelligence

Circuit-Sparsity

可解释AI

稀疏模型

Artificial Intelligence

Circuit-Sparsity

OpenAI又Open了一下：发布可解释性新研究，作者来自Ilya超级对齐团队

量子位· 2025-11-15 10:08

研究核心观点 - OpenAI公开了一项内部研究，旨在通过训练稀疏模型来提升大型语言模型的可解释性，使模型的内部工作机制更易于人类理解[5][7][9] - 该方法的核心思路是训练神经元连接少但神经元数量多的模型，通过强制将大部分权重设为0来简化网络结构，从而更容易识别完成特定任务的最小计算单元（即“回路”）[7][11][13] - 研究表明，通过训练更大、更稀疏的模型，可以生成功能更强大但回路更简单的模型，这为理解更复杂模型的行为提供了潜在路径[26][27] 研究方法与发现 - 研究人员训练了一个基于类似GPT-2架构的小模型，关键改动是强制将模型的大部分权重设为0，从而创建一个稀疏网络[11] - 为评估可解释性，研究设计了一系列简单算法任务，并为每个任务提取出能精准完成该任务的“最小回路”[18] - 回路被定义为由节点和边组成的图，其规模通过边数的几何平均值进行量化[16][17] - 在一个具体任务示例中（预测字符串结尾引号类型），得到的回路仅使用了5个残差通道、第0层的两个MLP神经元以及第10层的特定注意力通道，流程清晰可解释[20][22] - 对于更复杂的行为（如变量绑定），虽然难以完全解释，但仍可得出相对简单的部分解释以预测模型行为[23] 研究局限与未来方向 - 该研究仍处于早期阶段，所使用的稀疏模型比前沿模型小得多，且即使稀疏模型也存在部分“黑盒”计算[30] - 当前稀疏模型的训练效率较低，未来可能通过从现有密集模型中提取稀疏回路，或开发更高效的训练技术来解决[31][32] 研究团队背景 - 论文通讯作者为Leo Gao，其研究方向是AGI对齐，曾参与GPT-Neo和GPT-4的研究，论文被引数超过3.5万次，h-index为19[34] - 研究团队由6位成员组成，包括来自MIT、斯坦福等院校的实习生以及OpenAI内部资深研究科学家，具备跨学科背景[36][37][38][39][40]

模型可解释性

稀疏模型

Artificial Intelligence

Artificial Intelligence

ChatGPT

GPT-2

GPT-4

反直觉: MoE混合专家模型和场景没什么关系

理想TOP2· 2025-08-29 00:01

混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段旨在提高计算效率实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算近似实现全部参数计算效果对最终输出影响极小[2] - 专家分配并非基于场景划分而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家实现算力动态分配[2] - 更难的问题可分配更多算力同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型超车场景可能使用另一子模型这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]

Jeff Dean：一年内 AI 将取代初级工程师，网友：“Altman 只会画饼，Jeff 说的话才致命”

AI前线· 2025-05-28 13:17

谷歌AI发展现状与未来展望 - 谷歌传奇工程师Jeff Dean预测一年内将出现具备初级工程师能力的24/7全天候AI系统 [1][14][15] - 谷歌在AI领域贡献包括Transformer架构、BERT论文、TPU研发等关键技术 [1][5] - 谷歌AI发展遵循"模型越大、数据越多、结果越好"原则，12-15年来持续验证该规律 [5][6] AI技术演进路径 - 多模态成为重要趋势，AI可处理音频/视频/图像/文本/代码等多种输入输出形式 [6] - 智能体技术潜力巨大，未来几年物理机器人智能体将能完成数十种实际工作 [7][8] - 知识蒸馏技术可将强大模型压缩为轻量级模型，适配更多应用场景 [8][9] 硬件与基础设施 - 谷歌TPU硬件历经多代演进，最新Ironwood将接替Trillium版本 [17] - Pathways系统实现单一Python进程控制上万设备，已向云客户开放 [20] - 模拟计算在功耗效率方面具优势，数字计算仍有专业化空间 [18][19] 行业竞争格局 - 构建最先进模型需巨额投资，最终市场可能仅存少数几个通用强大模型 [8][13] - 算法改进与硬件投入同等重要，Gemini模型代际演进中算法贡献显著 [13] - 稀疏模型（如混合专家结构）可提升10-100倍效率，是未来重要方向 [26][27] AI应用场景突破 - AI已能根据YouTube视频自动生成教育游戏，成功率约30% [11] - 大型多模态模型将重塑搜索引擎，可能深度集成至Chrome浏览器 [12] - AI加速科学发现，神经网络替代传统模拟器速度提升30万倍 [18][19] 开发者生态 - 云TPU开发者体验存在改进空间，正推进Google Cloud与Gemini堆栈统一 [21] - 计算范式变革要求算法分析需考虑网络/内存带宽等硬件特性 [24][25] - 未来计算平台需适应训练/推理差异化需求，平衡资源分配 [22][23]

Jeff Dean：一年内 AI 将取代初级工程师，网友：“Altman只会画饼，Jeff说的话才致命”

新浪财经· 2025-05-19 06:46

AI技术发展预测 - 谷歌首席科学家Jeff Dean预测一年内将出现具备"初级工程师"能力的24/7全天候AI系统[1][13] - AI工程师不仅能够编写代码，还具备人类工程师难以比拟的持续性与规模化潜力[4] - 多模态成为重要趋势，AI输入输出可涵盖音频、视频、图像、文本或代码等多种形式[6] AI行业格局 - 构建最先进AI模型需要大量投资，最终市场可能仅保留少数几个主流模型[8] - 知识蒸馏技术可将强大模型压缩成轻量级模型，适配更多应用场景[9] - 谷歌通过Pathways系统实现单一Python进程控制上万设备，显著提升开发者体验[19][20] 硬件发展趋势 - 专用机器学习硬件如TPU对AI发展至关重要，谷歌已推出多代TPU产品[16] - 模拟计算在功耗效率方面具有优势，可能成为未来推理硬件发展方向[18] - AI计算需求变化推动硬件创新，需要针对训练和推理不同负载优化设计[22] 技术突破方向 - 稀疏模型和混合专家架构可带来10-100倍的效率提升[24] - 动态扩展模型结构比固定模型更具潜力，可优化资源分配[25] - AI正在改变科研方式，神经网络可加速科学模拟达30万倍[17] 产品应用前景 - AI助手可观察用户操作并协助完成任务，如浏览器标签管理[11] - 教育领域可能成为AI杀手级应用场景，可自动生成互动教学内容[10] - 物理机器人智能体在未来几年可能完成数十种实际工作任务[7]