Workflow
稀疏模型
icon
搜索文档
腾讯研究院AI速递 20251216
腾讯研究院· 2025-12-16 00:22
生成式AI 一、 深夜炸场!Manus 1.6 突然发布,史诗级进化暴力实测 1. Manus 1.6 Max发布,实现从"辅助工具"到"独立承包商"的质变,用户满意度提升19.2%,采用子Agent并行处理架 构,能独立完成复杂Excel财务建模和数据分析; 2. 新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成可运行的iOS和Android应用; 3. 推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点。 https://mp.weixin.qq.com/s/8gsfjMHOiadZMrRUUo4ZRw 二 、 OpenAI开源模型Circuit-Sparsity,0.4B,99.9%权重为零 4. OpenAI开源Circuit-Sparsity模型参数量仅0.4B,强制99.9%权重为零仅保留0.1%非零权重,解决模型可解释性 问题; 1. 前OpenAI CTO Mira Murati创办的Thinking Machines取消候选名单全面开放Tinker产品,这是用于帮开发者微 调语言模型的API; 2. 新增支持Kimi K2 ...
OpenAI又开源了,仅0.4B,给模型大瘦身
36氪· 2025-12-15 16:14
有外网网友称这一技术让当下的MoE(混合专家模型)走到了尽头,并说"我们一直以来都将权重隔离到'专家'中,以此粗略地近似稀疏性, 仅仅是为了满足稠密矩阵核的要求。" 智东西12月15日报道,昨天,OpenAI开源新模型Circuit-Sparsity,模型参数量仅0.4B,99.9%的权重为零。 在AI飞速发展的今天,大语言模型(LLM)虽然表现出了惊人的能力,但其内部运作机制始终像一个神秘的"黑箱"。 我们不知道它为何做出某个回答,也不清楚它是如何从海量数据中提取知识的。这种不可解释性,成为了AI在医疗、金融、法律等高风险领 域落地的重大障碍。 对此,OpenAI研究团队训练出了一个权重稀疏的Transformer模型,强制模型权重矩阵中99.9%权重为零,仅保留0.1%非零权重。 在这项研究中,研究团队在模型内部形成了紧凑且可读的"电路"(Circuits),每个电路都仅保留了保证模型性能的关键节点,神经元的激活 变得具有明确的语义。 Circuit-Sparsity开源(来源:Hugging Face) 这个技术试图解决模型的可解释性问题,简单来说就是回答"模型为什么做出这个决策?"以及"它是如何得出这 ...
OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队
量子位· 2025-11-15 10:08
研究核心观点 - OpenAI公开了一项内部研究,旨在通过训练稀疏模型来提升大型语言模型的可解释性,使模型的内部工作机制更易于人类理解[5][7][9] - 该方法的核心思路是训练神经元连接少但神经元数量多的模型,通过强制将大部分权重设为0来简化网络结构,从而更容易识别完成特定任务的最小计算单元(即“回路”)[7][11][13] - 研究表明,通过训练更大、更稀疏的模型,可以生成功能更强大但回路更简单的模型,这为理解更复杂模型的行为提供了潜在路径[26][27] 研究方法与发现 - 研究人员训练了一个基于类似GPT-2架构的小模型,关键改动是强制将模型的大部分权重设为0,从而创建一个稀疏网络[11] - 为评估可解释性,研究设计了一系列简单算法任务,并为每个任务提取出能精准完成该任务的“最小回路”[18] - 回路被定义为由节点和边组成的图,其规模通过边数的几何平均值进行量化[16][17] - 在一个具体任务示例中(预测字符串结尾引号类型),得到的回路仅使用了5个残差通道、第0层的两个MLP神经元以及第10层的特定注意力通道,流程清晰可解释[20][22] - 对于更复杂的行为(如变量绑定),虽然难以完全解释,但仍可得出相对简单的部分解释以预测模型行为[23] 研究局限与未来方向 - 该研究仍处于早期阶段,所使用的稀疏模型比前沿模型小得多,且即使稀疏模型也存在部分“黑盒”计算[30] - 当前稀疏模型的训练效率较低,未来可能通过从现有密集模型中提取稀疏回路,或开发更高效的训练技术来解决[31][32] 研究团队背景 - 论文通讯作者为Leo Gao,其研究方向是AGI对齐,曾参与GPT-Neo和GPT-4的研究,论文被引数超过3.5万次,h-index为19[34] - 研究团队由6位成员组成,包括来自MIT、斯坦福等院校的实习生以及OpenAI内部资深研究科学家,具备跨学科背景[36][37][38][39][40]
反直觉: MoE混合专家模型和场景没什么关系
理想TOP2· 2025-08-29 00:01
混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段 旨在提高计算效率 实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算 近似实现全部参数计算效果 对最终输出影响极小[2] - 专家分配并非基于场景划分 而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题 遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练 不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下 部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家 避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家 实现算力动态分配[2] - 更难的问题可分配更多算力 同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好 但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型 超车场景可能使用另一子模型 这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman 只会画饼,Jeff 说的话才致命”
AI前线· 2025-05-28 13:17
谷歌AI发展现状与未来展望 - 谷歌传奇工程师Jeff Dean预测一年内将出现具备初级工程师能力的24/7全天候AI系统 [1][14][15] - 谷歌在AI领域贡献包括Transformer架构、BERT论文、TPU研发等关键技术 [1][5] - 谷歌AI发展遵循"模型越大、数据越多、结果越好"原则,12-15年来持续验证该规律 [5][6] AI技术演进路径 - 多模态成为重要趋势,AI可处理音频/视频/图像/文本/代码等多种输入输出形式 [6] - 智能体技术潜力巨大,未来几年物理机器人智能体将能完成数十种实际工作 [7][8] - 知识蒸馏技术可将强大模型压缩为轻量级模型,适配更多应用场景 [8][9] 硬件与基础设施 - 谷歌TPU硬件历经多代演进,最新Ironwood将接替Trillium版本 [17] - Pathways系统实现单一Python进程控制上万设备,已向云客户开放 [20] - 模拟计算在功耗效率方面具优势,数字计算仍有专业化空间 [18][19] 行业竞争格局 - 构建最先进模型需巨额投资,最终市场可能仅存少数几个通用强大模型 [8][13] - 算法改进与硬件投入同等重要,Gemini模型代际演进中算法贡献显著 [13] - 稀疏模型(如混合专家结构)可提升10-100倍效率,是未来重要方向 [26][27] AI应用场景突破 - AI已能根据YouTube视频自动生成教育游戏,成功率约30% [11] - 大型多模态模型将重塑搜索引擎,可能深度集成至Chrome浏览器 [12] - AI加速科学发现,神经网络替代传统模拟器速度提升30万倍 [18][19] 开发者生态 - 云TPU开发者体验存在改进空间,正推进Google Cloud与Gemini堆栈统一 [21] - 计算范式变革要求算法分析需考虑网络/内存带宽等硬件特性 [24][25] - 未来计算平台需适应训练/推理差异化需求,平衡资源分配 [22][23]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
新浪财经· 2025-05-19 06:46
AI技术发展预测 - 谷歌首席科学家Jeff Dean预测一年内将出现具备"初级工程师"能力的24/7全天候AI系统[1][13] - AI工程师不仅能够编写代码,还具备人类工程师难以比拟的持续性与规模化潜力[4] - 多模态成为重要趋势,AI输入输出可涵盖音频、视频、图像、文本或代码等多种形式[6] AI行业格局 - 构建最先进AI模型需要大量投资,最终市场可能仅保留少数几个主流模型[8] - 知识蒸馏技术可将强大模型压缩成轻量级模型,适配更多应用场景[9] - 谷歌通过Pathways系统实现单一Python进程控制上万设备,显著提升开发者体验[19][20] 硬件发展趋势 - 专用机器学习硬件如TPU对AI发展至关重要,谷歌已推出多代TPU产品[16] - 模拟计算在功耗效率方面具有优势,可能成为未来推理硬件发展方向[18] - AI计算需求变化推动硬件创新,需要针对训练和推理不同负载优化设计[22] 技术突破方向 - 稀疏模型和混合专家架构可带来10-100倍的效率提升[24] - 动态扩展模型结构比固定模型更具潜力,可优化资源分配[25] - AI正在改变科研方式,神经网络可加速科学模拟达30万倍[17] 产品应用前景 - AI助手可观察用户操作并协助完成任务,如浏览器标签管理[11] - 教育领域可能成为AI杀手级应用场景,可自动生成互动教学内容[10] - 物理机器人智能体在未来几年可能完成数十种实际工作任务[7]