模型压缩
搜索文档
突发|华为诺亚方舟实验室主任王云鹤离职
机器之心· 2026-03-28 12:45
行业高层人事变动 - 2026年以来,国内AI圈经历一系列高层人事变动,表明行业正经历一次深刻的结构性转折[3] - 华为诺亚方舟实验室主任王云鹤官宣离职,成为行业焦点[1][25] 王云鹤个人背景与职业履历 - 王云鹤生于1991年,本科就读于西安电子科技大学数学与应用数学专业,2018年博士毕业于北京大学智能科学系[5] - 其研究方向包括深度学习、模型压缩、机器学习、计算机视觉等[5] - 博士毕业前已在华为诺亚方舟实验室实习,毕业后加入并担任高级工程师,后续升任主任工程师和技术专家[8] - 2021年担任华为算法应用部部长,负责高效AI算法的创新研发与应用,其“大幅提升算力的高效能乘法器和加法神经网络”获选华为第四届“十大发明”[8] - 2025年3月接班姚骏,担任华为诺亚方舟实验室主任,在华为工作超过8年[8] - 他是一位活跃的知乎答主,是“深度学习”话题的优秀答主[11] 王云鹤的学术成就与研究贡献 - 谷歌学术引用量突破33,000次(33,921次),h指数为64,i10指数为158[13][14] - 引用量最高的论文是CVPR 2020的“GhostNet: More features from cheap operations”,引用次数达6,109次,该研究提出了一种新型的端侧神经网络架构[14][15] - GhostNet在ImageNet分类任务上,在相似计算量情况下Top-1正确率达75.7%,高于MobileNetV3的75.2%[16] - 在Vision Transformer方向成就斐然,其参与发表的综述文章“A survey on vision transformer”引用量高达5,528次[18] - 参与的重要研究“Pre-trained image processing transformer”及“Transformer in transformer”引用次数均逼近3,000次[18] - 这些工作系统性地优化了自注意力机制在视觉特征提取中的计算效率,推动了Transformer架构在视觉任务中的应用与普及[18] 王云鹤对AI技术的前沿见解 - 他认为Transformer是“量变到质变长期积累得到的范式”,而扩散模型在建模方式上可能有潜力对自回归带来很大冲击[21] - 他系统性地梳理了扩散语言模型当前面临的10个核心挑战与优化方向,涵盖推理高效的架构设计、更适配的词表探索、更好的优化范式等多个维度[21] - 他强调最理想的扩散模型不应遵循现有自回归范式,应像人思考一样具有结构性,并建议未来AI模型设计可借鉴人类多尺度思考的特点,探索具有层级联系的词表结构[21] - 提出将离散扩散模型与视觉、语言及动作模块在具身智能等场景下融合,有望探索出更加统一的模型结构与训练范式[21] - 在其主导的论文《DLLM Agent: See Farther, Run Faster》中,团队探讨了底层语言模型的生成范式(扩散DLLM vs 自回归AR)对智能体规划、工具使用及决策轨迹的深刻影响[22] - 其提出的DLLM智能体可以实现更高效的全局规划,在最终准确率相当的情况下,端到端速度更快,交互与工具调用更少,并减少了冗余与回溯[24] 离职影响与未来展望 - 王云鹤作为在华为效力8年有余的AI领军人物,主导了多项具有国际影响力的底层算法创新,他的离职是行业内的一大焦点[25] - 他带着对扩散语言模型与通用人工智能统一架构的深刻思考离开,其下一段职业旅程值得整个行业持续关注[26]
想进OpenAI?先解出这道题,百万美元算力已就位
机器之心· 2026-03-19 14:49
OpenAI发起“Parameter Golf”模型挑战赛 - 公司发起一项名为“Model Craft Challenge: Parameter Golf”的全球性挑战,旨在资源严格受限的条件下探索更高效的预训练模型[3][4] - 挑战核心目标是在固定的FineWeb数据集上,尽可能降低验证损失,同时将包含权重与训练代码的模型产物控制在16 MB以内,并在8张H100 GPU上于10分钟内完成训练[1] - 该挑战借鉴了高尔夫球玩法,追求用最少的参数(类比最少的杆数)完成模型任务,探索模型压缩与效率优化的技术极限[4] 挑战赛的具体规则与资源支持 - 提交产物大小上限为十进制的16MB(16,000,000字节),包含代码体积与压缩后的模型体积,所有代码必须放在单一脚本中,且产物必须完全自包含、可复现[13] - 评测阶段限制在8张H100 GPU上,评测时间不得超过10分钟(此限制在10分钟训练时间之外额外计算)[14] - 公司为降低参与门槛,提供了总额100万美元的算力支持,参与者可通过申请表申请来自Runpod的免费算力额度,但额度有限且申请不保证获批[6][15] 挑战赛的参与方式与激励机制 - 挑战时间从3月18日持续到4月30日,参与者需fork公司提供的GitHub仓库,在满足限制条件下改进模型,并通过提交PR(拉取请求)来参与,审核通过后结果将更新至排行榜[10] - 参与资格原则上面向年满18岁且位于公司支持地区的人员,允许多次提交,但仅限个人参与,不允许团队形式[12][16][17] - 表现突出的参与者可能会被邀请参加公司的面试机会,获胜方案有可能被公开展示,公司计划在6月招聘早期研究人才,此次挑战可能成为一块敲门砖[4][8] 行业对挑战赛的设计理念与反响 - 挑战赛设计旨在封杀堆参数、拼算力的暴力解法,迫使参与者专注于结构设计、极致压缩、策略取舍与工程巧劲[2] - 该挑战在很大程度上借鉴了NanoGPT Speedrunning的思路,并在其基础上进一步聚焦参数受限条件下的高效模型设计,有望推动新型架构、压缩方法及创造性训练推理策略的探索[5] - 行业看法出现分歧:有观点认为这是识别优秀工程师的真正方式,看重其在受限条件下的权衡能力[20];也有观点认为公司本应使用AI Agent自动完成此类参数优化,采用“人类比赛”形式略显复古[23][25]
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26
量子位· 2026-03-05 14:33
行业背景与痛点 - 视觉大模型(如Vision Transformer)在图像识别等任务中表现出色,但参数庞大、计算开销高,难以在资源受限的终端设备上高效运行[1][4] - 云侧部署虽然计算资源充足,但难以保证自动驾驶、智慧医疗等场景所需的实时性、安全性和可靠性[4] - 边缘/端侧部署能减少延迟、保护隐私并提高可靠性,但大模型需要通过压缩才能部署[6] - 许多实际应用场景(如自动驾驶)仅需处理少数关键目标类别,通用模型中大量无关知识不仅浪费资源,还会削弱模型对关键目标的聚焦能力[1][7][8] 解决方案与核心创新 - 相比“大而全”的通用模型,“小而专”的定制化模型更贴合实际需求,能降低部署成本并有利于长期稳定运行[2] - 华中科技大学与阿里巴巴集团安全部联合提出定制化端侧模型部署新范式——Vulcan,其论文已被ICLR 2026接收[3] - Vulcan采用“先训练再剪枝”的新范式,改变了传统的“先剪枝再训练”策略,旨在引导模型聚焦目标类别并引入结构化参数冗余[3] - 该方法支持将训练后的视觉大模型以近乎无损的方式转换为定制化小模型,避免了剪枝带来的不可逆知识损失[3] - Vulcan的核心思想是在模型压缩过程中充分挖掘并保留ViT中与目标类别高度相关的关键信息[13] 技术原理与关键洞见 - 研究团队揭示了类相关信息与类无关信息在视觉Transformer网络中的分布规律[10] - 在前馈网络模块中,不同神经元编码不同视觉特征,深层神经元聚焦高层语义甚至特定类别,表明FFN模块是类特定知识的重要载体[10] - 在多头注意力模块中,Query-Key和Value-Output矩阵乘法的中间维度主要承载类别无关的通用表征信息,具有天然的低秩特性,适合通过矩阵分解实现压缩[11] - Vulcan框架包含两大核心组件:类中心神经元坍缩 和 截断核范数正则化[13] - CCNC组件旨在FFN中凝练与目标类别最相关的关键信息,通过评估激活强度、聚类神经元并引导向锚点收敛,将冗余神经元整合为少量高价值单元[15] - TNNR组件旨在利用MHA模块中权重矩阵的低秩特性,引导其形成更适合奇异值分解的结构,将类无关知识集中在少数维度上[15] - 在增广拉格朗日优化框架下,后训练初期以任务损失为主导,后期CCNC和TNNR约束逐步占据主导,引导模型结构演化[16] - 训练后直接执行确定性结构化剪枝:在FFN模块中将神经元簇替换为锚点神经元,在MHA模块中通过SVD截取主要奇异分量,由于冗余已被充分约束,此过程被证明是计算等价且精度无损的[17] 实验效果与性能 - 在图像分类、目标检测和实例分割三类视觉任务上,于ImageNet、CIFAR和COCO等数据集进行了系统评估[18] - Vulcan派生的模型在ImageNet子任务上的准确率最高可提升15.12%,而模型规模仅为原模型的20%–40%[19] - Vulcan始终优于当前最先进的结构化剪枝方法,在类特定准确率方面最高可提升13.92%[19] - 在剪枝率为0.60和0.80的对比实验中,Vulcan在多个子任务上的平均准确率均显著高于Random、NViT、X-Pruner、DC-VIT、MDP等方法[21] - Vulcan在DeiT-Small、DeiT-Tiny和Mask R-CNN等不同规模基础模型以及CIFAR、COCO等多个数据集上表现出良好的跨模型和跨任务泛化能力[21] - 在Jetson Orin NX边缘设备和NVIDIA RTX 4090服务器上的部署测试显示,Vulcan可以实现1.23倍至3.02倍的推理加速[22] - 在部署测试中,Vulcan可以降低20.59%至76.47%的显存占用[22] - 具体数据显示,在DeiT-Base模型上,Vulcan在不同剪枝率下均能减少参数数量和计算量,并显著提升推理吞吐量和降低延迟[23] - 在面向Stanford Dogs子任务的可视化分析中,证实Vulcan能引导模型在后训练阶段强化目标类别知识表达,使神经元响应模式从分散转为集中清晰[23] 总结与意义 - 该研究表明,深入理解模型内部知识结构是实现稳定可靠轻量化部署的关键[25] - Vulcan通过揭示ViT中类相关与类无关知识的解耦分布,并在后训练阶段主动塑造可控冗余结构,实现了近乎无损的类特定模型派生[25] - 该方法为视觉大模型从“通用泛化”走向“精准服务”提供了切实可行的新思路[25]
被拒≠失败!这些高影响力论文都被顶会拒收过
机器之心· 2025-12-11 10:47
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法,该方法借鉴了创建Gemini Flash模型的经验,旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出,其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿,但如今已成为模型压缩和大模型落地的标配方法,论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**:由Sepp Hochreiter和Jürgen Schmidhuber提出,在1996年被NIPS拒稿,拒稿理由包括参数过多、过于复杂且缺乏生物学合理性,如今引用量达139,707次,并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**:由David Lowe提出,在1997年和1998年先后被ICCV和CVPR拒稿,理由是被认为“过于繁琐”、“不够优雅”,最终以Poster形式发表,曾统治计算机视觉领域长达15年,如今引用量达27,389次[11][14] - **Dropout**:由Geoffrey Hinton团队提出,在2012年投稿NIPS时被拒,评审认为其核心思想过于激进且缺乏数理逻辑,但该技术迅速成为AlexNet夺冠ImageNet的关键,如今引用量达60,231次[17] - **Word2Vec**:由Tomas Mikolov等人提出,在首届ICLR会议上收到“Strong Reject”评价,评审认为其“比较不科学”、“定义模糊”,但通过开源代码迅速成为NLP领域基石,并于2023年获NeurIPS“时间检验奖”,如今引用量达50,855次[19][20] - **YOLO**:由Joseph Redmon等人提出,在2015年被ICCV拒稿,评审因其定位精度不如R-CNN系列而拒绝,但忽视了其实现45 FPS实时检测的速度优势,如今YOLO系列已迭代至v13,成为工业界最受欢迎的检测框架,引用量达69,782次[27][28][30] - **RoBERTa**:由Meta AI研究人员提出,在投稿ICLR 2020时被拒,评审认为其新颖性和技术贡献有限,只是“仔细调参”和“使用更多数据”,但该模型超越了原始BERT,成为后续NLP研究的标准基线,如今引用量达23,479次[32] - **Mamba**:由Albert Gu和Tri Dao提出,在ICLR 2024评审中折戟,评审理由包括与其前作S4相比增量不足、未全面超越Transformer等,但该架构在社区引发热烈讨论,基于其的变体大量涌现,成为2024年最具影响力的架构创新之一,如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后,表现为“简单性陷阱”,即倾向于将数学复杂性等同于研究贡献,从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者,存在“范式惯性”,当YOLO或Deep Image Prior等新思想出现时,旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域,过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破,例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石,但难以摆脱人类认知的局限性,它善于识别错误,却往往拙于鉴别天才,真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]
联想申请数据处理方法、模型压缩方法及装置专利,公开一种数据处理方法、模型压缩方法及装置
金融界· 2025-05-31 08:32
公司专利技术 - 联想(北京)有限公司申请了一项名为"数据处理方法、模型压缩方法及装置"的专利,公开号CN120068971A,申请日期为2025年02月 [1] - 专利涉及数据处理方法,适用于图像、文本、语音和视频数据中的至少一种 [1] - 专利技术可根据任务类型(第一类型或第二类型)选择不同的参数集合处理数据,其中基础参数部分相同,私有参数部分包含相同部分参数 [1] 公司背景信息 - 联想(北京)有限公司成立于1992年,位于北京市,主要从事计算机、通信和其他电子设备制造业 [2] - 公司注册资本为565000万港元 [2] - 公司对外投资了102家企业,参与招投标项目5000次 [2] - 公司拥有商标信息1730条,专利信息5000条,行政许可237个 [2]
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 09:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]