Workflow
模型压缩
icon
搜索文档
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26
量子位· 2026-03-05 14:33
行业背景与痛点 - 视觉大模型(如Vision Transformer)在图像识别等任务中表现出色,但参数庞大、计算开销高,难以在资源受限的终端设备上高效运行[1][4] - 云侧部署虽然计算资源充足,但难以保证自动驾驶、智慧医疗等场景所需的实时性、安全性和可靠性[4] - 边缘/端侧部署能减少延迟、保护隐私并提高可靠性,但大模型需要通过压缩才能部署[6] - 许多实际应用场景(如自动驾驶)仅需处理少数关键目标类别,通用模型中大量无关知识不仅浪费资源,还会削弱模型对关键目标的聚焦能力[1][7][8] 解决方案与核心创新 - 相比“大而全”的通用模型,“小而专”的定制化模型更贴合实际需求,能降低部署成本并有利于长期稳定运行[2] - 华中科技大学与阿里巴巴集团安全部联合提出定制化端侧模型部署新范式——Vulcan,其论文已被ICLR 2026接收[3] - Vulcan采用“先训练再剪枝”的新范式,改变了传统的“先剪枝再训练”策略,旨在引导模型聚焦目标类别并引入结构化参数冗余[3] - 该方法支持将训练后的视觉大模型以近乎无损的方式转换为定制化小模型,避免了剪枝带来的不可逆知识损失[3] - Vulcan的核心思想是在模型压缩过程中充分挖掘并保留ViT中与目标类别高度相关的关键信息[13] 技术原理与关键洞见 - 研究团队揭示了类相关信息与类无关信息在视觉Transformer网络中的分布规律[10] - 在前馈网络模块中,不同神经元编码不同视觉特征,深层神经元聚焦高层语义甚至特定类别,表明FFN模块是类特定知识的重要载体[10] - 在多头注意力模块中,Query-Key和Value-Output矩阵乘法的中间维度主要承载类别无关的通用表征信息,具有天然的低秩特性,适合通过矩阵分解实现压缩[11] - Vulcan框架包含两大核心组件:类中心神经元坍缩 和 截断核范数正则化[13] - CCNC组件旨在FFN中凝练与目标类别最相关的关键信息,通过评估激活强度、聚类神经元并引导向锚点收敛,将冗余神经元整合为少量高价值单元[15] - TNNR组件旨在利用MHA模块中权重矩阵的低秩特性,引导其形成更适合奇异值分解的结构,将类无关知识集中在少数维度上[15] - 在增广拉格朗日优化框架下,后训练初期以任务损失为主导,后期CCNC和TNNR约束逐步占据主导,引导模型结构演化[16] - 训练后直接执行确定性结构化剪枝:在FFN模块中将神经元簇替换为锚点神经元,在MHA模块中通过SVD截取主要奇异分量,由于冗余已被充分约束,此过程被证明是计算等价且精度无损的[17] 实验效果与性能 - 在图像分类、目标检测和实例分割三类视觉任务上,于ImageNet、CIFAR和COCO等数据集进行了系统评估[18] - Vulcan派生的模型在ImageNet子任务上的准确率最高可提升15.12%,而模型规模仅为原模型的20%–40%[19] - Vulcan始终优于当前最先进的结构化剪枝方法,在类特定准确率方面最高可提升13.92%[19] - 在剪枝率为0.60和0.80的对比实验中,Vulcan在多个子任务上的平均准确率均显著高于Random、NViT、X-Pruner、DC-VIT、MDP等方法[21] - Vulcan在DeiT-Small、DeiT-Tiny和Mask R-CNN等不同规模基础模型以及CIFAR、COCO等多个数据集上表现出良好的跨模型和跨任务泛化能力[21] - 在Jetson Orin NX边缘设备和NVIDIA RTX 4090服务器上的部署测试显示,Vulcan可以实现1.23倍至3.02倍的推理加速[22] - 在部署测试中,Vulcan可以降低20.59%至76.47%的显存占用[22] - 具体数据显示,在DeiT-Base模型上,Vulcan在不同剪枝率下均能减少参数数量和计算量,并显著提升推理吞吐量和降低延迟[23] - 在面向Stanford Dogs子任务的可视化分析中,证实Vulcan能引导模型在后训练阶段强化目标类别知识表达,使神经元响应模式从分散转为集中清晰[23] 总结与意义 - 该研究表明,深入理解模型内部知识结构是实现稳定可靠轻量化部署的关键[25] - Vulcan通过揭示ViT中类相关与类无关知识的解耦分布,并在后训练阶段主动塑造可控冗余结构,实现了近乎无损的类特定模型派生[25] - 该方法为视觉大模型从“通用泛化”走向“精准服务”提供了切实可行的新思路[25]
被拒≠失败!这些高影响力论文都被顶会拒收过
机器之心· 2025-12-11 10:47
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法,该方法借鉴了创建Gemini Flash模型的经验,旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出,其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿,但如今已成为模型压缩和大模型落地的标配方法,论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**:由Sepp Hochreiter和Jürgen Schmidhuber提出,在1996年被NIPS拒稿,拒稿理由包括参数过多、过于复杂且缺乏生物学合理性,如今引用量达139,707次,并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**:由David Lowe提出,在1997年和1998年先后被ICCV和CVPR拒稿,理由是被认为“过于繁琐”、“不够优雅”,最终以Poster形式发表,曾统治计算机视觉领域长达15年,如今引用量达27,389次[11][14] - **Dropout**:由Geoffrey Hinton团队提出,在2012年投稿NIPS时被拒,评审认为其核心思想过于激进且缺乏数理逻辑,但该技术迅速成为AlexNet夺冠ImageNet的关键,如今引用量达60,231次[17] - **Word2Vec**:由Tomas Mikolov等人提出,在首届ICLR会议上收到“Strong Reject”评价,评审认为其“比较不科学”、“定义模糊”,但通过开源代码迅速成为NLP领域基石,并于2023年获NeurIPS“时间检验奖”,如今引用量达50,855次[19][20] - **YOLO**:由Joseph Redmon等人提出,在2015年被ICCV拒稿,评审因其定位精度不如R-CNN系列而拒绝,但忽视了其实现45 FPS实时检测的速度优势,如今YOLO系列已迭代至v13,成为工业界最受欢迎的检测框架,引用量达69,782次[27][28][30] - **RoBERTa**:由Meta AI研究人员提出,在投稿ICLR 2020时被拒,评审认为其新颖性和技术贡献有限,只是“仔细调参”和“使用更多数据”,但该模型超越了原始BERT,成为后续NLP研究的标准基线,如今引用量达23,479次[32] - **Mamba**:由Albert Gu和Tri Dao提出,在ICLR 2024评审中折戟,评审理由包括与其前作S4相比增量不足、未全面超越Transformer等,但该架构在社区引发热烈讨论,基于其的变体大量涌现,成为2024年最具影响力的架构创新之一,如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后,表现为“简单性陷阱”,即倾向于将数学复杂性等同于研究贡献,从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者,存在“范式惯性”,当YOLO或Deep Image Prior等新思想出现时,旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域,过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破,例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石,但难以摆脱人类认知的局限性,它善于识别错误,却往往拙于鉴别天才,真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]
联想申请数据处理方法、模型压缩方法及装置专利,公开一种数据处理方法、模型压缩方法及装置
金融界· 2025-05-31 08:32
公司专利技术 - 联想(北京)有限公司申请了一项名为"数据处理方法、模型压缩方法及装置"的专利,公开号CN120068971A,申请日期为2025年02月 [1] - 专利涉及数据处理方法,适用于图像、文本、语音和视频数据中的至少一种 [1] - 专利技术可根据任务类型(第一类型或第二类型)选择不同的参数集合处理数据,其中基础参数部分相同,私有参数部分包含相同部分参数 [1] 公司背景信息 - 联想(北京)有限公司成立于1992年,位于北京市,主要从事计算机、通信和其他电子设备制造业 [2] - 公司注册资本为565000万港元 [2] - 公司对外投资了102家企业,参与招投标项目5000次 [2] - 公司拥有商标信息1730条,专利信息5000条,行政许可237个 [2]
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 09:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]