行业背景与痛点 - 视觉大模型(如Vision Transformer)在图像识别等任务中表现出色,但参数庞大、计算开销高,难以在资源受限的终端设备上高效运行[1][4] - 云侧部署虽然计算资源充足,但难以保证自动驾驶、智慧医疗等场景所需的实时性、安全性和可靠性[4] - 边缘/端侧部署能减少延迟、保护隐私并提高可靠性,但大模型需要通过压缩才能部署[6] - 许多实际应用场景(如自动驾驶)仅需处理少数关键目标类别,通用模型中大量无关知识不仅浪费资源,还会削弱模型对关键目标的聚焦能力[1][7][8] 解决方案与核心创新 - 相比“大而全”的通用模型,“小而专”的定制化模型更贴合实际需求,能降低部署成本并有利于长期稳定运行[2] - 华中科技大学与阿里巴巴集团安全部联合提出定制化端侧模型部署新范式——Vulcan,其论文已被ICLR 2026接收[3] - Vulcan采用“先训练再剪枝”的新范式,改变了传统的“先剪枝再训练”策略,旨在引导模型聚焦目标类别并引入结构化参数冗余[3] - 该方法支持将训练后的视觉大模型以近乎无损的方式转换为定制化小模型,避免了剪枝带来的不可逆知识损失[3] - Vulcan的核心思想是在模型压缩过程中充分挖掘并保留ViT中与目标类别高度相关的关键信息[13] 技术原理与关键洞见 - 研究团队揭示了类相关信息与类无关信息在视觉Transformer网络中的分布规律[10] - 在前馈网络模块中,不同神经元编码不同视觉特征,深层神经元聚焦高层语义甚至特定类别,表明FFN模块是类特定知识的重要载体[10] - 在多头注意力模块中,Query-Key和Value-Output矩阵乘法的中间维度主要承载类别无关的通用表征信息,具有天然的低秩特性,适合通过矩阵分解实现压缩[11] - Vulcan框架包含两大核心组件:类中心神经元坍缩 和 截断核范数正则化[13] - CCNC组件旨在FFN中凝练与目标类别最相关的关键信息,通过评估激活强度、聚类神经元并引导向锚点收敛,将冗余神经元整合为少量高价值单元[15] - TNNR组件旨在利用MHA模块中权重矩阵的低秩特性,引导其形成更适合奇异值分解的结构,将类无关知识集中在少数维度上[15] - 在增广拉格朗日优化框架下,后训练初期以任务损失为主导,后期CCNC和TNNR约束逐步占据主导,引导模型结构演化[16] - 训练后直接执行确定性结构化剪枝:在FFN模块中将神经元簇替换为锚点神经元,在MHA模块中通过SVD截取主要奇异分量,由于冗余已被充分约束,此过程被证明是计算等价且精度无损的[17] 实验效果与性能 - 在图像分类、目标检测和实例分割三类视觉任务上,于ImageNet、CIFAR和COCO等数据集进行了系统评估[18] - Vulcan派生的模型在ImageNet子任务上的准确率最高可提升15.12%,而模型规模仅为原模型的20%–40%[19] - Vulcan始终优于当前最先进的结构化剪枝方法,在类特定准确率方面最高可提升13.92%[19] - 在剪枝率为0.60和0.80的对比实验中,Vulcan在多个子任务上的平均准确率均显著高于Random、NViT、X-Pruner、DC-VIT、MDP等方法[21] - Vulcan在DeiT-Small、DeiT-Tiny和Mask R-CNN等不同规模基础模型以及CIFAR、COCO等多个数据集上表现出良好的跨模型和跨任务泛化能力[21] - 在Jetson Orin NX边缘设备和NVIDIA RTX 4090服务器上的部署测试显示,Vulcan可以实现1.23倍至3.02倍的推理加速[22] - 在部署测试中,Vulcan可以降低20.59%至76.47%的显存占用[22] - 具体数据显示,在DeiT-Base模型上,Vulcan在不同剪枝率下均能减少参数数量和计算量,并显著提升推理吞吐量和降低延迟[23] - 在面向Stanford Dogs子任务的可视化分析中,证实Vulcan能引导模型在后训练阶段强化目标类别知识表达,使神经元响应模式从分散转为集中清晰[23] 总结与意义 - 该研究表明,深入理解模型内部知识结构是实现稳定可靠轻量化部署的关键[25] - Vulcan通过揭示ViT中类相关与类无关知识的解耦分布,并在后训练阶段主动塑造可控冗余结构,实现了近乎无损的类特定模型派生[25] - 该方法为视觉大模型从“通用泛化”走向“精准服务”提供了切实可行的新思路[25]
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26