VPS)方法

搜索文档
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
机器之心· 2025-06-15 12:40
核心观点 - AI决策的可靠性与安全性是实际部署的核心挑战,提升模型可解释性是迫切需求[1] - 当前解释方法(如Shapley Value等)在多模态任务或大规模模型中存在局限性[1] - 提出视觉精度搜索(VPS)方法,可提高模型可理解性并解释预测错误原因[2][9] - 该方法在CVPR 2025获Highlight Paper(387/13008, 2.98%)[2] 背景挑战 - 多模态预训练技术使物体级基础模型(如Grounding DINO)应用广泛但解释复杂[8] - 现有方法面临两大挑战:基于梯度的方法定位不精确,基于扰动的方法噪声多[8] 方法创新 - 将归因问题建模为基于子模子集选择的搜索问题[12] - 设计线索分数(S_clue)评估区域定位识别能力[15] - 引入协作分数(S_colla)衡量子区域协同贡献[16] - 结合两者构建子模函数F(S,b_target,c)[17] - 使用贪心搜索算法生成显著图[18] 实验结果 - 在MS COCO目标检测任务中超越D-RISE方法:Insertion提升23.7%,Deletion提升6.7%,平均最高分提升10.6%[22] - 在RefCOCO指代表达理解任务中:Insertion提升20.1%,Deletion提升22.1%,平均最高分提升4.4%[22] - 在LVIS V1零样本检测任务中:Insertion提升31.6%,Deletion提升4.2%,平均最高分提升15.9%[22] - 显著图质量优于ODAM(弥散状)和D-RISE(嘈杂),能清晰突出重要子区域[22] 错误解释能力 - 能解释视觉定位任务中的决策错误(如图5展示干扰区域)[25] - 能解释目标检测中的分类错误(如图6显示背景干扰区域)[27] - 能解释漏检错误原因(如图7显示相似物体混淆和环境因素影响)[30] 应用前景 - 可应用于模型训练提升决策合理性[32] - 可用于推理时监控决策进行安全防护[32] - 可通过可解释发现关键缺陷以最小代价修复模型[32]