行业背景与核心矛盾 - 当前工业缺陷检测等领域普遍使用的传统视觉模型对训练数据要求高,需要大量精细标注数据才能达到理想效果[1] - 在工业质检与医学影像等真实场景中,异常检测面临核心矛盾:模型需要跨领域泛化,同时又要在几乎没有目标域数据的情况下精确定位细微异常[3] - 现实生产中产线频繁换型,新产品刚投产时缺陷样本极少,而异常往往表现为局部、稀疏、小尺度的像素级变化,这使得依赖监督学习或目标域微调的方法难以落地[3] AdaptCLIP解决方案概述 - AdaptCLIP是一种通用视觉异常检测框架,由西门子与腾讯优图联合研究团队提出,旨在解决通用异常检测在训练域与测试域分布显著不同时性能退化的结构性瓶颈[4] - 该框架将CLIP视为“基础服务模型”,不改动其主干结构,仅在输入与输出端引入三个轻量适配器,实现单一模型无需目标域微调,同时支持图像级异常分类和像素级异常分割,兼容零样本/少样本推理[5] - AdaptCLIP的核心机制是交替学习与上下文感知对比学习,旨在不破坏CLIP原有泛化能力的前提下让其学会“找异常”[5][8][9] 技术架构与关键创新 - 视觉适配器采用残差MLP结构,分别作用于CLIP输出的局部patch token和全局图像token,在固定文本语义空间的前提下使视觉特征更贴合异常检测任务,显著提升像素级定位能力[13][14][15] - 文本适配器直接学习“正常/异常”两类可优化提示嵌入,输入冻结的CLIP文本编码器生成语义表示,抛弃了传统的人工prompt工程,降低了对经验的依赖[16][17][18] - 采用交替优化策略而非联合学习,即固定文本优化视觉、固定视觉优化文本并循环迭代,论文通过消融实验发现,在小规模训练数据下联合学习易过拟合,而交替学习是零样本异常检测性能提升的关键[19][20][21] - 在少样本场景下启用提示-查询适配器,通过空间对齐(在正常样本中搜索欧氏距离最近的patch)消除旋转、平移干扰,并计算对齐残差特征[22][23] - 将原始查询特征与对齐残差逐元素相加形成联合特征,融合上下文信息,在1-shot设置下,引入上下文后在MVTec数据集上的像素级AUPR提升约40%[24][25][26] - 采用极简的轻量输出头完成预测:像素级分割使用1×1卷积与转置卷积模块上采样;图像级分类对联合特征进行平均池化与最大池化后输入MLP[27][28][29] 性能表现与实验结果 - 在零样本异常检测场景下,AdaptCLIP在MVTec、VisA、BTAD、Real-IAD等8个工业数据集上,图像级AUROC平均达到86.2%,在多类未见产品与跨类别测试中保持稳定优势[31] - 在医学影像任务中,AdaptCLIP在内窥镜数据集Kvasir与Endo的零样本像素级异常分割AUPR平均达到48.7%,并在Br35H(MRI)、COVID-19(X-ray)等数据集的零样本图像级异常检测中取得平均90.7%的AUROC,均显著高于其他现有方法[31] - 在少样本设置下,随着正常样本数量从1-shot增加至4-shot,异常区域的定位逐步细化,提示-查询适配器显著降低了误报区域,使异常边界更加清晰[31] - 模型规模与效率方面,AdaptCLIP在零样本条件下仅引入约0.6M额外可训练参数(对比方法可高达10.7M),在518×518分辨率下,零样本条件单张图像推理时间约162 ms,兼顾检测精度与实际部署需求[32][37] 竞争优势与行业意义 - 相比现有方法,AdaptCLIP在模型轻量化、推理速度及跨领域泛化性能上具有综合优势,例如WinCLIP依赖密集窗口扫描导致计算与显存开销巨大,AnomalyCLIP等方法通过修改中间层或引入复杂token可能削弱CLIP的原始表征能力[6] - AdaptCLIP为工业与医疗等开放场景的异常检测提供了一条清晰路径:用最少的结构改动,换取最大的泛化收益,实现了真正可迁移的异常检测[38][39] - 该研究基于OpenAI在2021年发布的开源视觉-语言基础模型CLIP进行优化,使其在工业质检与医学影像等复杂真实场景中得以快速上手胜任工作,有望在零样本/少样本识别条件下达到与传统模型相当的性能[2]
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026