视频异常检测
搜索文档
ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式
机器之心· 2026-02-13 16:57
视频异常检测技术范式与行业痛点 - 现有视频异常检测方法将异常视为固定不变的静态属性,其训练和测试的异常类别必须一致,这导致模型泛化能力不足,无法适应开放世界中动态变化的异常定义需求[2][7] - 异常性并非事件固有属性,而是由场景、时间、用户需求等因素决定的动态概念,例如吸烟行为在加油站是异常,在吸烟区则不是[3] - 传统封闭集合方法假设测试与训练异常类别完全相同,开放集合方法虽能检测未见类别,但仍认为事件异常与否是固定的,这导致模型在用户需求变化时性能出现偏差[7] 论文核心思路与理论创新 - 研究团队提出核心假设:视频的异常性由且仅由视频本身及对异常的定义共同决定,并会随定义变化而变化[8] - 提出新的学习范式,在训练阶段让模型学习“视频+定义 -> 异常标签”的联合映射关系,以规避因条件概率P(Y|V)变化带来的影响[8] - 其优化目标为 $\theta^{\star}=\arg\min\mathbb{E}_{(v,z,y)\sim P(V,Z,Y)}[{\mathcal{L}}(\Phi(v,z;\theta),y)]$,其中Z表示异常定义,从而直接建模视频、定义与标签的联合分布[8] LaGoVAD模型的技术方案 - 模型通过添加文本支路,允许用户使用自然语言动态定义异常,并在训练期间使用不同的异常定义进行训练[10] - 针对新范式导致的多模态空间建模复杂、数据稀缺及过拟合风险,团队从模型和数据两方面入手解决[10] - 在模型方面,提出了两种正则化手段[12] - 在数据方面,通过结合多个基础模型与自动化标注流程,构建了迄今最大规模的预训练视频异常数据集PreVAD,包含35K(即35,000)条具有多层级类别标签和异常文本描述的高质量数据[14] 实验设计与性能评估 - 在评估方面,LaGoVAD在7个数据集上进行了广泛的跨域测试,涵盖犯罪暴力、交通、行人异常及综合场景,以验证泛化性[16] - 采用两种评估协议:一是直接在具有不同场景和异常定义的测试集上进行零样本评估,评估综合泛化性;二是在同一测试集上使用多种随机采样的异常定义进行零样本评估,专门评估应对动态定义的能力[16] - 在评估协议1下,LaGoVAD在所有数据集上均取得最先进的性能,特别是在XD-Violence数据集上相较于现有最好结果有20%的提升[18] - 在评估协议2下,LaGoVAD的性能超过了上亿参数量的多模态大模型(如Qwen系列)及免训练方法(LAVAD),表明其能有效缓解概念漂移,适应动态需求[19] - 具体数据:在XD-Violence数据集上,LaGoVAD的AUC达到0.857,AP达到0.371;在MSAD数据集上,AUC为0.856,AP为0.401,均领先于对比方法[19]
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA
机器之心· 2025-07-20 11:11
研究背景与动机 - 视频异常检测(VAD)现有方法存在显著局限:有监督方法依赖大量标注数据且泛化能力差,无需训练方法如LAVAD依赖130亿参数的大语言模型(LLMs),效率低下且缺乏时序理解能力[6] - 无需训练方法的核心瓶颈在于无法完整定位视频中的异常事件,导致LLM评分偏差[7] EventVAD框架创新 - 提出动态图架构与多模态大模型(MLLMs)时序事件推理结合,减少参数同时提升精度和效率[1][9] - 核心模块包括事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分,实现端到端无需训练检测[9] 技术实现细节 - 动态图构建融合CLIP语义特征(512维)和RAFT光流运动特征(128维),通过融合系数α=0.75平衡特征,引入时间衰减因子γ抑制冗余关联[11] - 图注意力传播采用正交约束机制,通过QR分解生成Q/K/V矩阵避免特征坍缩,迭代更新节点特征增强事件边界区分度[12] - 统计边界检测结合L2范数和余弦距离捕捉事件跳变,Savitzky-Golay滤波降噪,基于中位数绝对偏差(MAD)设动态阈值[14] - 事件中心异常评分采用分层提示策略,事件片段输入MLLMs生成描述后输出评分,形成自校正机制[15] 性能验证结果 - 在UCF-Crime数据集以70亿参数实现82.03% AUC,超越130亿参数的LAVAD(78.33%)和多数弱监督方法[18][19] - 在XD-Violence数据集AP达64.04%(LAVAD为60.02%),AUC达87.51%(LAVAD为82.89%),分辨率适应性显著[20][21] 行业影响与展望 - 推动视频异常检测从帧级标注向事件级标注演进,大幅降低人工标注成本和训练开销[31] - 为视频细粒度理解提供基础框架,有望催生更多创新算法加速领域发展[31]