Workflow
视频异常检测
icon
搜索文档
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA
机器之心· 2025-07-20 11:11
研究背景与动机 - 视频异常检测(VAD)现有方法存在显著局限:有监督方法依赖大量标注数据且泛化能力差,无需训练方法如LAVAD依赖130亿参数的大语言模型(LLMs),效率低下且缺乏时序理解能力[6] - 无需训练方法的核心瓶颈在于无法完整定位视频中的异常事件,导致LLM评分偏差[7] EventVAD框架创新 - 提出动态图架构与多模态大模型(MLLMs)时序事件推理结合,减少参数同时提升精度和效率[1][9] - 核心模块包括事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分,实现端到端无需训练检测[9] 技术实现细节 - 动态图构建融合CLIP语义特征(512维)和RAFT光流运动特征(128维),通过融合系数α=0.75平衡特征,引入时间衰减因子γ抑制冗余关联[11] - 图注意力传播采用正交约束机制,通过QR分解生成Q/K/V矩阵避免特征坍缩,迭代更新节点特征增强事件边界区分度[12] - 统计边界检测结合L2范数和余弦距离捕捉事件跳变,Savitzky-Golay滤波降噪,基于中位数绝对偏差(MAD)设动态阈值[14] - 事件中心异常评分采用分层提示策略,事件片段输入MLLMs生成描述后输出评分,形成自校正机制[15] 性能验证结果 - 在UCF-Crime数据集以70亿参数实现82.03% AUC,超越130亿参数的LAVAD(78.33%)和多数弱监督方法[18][19] - 在XD-Violence数据集AP达64.04%(LAVAD为60.02%),AUC达87.51%(LAVAD为82.89%),分辨率适应性显著[20][21] 行业影响与展望 - 推动视频异常检测从帧级标注向事件级标注演进,大幅降低人工标注成本和训练开销[31] - 为视频细粒度理解提供基础框架,有望催生更多创新算法加速领域发展[31]