视频异常检测 - 财报，业绩电话会，研报，新闻 - Reportify

视频异常检测

搜索文档

ACM MM 2025 | EventVAD：7B参数免训练，视频异常检测新SOTA

机器之心· 2025-07-20 11:11

研究背景与动机 - 视频异常检测（VAD）现有方法存在显著局限：有监督方法依赖大量标注数据且泛化能力差，无需训练方法如LAVAD依赖130亿参数的大语言模型（LLMs），效率低下且缺乏时序理解能力[6] - 无需训练方法的核心瓶颈在于无法完整定位视频中的异常事件，导致LLM评分偏差[7] EventVAD框架创新 - 提出动态图架构与多模态大模型（MLLMs）时序事件推理结合，减少参数同时提升精度和效率[1][9] - 核心模块包括事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分，实现端到端无需训练检测[9] 技术实现细节 - 动态图构建融合CLIP语义特征（512维）和RAFT光流运动特征（128维），通过融合系数α=0.75平衡特征，引入时间衰减因子γ抑制冗余关联[11] - 图注意力传播采用正交约束机制，通过QR分解生成Q/K/V矩阵避免特征坍缩，迭代更新节点特征增强事件边界区分度[12] - 统计边界检测结合L2范数和余弦距离捕捉事件跳变，Savitzky-Golay滤波降噪，基于中位数绝对偏差（MAD）设动态阈值[14] - 事件中心异常评分采用分层提示策略，事件片段输入MLLMs生成描述后输出评分，形成自校正机制[15] 性能验证结果 - 在UCF-Crime数据集以70亿参数实现82.03% AUC，超越130亿参数的LAVAD（78.33%）和多数弱监督方法[18][19] - 在XD-Violence数据集AP达64.04%（LAVAD为60.02%），AUC达87.51%（LAVAD为82.89%），分辨率适应性显著[20][21] 行业影响与展望 - 推动视频异常检测从帧级标注向事件级标注演进，大幅降低人工标注成本和训练开销[31] - 为视频细粒度理解提供基础框架，有望催生更多创新算法加速领域发展[31]

视频异常检测

多模态大模型

互联网科技

视频异常检测

多模态大模型

互联网科技