Workflow
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
机器之心·2025-06-09 12:33

核心观点 - 研究团队提出首个支持超长视频理解的跨模态记忆压缩框架AdaCM2,解决现有模型在长视频场景下的显存瓶颈和冗余信息干扰问题 [2][5][6] - AdaCM2基于两大核心观察(帧内注意力稀疏性和层间语义冗余性)设计,通过跨模态注意力驱动的层级记忆压缩策略实现高效信息筛选 [7][9][11][15] - 实验显示AdaCM2在多项任务中超越SOTA模型,显存使用下降65%,支持处理超2小时长视频 [20][22][24] - 该技术为多模态大模型提供可控的长时记忆能力,拓展智能交通、医疗、教育等领域的应用边界 [23][25][26] 技术背景 - 现有视频理解模型(如VideoLLaMA、VideoChat)在短视频(5-15秒)表现优异,但面对分钟级/小时级视频时出现显存瓶颈和冗余信息干扰 [5] - 长视频处理存在三大核心问题:内存消耗指数级上升、视觉Token冗余严重、文本与视频缺乏精准对齐机制 [6] 关键观察 - 帧内注意力稀疏性:长视频单帧中仅极少数视觉Token对文本提示强相关,注意力得分呈尾部偏置分布,高价值信息集中在少数Token [9] - 层间语义冗余性:深层网络中临近帧/远帧间跨模态注意力相似度高,多个Token在不同时间或层次上表达重复语义 [11] 技术方案 - 逐帧回归式建模:动态更新记忆缓存替代一次性输入全部帧,实现轻量连续建模 [20] - 跨模态注意力打分:通过Q-Former模块计算视觉Token与文本提示的注意力权重,仅保留高分Token [20] - 分层压缩机制:针对不同Transformer层设置可调压缩参数(α和β),实现精细内存控制 [20] - LLM兼容性:支持与Vicuna-7B、FlanT5等主流LLM无缝对接,仅需轻量微调Q-Former模块 [19] 性能表现 - LVU分类任务:平均Top-1准确率提升4.5%,在"导演""场景"等任务领先所有方法 [22] - 行为理解任务:在COIN/Breakfast数据集上超越MA-LMM(94.4 vs 93.0) [21][24] - 视频字幕生成:MSVD数据集达到189.4 CIDEr,显著优于GIT(180.2)和VideoLLaMA(175.3) [21][24] - 内存效率:显存使用下降65%,极端情况下仍能稳定处理超2小时视频 [20][24] 应用场景 - 智能交通监控:支持全天候视频智能分析与摘要生成 [25] - 医疗手术记录:自动分析长时间术中操作行为 [25] - 教育/会议记录:提取关键片段并生成总结 [25] - 机器人感知:为具身智能体提供持续视觉记忆能力 [25]