SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队”
AI前线·2026-01-05 16:33

文章核心观点 - 研究团队提出了一种名为AV-NAS的创新方法,首次将神经架构搜索引入多模态视频哈希领域,旨在解决传统方法“重视觉、轻听觉”以及依赖人工设计网络结构的问题 [2] - 该方法构建了一个统一覆盖Transformer与Mamba的搜索空间,能够自动发现最优的跨模态融合机制,并揭示出在音频时序建模中,“CNN + FFN”的简单组合优于复杂的Transformer方案 [2] - AV-NAS为多模态视频检索提供了一条兼顾高效存储与快速检索的全新路径,其论文已被SIGIR 2025录用,代码已开源 [3][5] 技术方案与架构设计 - 核心目标:AV-NAS旨在通过数据驱动的NAS,自动搜索出最适合视频哈希任务的网络结构,取代依赖专家经验的“人工设计”模式 [8] - 整体架构:模型包括输入特征提取、双路Encoder编码模块、Fusion融合模块、Transformation语义变换模块和Hash Layer哈希模块 [9] - 统一搜索空间:搜索空间包含6类操作,统一了Transformer(如SelfAttention)、Mamba/SSM(如SelfSSM)、CNN、MLP等多种主流范式 [11][13] - 编码模块:为视觉和音频设计双路Encoder,其架构非固定,而是在统一骨架基础上,通过NAS为每个单元自动选择最合适的算子组合 [14][16] - 融合模块:提出基于Mamba的新型跨模态融合机制CrossSSM,以更高效的序列建模实现跨模态对齐,同时搜索空间也保留了更轻量的融合策略供自动选择 [20][21] - 搜索策略:设计了“粗搜索-剪枝-微调”三阶段流程,以应对约7.83×10^?的巨大组合空间,在效率与效果间取得平衡 [27][31] 性能优势与实验结果 - 存储与检索效率:面对10亿条视频,用常规1000维浮点向量存储需8TB,而压缩为64位二进制哈希码仅需8GB,并能实现近似O(1)的高速检索 [6] - 性能对比:在ActivityNet和FCVID数据集上,AV-NAS在mAP指标上整体优于其他方法。其搜索到的最优架构Arch-1和Arch-2分别取得了各自数据集上的最高mAP [32] - 具体数据:在ActivityNet数据集上,AV-NAS (Arch-1) 的64-bit mAP达到0.9010;在FCVID数据集上,AV-NAS (Arch-2) 的64-bit mAP达到0.9321 [34] - 超越专家设计:与手工设计的Transformer、Transformer+、Mamba等架构相比,AV-NAS搜索到的结构更优,在ActivityNet上mAP提升约3–4%,在FCVID上提升约1% [35][36] - 音频建模新发现:自动搜索结果显示,对于音频时序建模,最优结构并非主流Transformer或Mamba,而是更偏好“FFN+CNN”的组合 [30][37] - 多模态必要性:消融实验表明,去掉音频或视觉模态都会明显降低性能,证实了声画融合是提升检索质量的关键 [38] 行业意义与影响 - 技术突破:AV-NAS是多模态视频哈希领域在NAS方向的破冰之作,证明了“自动搜索”比“手工设计”更可靠 [40] - 最佳实践揭示:通过数据驱动揭示了视听多模态处理的最佳实践:视觉依赖时空注意力,音频偏好局部与全局的简单组合(FFN+CNN),而跨模态融合则是Mamba (SSM)的优势舞台 [40] - 设计思路革新:为未来大规模视频检索系统设计提供了新思路,即通过数据驱动让模型自动找到视觉与听觉信息处理的最佳平衡点,而非盲目堆叠复杂模型 [40]