Workflow
跨模态融合
icon
搜索文档
SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队”
AI前线· 2026-01-05 16:33
文章核心观点 - 研究团队提出了一种名为AV-NAS的创新方法,首次将神经架构搜索引入多模态视频哈希领域,旨在解决传统方法“重视觉、轻听觉”以及依赖人工设计网络结构的问题 [2] - 该方法构建了一个统一覆盖Transformer与Mamba的搜索空间,能够自动发现最优的跨模态融合机制,并揭示出在音频时序建模中,“CNN + FFN”的简单组合优于复杂的Transformer方案 [2] - AV-NAS为多模态视频检索提供了一条兼顾高效存储与快速检索的全新路径,其论文已被SIGIR 2025录用,代码已开源 [3][5] 技术方案与架构设计 - **核心目标**:AV-NAS旨在通过数据驱动的NAS,自动搜索出最适合视频哈希任务的网络结构,取代依赖专家经验的“人工设计”模式 [8] - **整体架构**:模型包括输入特征提取、双路Encoder编码模块、Fusion融合模块、Transformation语义变换模块和Hash Layer哈希模块 [9] - **统一搜索空间**:搜索空间包含6类操作,统一了Transformer(如SelfAttention)、Mamba/SSM(如SelfSSM)、CNN、MLP等多种主流范式 [11][13] - **编码模块**:为视觉和音频设计双路Encoder,其架构非固定,而是在统一骨架基础上,通过NAS为每个单元自动选择最合适的算子组合 [14][16] - **融合模块**:提出基于Mamba的新型跨模态融合机制CrossSSM,以更高效的序列建模实现跨模态对齐,同时搜索空间也保留了更轻量的融合策略供自动选择 [20][21] - **搜索策略**:设计了“粗搜索-剪枝-微调”三阶段流程,以应对约7.83×10^?的巨大组合空间,在效率与效果间取得平衡 [27][31] 性能优势与实验结果 - **存储与检索效率**:面对10亿条视频,用常规1000维浮点向量存储需8TB,而压缩为64位二进制哈希码仅需8GB,并能实现近似O(1)的高速检索 [6] - **性能对比**:在ActivityNet和FCVID数据集上,AV-NAS在mAP指标上整体优于其他方法。其搜索到的最优架构Arch-1和Arch-2分别取得了各自数据集上的最高mAP [32] - **具体数据**:在ActivityNet数据集上,AV-NAS (Arch-1) 的64-bit mAP达到0.9010;在FCVID数据集上,AV-NAS (Arch-2) 的64-bit mAP达到0.9321 [34] - **超越专家设计**:与手工设计的Transformer、Transformer+、Mamba等架构相比,AV-NAS搜索到的结构更优,在ActivityNet上mAP提升约3–4%,在FCVID上提升约1% [35][36] - **音频建模新发现**:自动搜索结果显示,对于音频时序建模,最优结构并非主流Transformer或Mamba,而是更偏好“FFN+CNN”的组合 [30][37] - **多模态必要性**:消融实验表明,去掉音频或视觉模态都会明显降低性能,证实了声画融合是提升检索质量的关键 [38] 行业意义与影响 - **技术突破**:AV-NAS是多模态视频哈希领域在NAS方向的破冰之作,证明了“自动搜索”比“手工设计”更可靠 [40] - **最佳实践揭示**:通过数据驱动揭示了视听多模态处理的最佳实践:视觉依赖时空注意力,音频偏好局部与全局的简单组合(FFN+CNN),而跨模态融合则是Mamba (SSM)的优势舞台 [40] - **设计思路革新**:为未来大规模视频检索系统设计提供了新思路,即通过数据驱动让模型自动找到视觉与听觉信息处理的最佳平衡点,而非盲目堆叠复杂模型 [40]
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 16:45
研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]