Workflow
MeViSv2数据集
icon
搜索文档
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布
机器之心· 2025-12-26 12:35
MeViSv2数据集发布 - 由复旦大学、上海财经大学、南洋理工大学联合打造的多模态视频理解数据集MeViSv2正式发布,并被顶刊IEEE TPAMI录用[2] - 该数据集围绕复杂动作推理挑战模型的多模态处理能力,包含2,006个视频、8,171个目标及33,072条文本/音频表达,通过新增15万秒音频数据实现了向原生多模态的进化[4] - 数据集全面支持RVOS、RMOT、AVOS以及RMEG四大核心任务,并引入了“无目标语句”和“运动推理”等新机制,旨在挑战模型逻辑推理与鲁棒性的天花板[4] MeViSv1的核心理念与成就 - 初版MeViSv1确立了探索像素级视频理解的三大核心理念:运动优先、复杂场景和长时序关联[9][16] - MeViSv1提供了超过28,000个高质量语句标注,覆盖2,006个视频中的8,171个物体[9] - 截至目前,MeViSv1在CodaLab上已吸引全球近千支队伍参加评测、累计1万余次提交,并成功在CVPR 2024、ECCV 2024、CVPR 2025、ICCV 2025上举办全球挑战赛[9] MeViSv2的核心增强与亮点 - **模态增加**:首次为全部的33,072个文本语句都配对了对应的语音指令,音频数据总时长超过150,000秒,标志着MeViS已经从视频数据集进化为原生多模态数据集[11] - **任务更广**:系统性地补充了精确的物体轨迹标注,使其成为迄今为止规模最大的指向性多目标追踪数据集,支持RVOS、AVOS、RMOT、RMEG四大核心任务[13][14][17] - **规模增大**:将总表达式数量扩充至33,072条,相较于MeViSv1新增了4,502条极具挑战性的语句,精准覆盖了当前AI推理能力最核心的两大挑战瓶颈:运动推理语句和无目标语句[15][18] 新增挑战性语句类型 - **运动推理语句**:要求模型进行复杂的逻辑推理,从“看动作”到“懂因果”,例如理解“What is causing the cage to shake?”并推断出是笼内扑腾的鸟引发了震动[24] - **无目标语句**:引入了具有欺骗性的无目标表达,要求模型具备“判伪”能力,在视频中没有匹配对象时输出“无目标”,以增强现实应用中的鲁棒性[24] 基线模型LMPM++的技术创新 - **核心架构**:采用以“对象”为中心的LLM推理,生成语言引导的查询,将视频中的潜在对象转化为轻量级的目标嵌入,并输入到LLM中以捕捉长周期的行为模式[26] - **原生多模态**:设计了统一的指令格式,通过引入<Text>和<Audio>标签以及对应的投影层,将文本和音频特征映射到同一语义空间,实现模态无关的统一感知[27] - **创新损失**:引入了时间级对比损失,通过随机打乱目标嵌入的时间顺序作为负样本,强制模型学习正确的时间结构,增强对复杂动作序列的辨识能力[28] - **自适应输出**:针对“无目标语句”陷阱,模型被训练预测目标数量No并动态生成对应数量的<SEG> Token,当No=0时不输出任何掩码,从而大幅提升无目标准确率[29] 在MeViSv2上的基准测试结果 - **RVOS任务**:LMPM++在综合指标J&F上达到了43.9%的新高,刷新了SOTA记录,其无目标准确率跃升至45.7%,目标准确率达到87.4%[31][32][33] - **RMOT任务**:LMPM++斩获了38.1%的HOTA*和28.1%的DetA*,相比前代SOTA方法TempRMOT性能提升显著,其目标准确率达到87.4%[34][35] - **AVOS任务**:LMPM++在所有指标上都远超之前的模型,取得了42.3%的J&F得分,体现了该方法优越的多模态处理能力[36][37] - **RMEG任务**:现有模型普遍面临“表达难”的困境,表现最好的VideoLLaMA 2的METEOR和CIDEr得分也仅为15.68和27.10,表明在生成精准描述方面仍有巨大提升空间[38] 对行业未来研究的启示 - 需要开发能够直接从原始语音信号中提取时间语义线索,并将其与视频运动信息深度融合的新架构[40] - 需提升模型从长时序视频和复杂语言指令中进行因果和逻辑推理的能力,而非仅仅进行模式匹配[41] - 需增强模型在无目标、多目标、目标相似等复杂场景下的鲁棒性和泛化性,使其更接近真实世界的应用需求[42] - MeViSv2的发布是对整个多模态视频理解领域的一次挑战升级,为未来的相关研究奠定了坚实的基础[43]