顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布
机器之心·2025-12-26 12:35

MeViSv2数据集发布 - 由复旦大学、上海财经大学、南洋理工大学联合打造的多模态视频理解数据集MeViSv2正式发布,并被顶刊IEEE TPAMI录用[2] - 该数据集围绕复杂动作推理挑战模型的多模态处理能力,包含2,006个视频、8,171个目标及33,072条文本/音频表达,通过新增15万秒音频数据实现了向原生多模态的进化[4] - 数据集全面支持RVOS、RMOT、AVOS以及RMEG四大核心任务,并引入了“无目标语句”和“运动推理”等新机制,旨在挑战模型逻辑推理与鲁棒性的天花板[4] MeViSv1的核心理念与成就 - 初版MeViSv1确立了探索像素级视频理解的三大核心理念:运动优先、复杂场景和长时序关联[9][16] - MeViSv1提供了超过28,000个高质量语句标注,覆盖2,006个视频中的8,171个物体[9] - 截至目前,MeViSv1在CodaLab上已吸引全球近千支队伍参加评测、累计1万余次提交,并成功在CVPR 2024、ECCV 2024、CVPR 2025、ICCV 2025上举办全球挑战赛[9] MeViSv2的核心增强与亮点 - 模态增加:首次为全部的33,072个文本语句都配对了对应的语音指令,音频数据总时长超过150,000秒,标志着MeViS已经从视频数据集进化为原生多模态数据集[11] - 任务更广:系统性地补充了精确的物体轨迹标注,使其成为迄今为止规模最大的指向性多目标追踪数据集,支持RVOS、AVOS、RMOT、RMEG四大核心任务[13][14][17] - 规模增大:将总表达式数量扩充至33,072条,相较于MeViSv1新增了4,502条极具挑战性的语句,精准覆盖了当前AI推理能力最核心的两大挑战瓶颈:运动推理语句和无目标语句[15][18] 新增挑战性语句类型 - 运动推理语句:要求模型进行复杂的逻辑推理,从“看动作”到“懂因果”,例如理解“What is causing the cage to shake?”并推断出是笼内扑腾的鸟引发了震动[24] - 无目标语句:引入了具有欺骗性的无目标表达,要求模型具备“判伪”能力,在视频中没有匹配对象时输出“无目标”,以增强现实应用中的鲁棒性[24] 基线模型LMPM++的技术创新 - 核心架构:采用以“对象”为中心的LLM推理,生成语言引导的查询,将视频中的潜在对象转化为轻量级的目标嵌入,并输入到LLM中以捕捉长周期的行为模式[26] - 原生多模态:设计了统一的指令格式,通过引入

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布 - Reportify