Workflow
WildVideo
icon
搜索文档
首个多轮、开放视角视频问答基准,系统分类9大幻觉任务
36氪· 2025-12-26 15:16
基准概述与核心贡献 - 国防科技大学与中山大学的研究团队提出了名为WildVideo的评测基准,旨在系统性地评估多模态大模型在真实世界视频-语言交互中的能力,该工作已被TPAMI 2025正式接收 [2][3] - 该基准首次从感知、认知与上下文理解三个层面系统定义了9类幻觉任务,并构建了一个涵盖双重视角、支持中英双语的大规模高质量视频对话数据集 [3] - 基准设计摒弃传统单选/判断题形式,采用开放问答并引入多轮对话评测(最多5轮),以模拟真实、连续、交互式的对话场景,全面评估模型的连贯理解与信息关联能力 [4] 数据集构成 - 基准包含1,318段视频,其中874段来自Charades-EGO数据集(第一人称与第三人称配对),444段为涵盖全球事件与文化现象的YouTube视频 [6] - 数据集最终包含了13,704个单轮问答对与1,585个多轮对话,数据构建融合了强大LLM的生成能力与多国PhD级别专家的多次人工审核与增强 [6] 任务分类与数据分布 - 幻觉任务被细分为三大类九小项:感知幻觉(物体、动作、视觉定位、一致性)、认知幻觉(因果关系、跨模态指代、世界知识)、上下文理解幻觉(上下文省略、跨轮检索) [4] - 根据数据分布表,单轮任务中,物体识别任务有2,305个样本,动作识别有2,485个,世界知识任务最多,有4,851个样本;多轮任务中,上下文省略有303个样本,跨轮检索有93个样本 [8] 主要实验发现:整体表现与挑战 - 在WildVideo上对14个主流开源与商业模型(如GPT-4o、Claude-3.5-Sonnet、Gemini系列等)的评估显示,即便最先进的模型也面临严峻挑战 [10] - 在单轮任务中,表现最佳的GPT-4o准确率仅为62.1%;在多轮对话任务中,其准确率进一步下降至52.7%,表明处理多轮交互的复杂性远高于单轮问答 [10] 主要实验发现:能力结构不平衡 - 感知层面:模型在静态“物体”识别上表现最佳,而在需要理解时序的“动作”识别和“视觉定位”任务上表现大幅下滑 [12] - 认知层面:涉及常识推理和跨模态指代的任务成为所有模型的普遍难点,最低得分仅11.0% [12] - 上下文层面:多轮特有的“上下文理解”任务(省略与检索)表现最不理想,最佳得分也未超过51.4% [12] 主要实验发现:视角偏好与语言差异 - 几乎所有模型在第三人称(外视角)视频上的表现都系统性优于第一人称(自我视角)视频,因后者存在更多运动模糊、视角突变和遮挡 [14] - 模型在中文任务上的表现普遍低于英文,最佳模型GPT-4o在中文多轮任务中也仅得54.0% [16] 主要实验发现:模型对比与洞察 - 性能更强的模型版本(如GPT-4o vs GPT-4o mini)在绝大多数任务上领先,例如在单轮感知任务平均分上,GPT-4o比mini版高9.7个百分点 [17] - 轻量级的Gemini 1.5 Flash在多轮上下文理解任务中反超了其性能版(Gemini 1.5 Pro),平均分分别为47.0%和40.2%,提示模型设计在效率与长上下文处理能力间可能存在不同的优化路径 [16][17] 行业意义与未来方向 - WildVideo推动了视频理解评测从“静态快照问答”走向“动态连续对话”,从“客观选择”走向“开放生成”,更加贴近最终应用 [18] - 其细分的幻觉分类体系能够帮助研究者精准定位模型失效的具体环节(如感知、认知或上下文理解),从而进行有针对性的改进 [18] - 基准明确揭示了当前模型在多轮交互中的脆弱性,将激励产业界在对话状态管理、长期记忆机制、指代消解等关键技术上投入更多资源 [18] - 中英双语并行的设计,为开发更具全球适用性的多模态模型提供了重要的评估基础 [18]