第一人称声音理解
搜索文档
复旦等推出「第一人称视听基准」,补齐多模态模型「听觉拼图」
量子位· 2026-03-12 10:59
行业现状与问题 - 当前多模态大模型在理解真实世界时存在明显缺陷,尤其是在复杂听觉环境中,即使是最强模型也会“失灵”,表现为能看懂动作但听不懂发生了什么,能描述现象但推不出原因 [1] - 问题的核心在于模型还不会真正“听”,现有第一人称视频理解基准长期“视觉中心化”,音频信息常被当作辅助,缺乏对声音理解与推理的系统性评测,导致第一视角世界处于“半静音”状态 [2][3] 解决方案:EgoSound基准 - 来自复旦大学、上海创智学院等机构的研究团队提出了首个系统评测第一人称声音理解能力的基准“EgoSound”,旨在填补该领域的空白 [4][5] - 该基准是首个专门面向多模态大模型的第一视角“声音理解”评测体系,其目标是让模型在真实世界中能听见、理解、推理并解释发生的一切 [6][7] - EgoSound关注声音作为关键证据时的模型表现,它能够提供空间线索(如声源方位、距离、移动)、揭示画面外事件(如镜头外的对话、声响)以及承载因果与意图信息 [8] - 该基准融合了Ego4D和EgoBlind两类互补数据,覆盖从“视觉主导”到“声音主导”的多种现实场景,构建了高质量、大规模的数据集,包含**900段严格筛选视频**和**7315条验证后的开放式问答** [9][11][12] 技术框架与任务体系 - EgoSound系统拆解了第一人称声音能力边界,覆盖从感知到推理的完整链路,共设立七大核心任务 [10] - 七大任务包括:声音特征、计数、时序属性、空间定位、声源识别、因果推理和跨模态推理 [14] - 为确保问题真正依赖听觉线索,研究团队采用了多阶段筛选机制,并借助多个强模型辅助标注,构建了为“听觉推理”量身打造的数据流程 [16] 评测结果与关键发现 - 评测结果显示,当前最强模型与人类表现存在巨大差距,人类在EgoSound基准上的平均准确率为**83.9%**,而当前最佳模型(Qwen3-Omni-Thinking-30B)的准确率仅为**56.7%**,差距超过**27个百分点** [17][18] - 关键发现一:模型在空间定位、时序属性和因果推理任务上表现最差,难以稳定回答声音的来源、发生时间和原因 [20] - 关键发现二:跨模态对齐仍是瓶颈,模型需要建立“听到—看到—推断”的链条,而声音线索经常在画面之外 [21] - 关键发现三:第一人称的真实复杂度被低估,人与物的交互、遮挡、镜头抖动等因素使声音推理更贴近真实但也更具挑战性 [22] 行业影响与未来方向 - EgoSound基准的推出标志着行业开始从让模型“看见世界”转向“听懂世界”,旨在推动多模态模型成为真正的第一人称智能体 [7][23] - 该工作揭示了当前多模态大模型在听觉理解和推理能力上的严重不足,为未来方法研究提供了清晰的靶点和方向 [13][23]