第一人称视觉
搜索文档
AI在夜晚集体失明!90段视频+12类问题实测模型夜盲程度|ICLR 2026
量子位· 2026-04-24 13:49
研究背景与问题定义 - 第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向应用快速升温,但现有基准大多建立在白天场景之上,绕开了夜间这一真实世界中最棘手的部分[6] - 夜间环境不只是“把亮度调低”,会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性,这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大[6][7] - 现有主流多模态大模型在夜间会出现能力同步退化,在物体识别、文字读取、动作判断、空间定位等基础能力上表现不佳,并非只是“略差一些”[7] EgoNight基准的核心创新 - 该研究提出了首个系统聚焦于“夜间第一人称视觉理解”的综合基准EgoNight,被ICLR 2026收录,将长期被回避的问题变成了可系统测量、公平比较的研究对象[3][8] - 基准的核心设计是引入“昼夜对齐视频”,在相同或高度对齐的场景、动作与时间线上,同时保留白天与夜晚版本,再利用白天参考辅助夜间问答构建,以解决夜间视频标注困难的问题[9][11] - 基准包含三个数据子集:真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic,以及来自Oxford Day-and-Night的夜间片段[13] 基准任务与数据构成 - 核心任务为EgoNight-VQA,基于数据构建了3658组问答,覆盖12种题型,并投入300多小时进行人工复核[4][15] - 任务设计分为两类:第一类是可做昼夜直接对比的配对问答,用于衡量模型从白天迁移到夜晚的性能下降;第二类是夜间特有或更适合夜间设问的非配对问答,用于捕捉低光环境的特有难点[18][19] - 除了视觉问答,还扩展了两项辅助任务:夜间第一人称深度估计,以及昼夜对应检索,以同时评估模型在低光下的几何感知和跨条件匹配能力[22][23] 实验结果与核心发现 - 在EgoNight-VQA上,当前表现最好的模型如GPT-4.1和Gemini 2.5 Pro的平均准确率也仅为30.93%和30.60%,距离可靠可用仍有相当距离[26] - 几乎所有主流多模态大模型从白天转到夜晚都会显著掉点,且感知驱动的任务通常比推理导向的任务跌得更厉害,表明夜间理解的瓶颈首先卡在“视觉信号不够稳”上[26][30] - 在辅助任务中,无论是深度估计还是昼夜对应检索,低光都会明显削弱模型的几何与跨条件匹配能力[31] 性能提升路径探索 - 基于Qwen2.5-VL-7B的系统微调实验显示,全量微调带来最明显的整体提升,相比零样本基线有9.21%的绝对准确率增益[33][34] - 如果主要微调视觉编码器,收益更集中在物体和文字等感知类任务;而微调语言模型部分,则能同时改善感知与推理,说明夜间理解也与模型如何调用语言先验密切相关[34] - 合成数据到真实场景的迁移有效:仅用合成夜间数据训练,也能迁移到真实夜间场景,为高成本的夜间数据采集与标注提供了更可扩展的推进路径[35]