第一人称视觉 - 财报，业绩电话会，研报，新闻

第一人称视觉

搜索文档

AI在夜晚集体失明！90段视频+12类问题实测模型夜盲程度｜ICLR 2026

量子位· 2026-04-24 13:49

研究背景与问题定义 - 第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向应用快速升温，但现有基准大多建立在白天场景之上，绕开了夜间这一真实世界中最棘手的部分[6] - 夜间环境不只是“把亮度调低”，会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性，这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大[6][7] - 现有主流多模态大模型在夜间会出现能力同步退化，在物体识别、文字读取、动作判断、空间定位等基础能力上表现不佳，并非只是“略差一些”[7] EgoNight基准的核心创新 - 该研究提出了首个系统聚焦于“夜间第一人称视觉理解”的综合基准EgoNight，被ICLR 2026收录，将长期被回避的问题变成了可系统测量、公平比较的研究对象[3][8] - 基准的核心设计是引入“昼夜对齐视频”，在相同或高度对齐的场景、动作与时间线上，同时保留白天与夜晚版本，再利用白天参考辅助夜间问答构建，以解决夜间视频标注困难的问题[9][11] - 基准包含三个数据子集：真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic，以及来自Oxford Day-and-Night的夜间片段[13] 基准任务与数据构成 - 核心任务为EgoNight-VQA，基于数据构建了3658组问答，覆盖12种题型，并投入300多小时进行人工复核[4][15] - 任务设计分为两类：第一类是可做昼夜直接对比的配对问答，用于衡量模型从白天迁移到夜晚的性能下降；第二类是夜间特有或更适合夜间设问的非配对问答，用于捕捉低光环境的特有难点[18][19] - 除了视觉问答，还扩展了两项辅助任务：夜间第一人称深度估计，以及昼夜对应检索，以同时评估模型在低光下的几何感知和跨条件匹配能力[22][23] 实验结果与核心发现 - 在EgoNight-VQA上，当前表现最好的模型如GPT-4.1和Gemini 2.5 Pro的平均准确率也仅为30.93%和30.60%，距离可靠可用仍有相当距离[26] - 几乎所有主流多模态大模型从白天转到夜晚都会显著掉点，且感知驱动的任务通常比推理导向的任务跌得更厉害，表明夜间理解的瓶颈首先卡在“视觉信号不够稳”上[26][30] - 在辅助任务中，无论是深度估计还是昼夜对应检索，低光都会明显削弱模型的几何与跨条件匹配能力[31] 性能提升路径探索 - 基于Qwen2.5-VL-7B的系统微调实验显示，全量微调带来最明显的整体提升，相比零样本基线有9.21%的绝对准确率增益[33][34] - 如果主要微调视觉编码器，收益更集中在物体和文字等感知类任务；而微调语言模型部分，则能同时改善感知与推理，说明夜间理解也与模型如何调用语言先验密切相关[34] - 合成数据到真实场景的迁移有效：仅用合成夜间数据训练，也能迁移到真实夜间场景，为高成本的夜间数据采集与标注提供了更可扩展的推进路径[35]