Domain Shift
搜索文档
准确率腰斩!大模型视觉能力一出日常生活就「失灵」
量子位· 2025-12-09 09:21
研究背景与核心问题 - 当前大多数第一人称视频问答基准集中于日常生活活动,忽略了真实世界应用中的巨大领域差异[3] - 现有多模态大语言模型在真实专业场景中面临泛化瓶颈,例如在外科、工业、极限运动与动物视角等场景下表现不佳[1] - 研究核心在于评估模型在视觉风格和语义内容上与日常家务大相径庭的专业领域中的表现,即应对领域差异的能力[7][8] EgoCross基准概述 - 该研究首次提出跨域第一视角视频问答基准EgoCross,填补了该领域的评估空白[3] - 基准覆盖手术、工业、极限运动、动物视角四个高价值专业领域[3] - 数据集包含957个高质量问答对,覆盖识别、定位、预测和计数四类核心任务下的15种子任务[11][12] - 每个问答对同时提供开放式和选择式两种评测格式[3][12] 模型评估关键发现 - 评测了8款主流多模态大语言模型,包括GPT-4.1、Gemini 2.5 Pro等闭源模型,以及Qwen2.5-VL、VideoLLaMA3等开源模型[12] - 模型在跨域场景中表现不佳:表现最好的模型在闭卷格式下准确率低于55%,在开卷格式下低于35%[12] - 领域差距显著:模型在日常活动基准上的准确率为73.58%,但在EgoCross跨域场景中骤降至43.14%[13] - 专业领域挑战不均:工业和极限运动领域对模型最具挑战性,动物视角相对容易[13] - 任务类型影响显著:预测类任务比基础识别任务性能下降更严重[18] - 通用大模型表现优于专用模型:Gemini 2.5 Pro等通用模型优于专门针对第一人称视频训练的模型,表明当前领域适应方法存在局限[13][18] 模型性能数据详述 - 在手术领域,GPT-4.1闭卷准确率为57.24%,开卷为39.58%;Gemini 2.5 Pro闭卷为61.48%,开卷为42.40%[13] - 在工业领域,GPT-4.1闭卷准确率为45.71%,开卷为12.24%;Gemini 2.5 Pro闭卷为37.55%,开卷为24.49%[13] - 在极限运动领域,GPT-4.1闭卷准确率为43.09%,开卷为20.33%;Gemini 2.5 Pro闭卷为43.90%,开卷为21.54%[13] - 在动物视角领域,GPT-4.1闭卷准确率为64.48%,开卷为34.43%;Gemini 2.5 Pro闭卷为68.85%,开卷为49.18%[13] - 开源模型Qwen2.5-VL-7B总体闭卷准确率为44.82%,开卷为20.41%[13] 改进方法探索与效果 - 研究探索了提示学习、监督微调和强化学习三种改进方法[12] - 提示学习通过在推理阶段加入领域特定提示,不改动模型参数,挖掘模型已有能力[15] - 监督微调在目标领域少量数据上全参数微调,在工业领域使性能相对基线提升接近20个百分点[15] - 强化学习方法基于GRPO框架,对模型策略进行优化,在四个领域上平均带来约22个百分点的闭卷准确率提升,效果最显著[12][15] - 具体数据:以Qwen2.5-VL-7B为基座,强化学习方法使其在手术、工业、极限运动、动物视角领域的平均准确率从44.82%提升至60.12%[14] 研究价值与影响 - 该研究系统揭示了现有多模态大语言模型在跨域第一人称视频理解上的短板[4] - 研究验证了微调、强化学习等方法的改进潜力,为未来构建更具泛化能力的模型提供了方向[4][12] - 所有数据集、代码已全部开源,该项研究已入选AAAI 2026[5]