Workflow
Prompt Learning
icon
搜索文档
准确率腰斩,大模型视觉能力一出日常生活就「失灵」
36氪· 2025-12-09 14:59
研究核心观点 - 研究团队提出了首个跨领域第一人称视频问答基准EgoCross,旨在评估多模态大语言模型在手术、工业、极限运动及动物视角等专业场景下的泛化能力,揭示了现有模型在这些领域存在显著性能瓶颈[1][3][9] 基准数据集构建 - EgoCross基准覆盖手术、工业、极限运动、动物视角四个高价值专业领域,包含957个高质量问答对[3][9] - 数据集为每个问答对同时提供开放式和选择式两种评测格式,并设计了识别、定位、预测、计数四类共15种细粒度任务[9][12] 模型评估结果 - 团队全面测试了8款主流MLLM,包括GPT-4.1、Gemini 2.5 Pro等闭源模型及Qwen2.5-VL、VideoLLaMA3等开源模型[4][9] - 实验显示,即使在表现最好的模型中,跨域场景下的选择式问答准确率也低于55%,开放式问答准确率低于35%,远低于日常场景73.58%的准确率[9][13] - 工业和极限运动领域对模型挑战最大,动物视角相对容易;预测类任务比基础识别任务性能下降更严重[13] 性能改进方法 - 研究尝试了提示学习、监督微调和强化学习三种改进方法,其中强化学习带来的性能提升最显著[4][10][15] - 以Qwen2.5-VL-7B为基座,强化学习方法在四个领域上平均带来约22个百分点的选择式问答准确率提升,在动物视角领域准确率从43.40%提升至75.47%[15][16] - 监督微调在工业领域使性能相对基线提升接近20个百分点[16]