Workflow
ReasonMap
icon
搜索文档
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]