ReasonMap - 财报，业绩电话会，研报，新闻 - Reportify

ReasonMap

搜索文档

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

量子位· 2025-06-07 13:02

多模态大模型视觉推理能力评测 - 核心观点：多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈，特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap，聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战：测试图像平均分辨率达5839×5449，远超现有视觉任务标准[10] - 难度感知设计：为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系：除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程：支持题目难度调控和多样化问题模板，覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先：GPT-o3在短/长问题中加权准确率达63.02%/59.11%，远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显：北京、杭州地铁图难度最高，测试样本分别达40/39个[9] - 强化学习模型优势：经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力：高分辨率图像处理仍是技术瓶颈，开源模型平均准确率不足30%[6][17] - 跨线路推理：模型普遍存在视觉混淆和站点遗漏问题，尤其在多线换乘场景[6][18] - 真实场景适配：当前模型与人类思维模式存在差距，需优化空间关系理解[12][19] 行业影响 - 评测标准革新：ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化：闭源体系通过强化学习后训练建立显著优势，开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展：该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]

多模态大模型

细粒度视觉推理

Qwen2.5-VL-72B-I

多模态大模型

细粒度视觉推理

Qwen2.5-VL-72B-I