研究背景与目标 - 多模态大模型在真实世界应用的一个重要场景是自动解析旅行视频中的地理位置与时间顺序,以生成旅行计划[2] - 研究团队提出名为VIR-Bench的全新多模态大模型评估基准,旨在评测AI对旅行视频中地理位置与时间顺序的理解能力[4] 任务设计与数据集构建 - VIR-Bench的核心任务是行程还原,要求模型根据旅行vlog输出访问顺序图,包含访问地点及其顺序和包含关系的结构化表示[6] - 访问顺序图是一个有向图,节点分为Prefecture、City和POI三个层级,包含包含边和转移边两种关系[7] - 任务被拆解为节点预测和边缘预测两个子任务,分别评估模型的地理识别能力与时序推理能力[10][11][12] - 数据集包含200个在日本拍摄的旅行vlog,标注了3,689个POI,覆盖日本43个都道府县[13][17] 实验结果与洞察 - 开源模型整体性能落后于商用模型,尤其在POI节点识别和转移边预测子任务上差距明显[16] - 转移边预测是所有模型的最难关,部分模型结果接近随机水平[16] - 模型规模扩展对性能提升有显著作用,地理相关预训练是POI节点预测精度差异的关键因素[16] - 思维链推理在边缘预测中能带来显著改善,结合音频信息后效果提升尤为突出[16] - 增加输入帧数、更长的推理过程以及利用音频信息是模型性能提升的关键方向[18] - 当前模型整体性能远未达到可用水平,即使是得分最高的Gemini-2.5-Pro也存在大量错误[18] 模型性能数据 - 在节点预测任务中,表现最好的商用模型Gemini-2.5-Pro在Prefecture层级的F1分数为87.7,在City层级为68.6,在POI层级为52.8[19] - 在边缘预测任务中,Gemini-2.5-Pro在包含边预测的F1分数达到90.8,在转移边预测为66.8,综合F1为80.7[19] - 开源模型中表现最好的Qwen2.5-VL-72B在节点预测综合F1为38.1,在边缘预测综合F1为52.4[19] 应用前景与意义 - VIR-Bench为未来诸多应用打开窗口,其核心能力与机器人理解世界、规划路径以及自动驾驶系统的决策需求高度契合[19] - 该研究指明了多模态大模型的进化方向,包括更强的地理空间感知、更可靠的时间推理以及多模态信息的深度融合[20]
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心·2025-10-15 12:08