Workflow
纯视觉推理
icon
搜索文档
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
量子位· 2025-05-21 12:01
核心观点 - 剑桥、伦敦大学学院和谷歌的研究团队推出首个纯粹依靠图像进行推理的新范式——基于强化学习的视觉规划(VPRL),不再依赖语言中介 [1] - VPRL在多个视觉导航任务中准确率高达80%,性能超文本推理至少40%,首次验证视觉规划显著优于文本规划 [4][27] - 新框架利用GRPO对大型视觉模型进行后训练,性能表现远超基于文本的推理方法 [3][9] 技术框架 - VPRL分为两个阶段:策略初始化阶段通过随机游走轨迹初始化模型并最小化监督损失,强化学习优化阶段通过GRPO计算组内相对优势并最大化目标函数 [10][11][14][15] - 框架通过奖励函数评估动作有效性,奖励进展动作、零奖励非进展动作、惩罚无效动作 [16] - 选用VPFT和SFT作为基线比较,VPFT用最佳规划轨迹取代随机轨迹,SFT用文本描述取代中间视觉结果 [17] 实验设计 - 选取FrozenLake、Maze和MiniBehavior三个完全以视觉方式表达和执行的代表性任务 [19][20][21] - 采用LVM-3B作为视觉模型,Qwen 2.5VL-Instruct、Gemini 2.0 Flash和Gemini 2.5 Pro作为文本和多模态参考模型 [23] - 评估指标采用精确匹配率(EM)和进展率(PR),衡量模型生成规划轨迹的准确性和连续性 [25] 实验结果 - VPRL在三个任务中平均EM高达80.6%,远超文本基线(Gemini 2.5 Pro平均EM为43.7%) [27] - VPRL相比监督基线VPFT提升超20%,在复杂任务MiniBehavior中EM高达75.8% [28] - 随着网格尺寸增大,VPRL性能下降平缓(EM从97.6%降至82.4%),而Gemini 2.5 Pro从98.0%骤降至38.8% [31] - VPRL将无效失败率降低了24%,在FrozenLake、Maze和MiniBehavior任务中分别降至36.9%、25.1%和29.6% [32][33] 行业影响 - 首次验证纯视觉推理的可行性,推动多模态推理向更直观的图像化方向发展 [34] - 相关代码已开源,可供行业进一步研究和应用 [5] - 团队成员长期致力于视觉推理研究,曾研究通过多模态思维可视化(MVoT)生成视觉"思想" [34]