视觉转文本

搜索文档
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
量子位· 2025-06-21 14:07
核心观点 - 蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B模型,通过"Drawing to Reason in Space"范式实现空间推理能力突破,在5个基准测试中平均提升18.4% [1][2][3] - 模型在VSI-Bench基准上达到45.4%准确率,与Gemini-1.5-Pro相当,显著超越Qwen2.5-VL-7B等开源模型(+12.7%)[4][26] - 采用三阶段训练框架(冷启动+反思拒绝采样+强化学习)系统化培养空间推理能力,强化学习使绘图操作效率提升159.4% [21][22][23][24][29] 技术突破 推理范式创新 - 提出"边看边画、边画边想"的交互式视觉推理范式,通过绘制辅助标注(参考线/标记框)保留空间信息,解决传统"视觉转文本"范式信息丢失问题 [17][20] - 相比OpenAI的"Thinking with Images"范式,ViLaSR支持多图场景下的连贯空间推理,动态追踪跨帧变化关系 [8][17][20] - 传统LVLMs因视觉编码器压缩丢失时空信息,ViLaSR在迷宫导航任务中准确率提升64.5%(达98.2%)[10][11][25] 训练方法 - 冷启动阶段:合成数据训练基础绘图操作能力(标注边界框/辅助线)[22] - 反思拒绝采样:筛选含修正行为的高质量样本,使反思行为频率提升9.1% [23][29] - 强化学习阶段:通过双奖励机制(结果+格式)优化操作策略,数值类任务性能提升9.21% [24][29] 性能表现 基准测试 - 迷宫导航(MAZE):98.2%(超越GPT-4o 35.1个百分点)[25] - 静态图像理解(SpatialEval-Real):63.9%(优于LLaVA-NeXT-Video-72B)[25] - 多图像推理(MMSI-Bench):30.2%(较SpaceR-7B提升3.3%)[25] 类人能力 - 参考物度量推理:主动识别已知尺寸物体进行比例换算 [30] - 跨帧对象追踪:系统性标注多帧中相同物体建立时空关联 [32] - 案例显示模型可自主修正错误路径,推理步骤减少4.07% [29][33] 行业影响 - 为机器人导航、虚拟助手等空间智能应用奠定技术基础 [34] - 突破视觉语言模型在多图/视频场景的时空关联限制,推动多模态推理向高效性发展 [16][34] - 开源模型ViLaSR-7B代码及论文已公开,加速行业技术迭代 [35]