视觉转文本 - 财报，业绩电话会，研报，新闻

视觉转文本

搜索文档

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

量子位· 2025-06-21 14:07

核心观点 - 蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B模型，通过"Drawing to Reason in Space"范式实现空间推理能力突破，在5个基准测试中平均提升18.4% [1][2][3] - 模型在VSI-Bench基准上达到45.4%准确率，与Gemini-1.5-Pro相当，显著超越Qwen2.5-VL-7B等开源模型（+12.7%）[4][26] - 采用三阶段训练框架（冷启动+反思拒绝采样+强化学习）系统化培养空间推理能力，强化学习使绘图操作效率提升159.4% [21][22][23][24][29] 技术突破推理范式创新 - 提出"边看边画、边画边想"的交互式视觉推理范式，通过绘制辅助标注（参考线/标记框）保留空间信息，解决传统"视觉转文本"范式信息丢失问题 [17][20] - 相比OpenAI的"Thinking with Images"范式，ViLaSR支持多图场景下的连贯空间推理，动态追踪跨帧变化关系 [8][17][20] - 传统LVLMs因视觉编码器压缩丢失时空信息，ViLaSR在迷宫导航任务中准确率提升64.5%（达98.2%）[10][11][25] 训练方法 - 冷启动阶段：合成数据训练基础绘图操作能力（标注边界框/辅助线）[22] - 反思拒绝采样：筛选含修正行为的高质量样本，使反思行为频率提升9.1% [23][29] - 强化学习阶段：通过双奖励机制（结果+格式）优化操作策略，数值类任务性能提升9.21% [24][29] 性能表现基准测试 - 迷宫导航（MAZE）：98.2%（超越GPT-4o 35.1个百分点）[25] - 静态图像理解（SpatialEval-Real）：63.9%（优于LLaVA-NeXT-Video-72B）[25] - 多图像推理（MMSI-Bench）：30.2%（较SpaceR-7B提升3.3%）[25] 类人能力 - 参考物度量推理：主动识别已知尺寸物体进行比例换算 [30] - 跨帧对象追踪：系统性标注多帧中相同物体建立时空关联 [32] - 案例显示模型可自主修正错误路径，推理步骤减少4.07% [29][33] 行业影响 - 为机器人导航、虚拟助手等空间智能应用奠定技术基础 [34] - 突破视觉语言模型在多图/视频场景的时空关联限制，推动多模态推理向高效性发展 [16][34] - 开源模型ViLaSR-7B代码及论文已公开，加速行业技术迭代 [35]