AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

文章核心观点 - 当前视觉-语言模型在复杂任务中常因“看错”关键视觉证据而犯错，而非推理能力不足 [1] - 微软亚洲研究院与清华大学提出的BiPS方法，通过在训练阶段内化“带着问题看图”的能力，从源头重塑模型的视觉感知方式，使其能自动聚焦关键区域 [1] - BiPS仅用13K图表样本微调，即可让模型获得可迁移的“看对地方”能力，在多个基准测试上实现显著且一致的性能提升 [20][21][22] 视觉-语言模型现有问题 - 模型视觉与推理脱节：模型能识别物体和理解问题，但缺乏对关键证据的精准定位能力，常因捕捉错误视觉证据而给出自信的错误答案 [1][3] - 现有引导方法局限：依赖推理阶段的视觉提示（如框选、掩码），存在三大局限：1) 关键视觉线索往往不规则弥散，难以被标准框完整覆盖；2) 聚焦能力无法跨任务迁移；3) 将感知推迟到推理后，拖慢效率并放大错误 [3][4] BiPS方法的核心机制 - 核心转向：从“推理时补救”转向“训练时内化”，将视觉提示转化为训练信号，教会模型本能聚焦关键证据 [5][7][8] - 双重感知塑形：采用“一拉一推”的互补机制。“拉”通过构建“证据保留视图”，剔除干扰，确保回答基于完整证据链；“推”通过构建“证据消融视图”，精准移除关键细节，迫使模型识别不可替代的线索 [9][11][14][15][16][17] - 训练材料选择：使用图表作为训练起点，因其视觉证据（如折线、刻度）密度高、信息量大且可程序化操控，是复杂且可控的理想实验场 [19] 实验效果与性能 - 训练效率高：仅使用13,000条图表样本进行微调，无需人工标注或针对不同任务定制工具 [20] - 性能提升显著：以Qwen2.5-VL-7B为基础模型，BiPS在8个评测基准上实现平均准确率提升7.3个百分点，提升效果跨越不同数据分布和任务类型 [21] - 具体基准表现：在CharXiv上准确率从42.5%提升至49.4%，在ChartQAPro上从36.6%提升至51.9%，在Math Vision上从41.1%提升至44.4% [21] - 能力可迁移：即使在强化推理的模型（如Qwen3-VL-8B-Thinking）上，BiPS同样有效（如CharXiv从53.0%提升至58.1%），证明其习得的是通用的视觉聚焦能力，而非特定任务技巧 [22] 行业意义与前景 - 能力根本转变：BiPS使模型的视觉注意力从被动、均匀的扫视，转变为主动、问题驱动的精准聚焦，这是通向通用视觉智能的关键一步 [24] - 开辟新路径：模型“看哪儿”的能力具有跨任务迁移性，为构建更可靠、通用的视觉理解系统开辟了新路径 [2]