AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华
微软微软(US:MSFT) 量子位·2026-02-08 12:46

文章核心观点 - 当前视觉-语言模型在复杂任务中常因“看错”关键视觉证据而犯错,而非推理能力不足 [1] - 微软亚洲研究院与清华大学提出的BiPS方法,通过在训练阶段内化“带着问题看图”的能力,从源头重塑模型的视觉感知方式,使其能自动聚焦关键区域 [1] - BiPS仅用13K图表样本微调,即可让模型获得可迁移的“看对地方”能力,在多个基准测试上实现显著且一致的性能提升 [20][21][22] 视觉-语言模型现有问题 - 模型视觉与推理脱节:模型能识别物体和理解问题,但缺乏对关键证据的精准定位能力,常因捕捉错误视觉证据而给出自信的错误答案 [1][3] - 现有引导方法局限:依赖推理阶段的视觉提示(如框选、掩码),存在三大局限:1) 关键视觉线索往往不规则弥散,难以被标准框完整覆盖;2) 聚焦能力无法跨任务迁移;3) 将感知推迟到推理后,拖慢效率并放大错误 [3][4] BiPS方法的核心机制 - 核心转向:从“推理时补救”转向“训练时内化”,将视觉提示转化为训练信号,教会模型本能聚焦关键证据 [5][7][8] - 双重感知塑形:采用“一拉一推”的互补机制。“拉”通过构建“证据保留视图”,剔除干扰,确保回答基于完整证据链;“推”通过构建“证据消融视图”,精准移除关键细节,迫使模型识别不可替代的线索 [9][11][14][15][16][17] - 训练材料选择:使用图表作为训练起点,因其视觉证据(如折线、刻度)密度高、信息量大且可程序化操控,是复杂且可控的理想实验场 [19] 实验效果与性能 - 训练效率高:仅使用13,000条图表样本进行微调,无需人工标注或针对不同任务定制工具 [20] - 性能提升显著:以Qwen2.5-VL-7B为基础模型,BiPS在8个评测基准上实现平均准确率提升7.3个百分点,提升效果跨越不同数据分布和任务类型 [21] - 具体基准表现:在CharXiv上准确率从42.5%提升至49.4%,在ChartQAPro上从36.6%提升至51.9%,在Math Vision上从41.1%提升至44.4% [21] - 能力可迁移:即使在强化推理的模型(如Qwen3-VL-8B-Thinking)上,BiPS同样有效(如CharXiv从53.0%提升至58.1%),证明其习得的是通用的视觉聚焦能力,而非特定任务技巧 [22] 行业意义与前景 - 能力根本转变:BiPS使模型的视觉注意力从被动、均匀的扫视,转变为主动、问题驱动的精准聚焦,这是通向通用视觉智能的关键一步 [24] - 开辟新路径:模型“看哪儿”的能力具有跨任务迁移性,为构建更可靠、通用的视觉理解系统开辟了新路径 [2]

AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华 - Reportify