Workflow
PixelCraft
icon
搜索文档
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
量子位· 2025-11-03 11:12
文章核心观点 - PixelCraft系统通过高保真图像处理与非线性多智能体推理两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性 [2] - 该系统在多个图表与几何基准上给出一致的性能增益,解决了传统多模态大模型在结构化图像上因细小感知误差导致推理偏差的痛点 [1][2][33] 结构化图像理解的挑战与PixelCraft的解决方案 - 结构化图像将信息编码进坐标、数据点、连线与数值标注,要求模型在像素级细节上建立可验证的符号化抽象,而传统方法难以满足此要求 [3] - 传统视觉链式思考流程受制于低保真图像处理和简单线性处理链条,在复杂真实问题中效果有限 [4] - PixelCraft将问题拆解为高保真图像处理确保“看准”,以及非线性多智能体推理实现灵活“思考” [5] PixelCraft系统架构与工作流 - 系统由调度器、规划器、推理器、视觉评审与规划评审以及一组视觉工具代理构成,形成多智能体协作框架 [7] - 工作流围绕“工具选择→协作讨论与回溯→自我审查与再规划”展开,规划器利用图像记忆支持选择性回看与分支探索 [7][21] - 视觉评审负责在环质量控制,规划评审负责事后复盘,必要时触发再规划,提升系统稳定性 [20][24] 高保真图像处理技术细节 - 基于微调后的像素级grounding模型,将目标区域文本指代精准映射到像素级坐标区域 [10] - 通过自动生成-标准化-调用的闭环形成工具库,工具代理可执行裁切、放大、按图例遮挡、辅助线标注等标准化CV操作 [10][11][12] - 微调后的grounding模型在各项指标上显著超越基线模型,例如子图区域IoU从0.27提升至0.99,整体指标从0.10提升至0.93 [15][16] 非线性多智能体推理机制 - 采用讨论式工作流,规划器根据上下文动态选择下一角色及输入,支持角色间传递中间结果和回溯 [19][21] - 与线性链式思考相比,该机制允许主动回看早期证据、尝试备选分支和修订假设,尤其适用于易出错的结构化图像场景 [22][28] 实验性能与验证结果 - 在三个图表理解基准上均取得显著提升:在GPT-4o基座上,CharXiv提升5.6个百分点至55.2,ChartQAPro提升6.32个百分点至58.83,EvoChart提升7.60个百分点至70.24 [23][24] - 在GPT-4.1-mini基座上,三个基准分别提升9.5、7.71和8.16个百分点;在Claude-3.7-sonnet基座上分别提升6.8、6.99和6.32个百分点 [24] - 消融实验证实可靠的图像编辑、在环校验和事后复盘共同支撑系统稳定性,全系统配置在ChartQAPro上达到65.56的最高分 [25]