Workflow
GEOPERCEIVE
icon
搜索文档
VLM解几何题总翻车?GEODPO从「看」入手:用结构化表示+DPO优化,让模型先看懂再推理丨ICLR'26
量子位· 2026-03-30 18:36
文章核心观点 - 当前视觉语言模型在几何问题上的表现不佳,其核心瓶颈往往被忽略,主要问题并非推理能力不足,而是更前端的几何图形感知能力存在缺陷,即模型“看不对”图形结构[3][4] - 研究团队提出了首个独立评测几何感知能力的框架GEOPERCEIVE,以及一种基于结构化奖励的优化方法GEODPO,通过将感知与推理解耦并利用结构化表示进行优化,显著提升了模型的几何感知与下游推理能力[9][19][25] 几何感知能力是当前VLM的核心短板 - 视觉语言模型在涉及几何图形的任务上表现显著下降,其失败案例暴露出几何感知错误的短板,这一因素在现有研究中未被单独系统分析[2][3] - 模型的失败往往发生在推理之前,源于对图形基本元素和结构关系的识别错误,例如错误识别点线圆、漏检垂直相切等关系,这直接影响了后续逻辑链条[4][5][10] 独立评测框架GEOPERCEIVE - 现有几何评测基准采用端到端方式,将感知错误与推理错误混合统计,难以定位能力瓶颈[7][8] - GEOPERCEIVE是首个面向几何感知能力的独立评测框架,其核心关注点是模型是否“看对”几何结构[9][11] - 该框架使用团队设计的几何领域专用语言GeoDSL进行结构化表示,图形由程序生成再渲染为图像,实现了评估粒度从答案对错细化到每个几何元素和每条结构关系是否准确[14][15][16] 结构化优化方法GEODPO - 针对几何感知短板,研究团队提出了GEODPO优化方法,这是一种基于翻译器引导的强化学习路径[17][19] - 该方法让模型仍输出自然语言,但优化信号来自其输出被翻译为GeoDSL后的结构匹配分数,具有不改变模型输出空间、奖励函数可解释、优化目标与结构识别直接对齐的优势[19][23] - 相比直接进行监督微调,GEODPO在多个骨干模型上表现更为稳定,并保持了持续的性能提升趋势[24] 方法成效与影响 - 实验表明,经GEODPO优化后,模型的几何感知能力获得提升,并在分布外测试集上展现出更好的泛化能力[21] - 在MathVista等下游几何推理基准测试中,当结构识别准确度提高时,整体推理表现往往同步改善,表明底层结构表示质量是影响几何推理性能的重要因素[22] - 这项工作提供了一种研究范式:将复杂能力拆解为可独立评测的子模块,用结构化表示和可计算奖励函数引导模型,该思路可扩展至工程图纸解析、科学图像理解等领域[27][28]