Vero
搜索文档
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA
量子位· 2026-04-11 09:58
项目概述与核心成就 - 普林斯顿大学刘壮团队发布了首个用于通用视觉推理的开源强化学习(RL)框架“Vero”,该框架构建的视觉推理器在30多项基准测试中达到了8B参数视觉语言模型的最高技术水平(SOTA)[1][3] - Vero的出现标志着学术研究在视觉推理领域追赶上顶尖工业界团队的部分成就,打破了此前GPT、Gemini等大模型背后强化学习方案由各大厂商垄断的局面[3] - Vero团队通过构建高质量数据集、设计任务路由奖励机制以及采用单阶段强化学习,成功解决了视觉语言模型在多任务训练中能力退化或泛化不足的问题[4][8] 技术方案与核心创新 - **构建多样化训练集**:团队从59个数据集中筛选并构建了包含60万高质量样本的“Vero-600K”数据集,样本覆盖图表与OCR、STEM、空间与动作、知识与识别、定位计数与搜索、描述与指令遵循六大类别,广泛均衡的数据覆盖被证实是视觉推理强化学习性能扩展的主要驱动力[10][11][15][23] - **设计任务路由奖励机制**:针对不同视觉任务答案格式差异大的问题,Vero设计了一套多路奖励系统,能根据任务类型自动将输出路由给相应的验证器计算奖励,例如选择题验证选项、数学题进行数学校验、开放描述引入大模型作为裁判[17][18] - **采用单阶段强化学习**:研究证明,无需依赖私有“思考”数据,仅通过高质量数据过滤、均衡任务混合和精确路由奖励的单阶段强化学习,即可激发基础模型的通用视觉推理能力[19][21] 性能表现与基准测试 - 在图表与OCR类别的6个基准测试中,基于Vero训练的模型平均得分达到69.8,相比基线模型提升显著,例如在ChartQA基准上达到91.6分,提升2.0分[22] - 在STEM类别的4个基准测试中,平均得分为63.7,其中在MathVision基准上达到59.0分,提升5.1分[22] - 在空间与动作类别的5个基准测试中,平均得分为66.3,在GameQA Lite基准上达到52.3分,大幅提升18.3分[22] - 在知识与识别类别的4个基准测试中,平均得分为53.3,在MM-Vet v2基准上达到70.2分,提升2.6分[22] - 在定位、计数与视觉搜索类别的8个基准测试中,平均得分为63.8,在VStarBench基准上达到89.5分,提升7.3分[22] - 在描述与指令遵循类别的3个基准测试中,平均得分为83.8,在MMIFEval基准上达到77.7分,提升8.5分[22] - 综合30个基准测试的整体平均得分为66.0,提升5.3分,并且在23项测试中超越了经过专门微调的闭源模型Qwen3-VL-8B-Thinking[21][22] 团队背景与开源状态 - 项目核心团队包括通讯作者Gabriel Sarch和Linrong Cai,项目负责人为普林斯顿大学助理教授刘壮,知名研究员陈丹琦亦参与其中[1][24][25] - 团队负责人刘壮拥有清华大学姚班和加州大学伯克利分校博士学位,其研究成果DenseNet曾获CVPR 2017最佳论文奖,在Meta期间还参与了ConvNeXt等工作[25] - Vero项目的所有数据、代码和模型均已开源,可供行业广泛使用[23]