Workflow
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心·2025-06-06 17:36

模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]