One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心·2025-05-27 12:11
机器之心报道 编辑:+0、Panda 强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍 有待深入探索。 近日,国内初创公司 MiniMax 提出了 V -Tri une ,一个视觉三重统一强化学习系统,它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。 该系统建立在三个核心且相互关联的部分之上,旨在协同处理这些多样化的任务。接下来将详细解释这三个核心组件,并介绍 MiniMax 新颖的动态 IoU 奖励机 制。 样本级数据格式化 MiniMax 是如何格式化数据以支持跨感知和推理任务的统一训练的呢? V-Triune 包含三个互补的组件: 样本级数据格式化 (Sample-Level Data Formatting)(用以统一多样化的任务输入)、 验证器级奖励计算 (Verifier-Level Reward Computation)(通过专门的验证器提供定制化奖励)以及 数据源级指标监控 (Source-Level Metric Monitoring)(用以诊断数据源层面的问题)。 M ...