文章核心观点 - 香港中文大学MMLab与美团研究团队开源了一个名为OneThinker的统一多模态视觉推理通才模型[1] - 该模型旨在解决传统强化学习模型在视觉任务中模态与任务割裂、难以泛化的问题[4][6][7] - OneThinker通过构建统一的数据体系和创新的训练方法,实现了在图像与视频两种模态下十类核心视觉任务上的统一理解和推理[8][10] - 在31项主流视觉任务基准测试中,OneThinker表现亮眼,初步展现了通才模型的泛化能力[2][20] 模型架构与设计理念 - 研究团队提出了从“专才模型”到“通才系统”的转变,以应对现实世界中复杂多样的视觉数据(静态图像与动态视频)和高度多样化的任务类型(如问答、定位、分割、追踪)[5] - 传统“单任务、单模态”的强化学习思考模型架构存在两大根本问题:无法统一建模现实复杂场景,以及知识隔离导致迁移受限[6][7] - OneThinker被设计为具备统一理解和推理不同模态、任务能力的“通才思考模型”[8] 数据构建与训练方法 - 研究团队从构建统一的数据体系和优化多任务训练方法两方面入手,以赋予OneThinker统一推理能力[10] - 为解决数据覆盖不足和任务割裂问题,团队构建了两套数据集:用于强化学习主力训练的OneThinker-600k(覆盖图像与视频两种模态及十类核心视觉任务),以及用于SFT阶段冷启动的OneThinker-SFT-340k[14] - 通过图像与视频任务的联合训练,模型能够在空间与时间维度上建立统一的推理能力,实现跨模态、多任务的通用理解[15] - 针对多任务、多模态场景中传统强化学习方法的训练不平衡问题,OneThinker引入了全新的EMA-GRPO强化训练算法[18] - EMA-GRPO通过对各任务奖励标准差进行滑动平均归一,解决了任务内样本权重不均和任务间梯度贡献失衡两个层面的不平衡问题,显著提升了训练稳定性与收敛速度[19][21] 实验结果与性能表现 - 研究团队在图像与视频两个模态下的31个主流基准上进行了系统测试,覆盖10类核心视觉任务[20] - 在图像问答任务中,OneThinker在MMMU基准上达到70.6%,在MathVerse基准上达到64.3%[22] - 在视频理解任务中,OneThinker在VideoMMMU基准上取得66.2%的表现[22] - 在视频问答(Video QA)的多个基准测试中,OneThinker-8B模型表现优异,例如在VideoMME上达到48.7%,在Long VideoBench上达到61.7%,在VideoMathQA上达到35.0%[22] - 在追踪任务GOT-10k上,OneThinker的AO指标达到73.0%,R@0.3达到93.9%,R@0.5达到84.4%,R@0.7达到68.8%[23] - 在视频分割任务ReasonVOS上,OneThinker的J&F得分为54.9[25] - 消融实验表明,不同任务和模态之间存在知识迁移与共享,任务之间相互促进,例如完整的OneThinker模型在图像问答、视频问答、追踪和分割任务上的表现均优于去除某些组件的变体模型[27] - OneThinker在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务,体现了强大的任务泛化能力[28]
港中文联手美团开源“视觉推理通才”!图像视频10类任务一网打尽
量子位·2025-12-12 09:00