港中文联手美团开源“视觉推理通才”，图像视频10类任务一网打尽

模型概述与核心突破 - 香港中文大学MMLab与美团研究团队开源了名为OneThinker的统一多模态视觉推理通才模型，该模型覆盖图像与视频两种模态下的十类核心视觉任务 [1] - OneThinker在31项主流视觉任务测试中均表现亮眼，不仅能在多任务训练中实现相互促进，还能在从未见过的任务上做出合理推理，初步展现了通才模型的泛化能力 [2] - 该模型旨在解决传统“单任务、单模态”强化学习模型在统一建模现实复杂场景和知识迁移方面的根本性问题，从而具备统一理解和推理不同模态、任务的能力 [5][6] 技术架构与创新方法 - 研究团队从构建统一的数据体系和优化多任务训练方法两方面入手，使OneThinker具备统一推理能力 [8] - 构建了名为OneThinker-600k的数据集，覆盖图像与视频两种模态，涵盖十类核心视觉任务，用于强化学习阶段的主力训练 [9][10] - 同时构建了OneThinker-SFT-340k数据集，基于Seed1.5-VL生成高质量的思维链样本，用于SFT阶段冷启动 [10] - 引入了全新的EMA-GRPO强化训练算法，通过对各任务奖励标准差进行滑动平均归一，解决了任务内样本权重不均和任务间梯度贡献失衡的问题，显著提升了训练稳定性与收敛速度 [11][12] 性能表现与基准测试 - 在图像问答任务中，OneThinker-8B在MMMU基准上得分为70.6，在MathVista上为77.6，在MathVerse上为64.3，在MMBench上为86.6，在MMStar上为70.6，在ScienceQA上为96.5，在AI2D上为85.2，在MMT-Bench上为67.8 [14] - 在视频问答任务中，OneThinker-8B在VideoMMMU上得分为66.2，在MMVU(mc)上为70.5，在VideoMME上为66.5，在VideoHolmes上为48.7，在Long VideoBench上为61.7，在Long Video-Reason上为79.2，在VideoMathQA上为35.0 [14] - 在空间定位任务中，OneThinker-8B在RefCOCO testA上达到93.7%，在testB上达到88.9%，在val上达到92.0%；在RefCOCO+ testA上达到91.4%，在testB上达到82.7%，在val上达到87.0%；在RefCOCOg test上达到88.8%，在val上达到89.2% [17] - 在时间定位任务中，模型在Charades的R@0.5达到68.3，在ActivityNet的R@0.5达到43.6 [17] - 在目标追踪任务中，OneThinker-8B在GOT-10k基准上的AO得分为73.0，R@0.3为93.9，R@0.5为84.4，R@0.7为68.8 [18] - 在图像分割任务中，OneThinker-8B在RefCOCO上的cloU为75.8，在RefCOCO+上为67.1，在RefCOCOg上为70.8 [20] - 在视频分割任务中，OneThinker-8B在MeViS上的J&F为52.7，在ReasonVOS上的J&F为54.9 [20] 模型能力与泛化性 - 研究表明，OneThinker在某些任务和模态之间能实现有效的知识迁移与共享，不同任务之间相互促进 [21] - OneThinker在未见任务上展现出零样本能力，能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务，体现出强大的任务泛化能力 [22] - 该模型的推出展示了强化学习在统一多模态、多任务视觉推理上的潜力，为构建真正的视觉通才模型提供了清晰的路径 [22]