OneThinker
搜索文档
港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽
36氪· 2025-12-12 15:17
模型概述与核心突破 - 香港中文大学MMLab与美团研究团队开源了名为OneThinker的统一多模态视觉推理通才模型,该模型覆盖图像与视频两种模态下的十类核心视觉任务 [1] - OneThinker在31项主流视觉任务测试中均表现亮眼,不仅能在多任务训练中实现相互促进,还能在从未见过的任务上做出合理推理,初步展现了通才模型的泛化能力 [2] - 该模型旨在解决传统“单任务、单模态”强化学习模型在统一建模现实复杂场景和知识迁移方面的根本性问题,从而具备统一理解和推理不同模态、任务的能力 [5][6] 技术架构与创新方法 - 研究团队从构建统一的数据体系和优化多任务训练方法两方面入手,使OneThinker具备统一推理能力 [8] - 构建了名为OneThinker-600k的数据集,覆盖图像与视频两种模态,涵盖十类核心视觉任务,用于强化学习阶段的主力训练 [9][10] - 同时构建了OneThinker-SFT-340k数据集,基于Seed1.5-VL生成高质量的思维链样本,用于SFT阶段冷启动 [10] - 引入了全新的EMA-GRPO强化训练算法,通过对各任务奖励标准差进行滑动平均归一,解决了任务内样本权重不均和任务间梯度贡献失衡的问题,显著提升了训练稳定性与收敛速度 [11][12] 性能表现与基准测试 - 在图像问答任务中,OneThinker-8B在MMMU基准上得分为70.6,在MathVista上为77.6,在MathVerse上为64.3,在MMBench上为86.6,在MMStar上为70.6,在ScienceQA上为96.5,在AI2D上为85.2,在MMT-Bench上为67.8 [14] - 在视频问答任务中,OneThinker-8B在VideoMMMU上得分为66.2,在MMVU(mc)上为70.5,在VideoMME上为66.5,在VideoHolmes上为48.7,在Long VideoBench上为61.7,在Long Video-Reason上为79.2,在VideoMathQA上为35.0 [14] - 在空间定位任务中,OneThinker-8B在RefCOCO testA上达到93.7%,在testB上达到88.9%,在val上达到92.0%;在RefCOCO+ testA上达到91.4%,在testB上达到82.7%,在val上达到87.0%;在RefCOCOg test上达到88.8%,在val上达到89.2% [17] - 在时间定位任务中,模型在Charades的R@0.5达到68.3,在ActivityNet的R@0.5达到43.6 [17] - 在目标追踪任务中,OneThinker-8B在GOT-10k基准上的AO得分为73.0,R@0.3为93.9,R@0.5为84.4,R@0.7为68.8 [18] - 在图像分割任务中,OneThinker-8B在RefCOCO上的cloU为75.8,在RefCOCO+上为67.1,在RefCOCOg上为70.8 [20] - 在视频分割任务中,OneThinker-8B在MeViS上的J&F为52.7,在ReasonVOS上的J&F为54.9 [20] 模型能力与泛化性 - 研究表明,OneThinker在某些任务和模态之间能实现有效的知识迁移与共享,不同任务之间相互促进 [21] - OneThinker在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务,体现出强大的任务泛化能力 [22] - 该模型的推出展示了强化学习在统一多模态、多任务视觉推理上的潜力,为构建真正的视觉通才模型提供了清晰的路径 [22]
港中文联手美团开源“视觉推理通才”!图像视频10类任务一网打尽
量子位· 2025-12-12 09:00
文章核心观点 - 香港中文大学MMLab与美团研究团队开源了一个名为OneThinker的统一多模态视觉推理通才模型[1] - 该模型旨在解决传统强化学习模型在视觉任务中模态与任务割裂、难以泛化的问题[4][6][7] - OneThinker通过构建统一的数据体系和创新的训练方法,实现了在图像与视频两种模态下十类核心视觉任务上的统一理解和推理[8][10] - 在31项主流视觉任务基准测试中,OneThinker表现亮眼,初步展现了通才模型的泛化能力[2][20] 模型架构与设计理念 - 研究团队提出了从“专才模型”到“通才系统”的转变,以应对现实世界中复杂多样的视觉数据(静态图像与动态视频)和高度多样化的任务类型(如问答、定位、分割、追踪)[5] - 传统“单任务、单模态”的强化学习思考模型架构存在两大根本问题:无法统一建模现实复杂场景,以及知识隔离导致迁移受限[6][7] - OneThinker被设计为具备统一理解和推理不同模态、任务能力的“通才思考模型”[8] 数据构建与训练方法 - 研究团队从构建统一的数据体系和优化多任务训练方法两方面入手,以赋予OneThinker统一推理能力[10] - 为解决数据覆盖不足和任务割裂问题,团队构建了两套数据集:用于强化学习主力训练的OneThinker-600k(覆盖图像与视频两种模态及十类核心视觉任务),以及用于SFT阶段冷启动的OneThinker-SFT-340k[14] - 通过图像与视频任务的联合训练,模型能够在空间与时间维度上建立统一的推理能力,实现跨模态、多任务的通用理解[15] - 针对多任务、多模态场景中传统强化学习方法的训练不平衡问题,OneThinker引入了全新的EMA-GRPO强化训练算法[18] - EMA-GRPO通过对各任务奖励标准差进行滑动平均归一,解决了任务内样本权重不均和任务间梯度贡献失衡两个层面的不平衡问题,显著提升了训练稳定性与收敛速度[19][21] 实验结果与性能表现 - 研究团队在图像与视频两个模态下的31个主流基准上进行了系统测试,覆盖10类核心视觉任务[20] - 在图像问答任务中,OneThinker在MMMU基准上达到70.6%,在MathVerse基准上达到64.3%[22] - 在视频理解任务中,OneThinker在VideoMMMU基准上取得66.2%的表现[22] - 在视频问答(Video QA)的多个基准测试中,OneThinker-8B模型表现优异,例如在VideoMME上达到48.7%,在Long VideoBench上达到61.7%,在VideoMathQA上达到35.0%[22] - 在追踪任务GOT-10k上,OneThinker的AO指标达到73.0%,R@0.3达到93.9%,R@0.5达到84.4%,R@0.7达到68.8%[23] - 在视频分割任务ReasonVOS上,OneThinker的J&F得分为54.9[25] - 消融实验表明,不同任务和模态之间存在知识迁移与共享,任务之间相互促进,例如完整的OneThinker模型在图像问答、视频问答、追踪和分割任务上的表现均优于去除某些组件的变体模型[27] - OneThinker在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务,体现了强大的任务泛化能力[28]