Workflow
统一多模态视觉推理
icon
搜索文档
港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽
36氪· 2025-12-12 15:17
横扫31个主流基准、拿捏10类核心任务,视觉模型界的"通才"来了! 香港中文大学MMLab与美团研究团队开源提出OneThinker——一个基于RL的统一多模态视觉推理通才模型,覆盖图像与视频两种模态下的十类核心视觉 任务。 在31项主流视觉任务测试中,OneThinker均表现亮眼。它不仅能在多任务训练中实现相互促进,还能在从未见过的任务上做出合理推理,初步展现了通才 模型的泛化能力。 虽然以Vision-R1、Video-R1、VLM-R1等为代表的工作,已经在图像问答、视频理解、目标检测等任务上取得显著效果。 但这类RL模型大部分存在一个限制:只能处理单一模态或单一任务。模态、任务之间缺乏关联,推理能力被割裂,难以泛化应用。 来看看OneThinker是如何做的。 从"专才模型"到"通才系统" 现实世界中的视觉数据复杂多样,往往同时包含静态图像与动态视频信息。同时,视觉任务类型也高度多样化,例如问答、定位、分割、追踪等。 在这种背景下,传统的"单任务、单模态"RL思考模型架构存在以下两个根本性问题: 1. 无法统一建模现实复杂场景 真实应用中往往需要同时理解图像与视频内容,并完成多类任务协同,专才模型难 ...