下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
机器之心·2025-11-13 16:26
多模态大语言模型(MLLM)在目标定位精度上被长期诟病,难以匹敌传统的基于坐标回归的检测器。近 日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。 该模型将所有视觉感知任务统一为「下一个点预测」,并结合高效的 4-Token 坐标编码和两阶段 GRPO 强 化学习后训练。在 COCO、LVIS 等核心检测基准的零样本评估下,Rex-Omni 的性能超越了 Grounding DINO,DINO 等基于坐标回归模型的。它系统解决了 MLLM 的定位和行为缺陷,在目标检测、指代、点 选、GUI 定位、OCR、版面分析等 10 多项任务上实现 SOTA 的性能,预示着下一代强语言理解的感知系统 的到来。 目标检测的「金杯」与两大模型范式核心困境 另一方面,MLLM(如 Qwen2.5-VL, SEED1.5-VL) 因其底层的 LLM 具有强大的语言理解和推理能力,为 实现这一目标带来了希望。它们将坐标视为离散的 Token,用交叉熵进行分类预测。然而,这种概念上优雅 的方法在实践中面临两大根本挑战,导致其定位能力远未达到传统回归检测器的水平,并容易出现低召回 ...