Grounding DINO
搜索文档
下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
机器之心· 2025-11-13 16:26
核心观点 - 多模态大语言模型在目标定位精度上取得重大突破,IDEA研究院的Rex-Omni模型首次在零样本检测性能上超越传统基于坐标回归的检测器 [2][4] - 该模型通过三大核心设计系统性地解决了MLLM的几何离散化挑战和行为调控缺陷,实现了强大的语言理解与精确几何感知的融合 [10][11] - Rex-Omni在10多项视觉感知任务上实现SOTA性能,预示下一代强语言理解感知系统的到来 [4][45] 目标检测领域的范式困境 - 目标检测的“金杯”是构建能根据任意自然语言提示检测任意物体且无需微调的通用模型 [7] - 传统回归模型(如DETR、Grounding DINO)定位精度高但语言理解能力浅,无法满足复杂语义要求 [7] - MLLM模型(如Qwen2.5-VL)具有强大语言理解能力,但面临几何离散化挑战和行为调控缺陷两大根本问题,导致定位能力不足 [7][9] Rex-Omni的核心技术突破 - **输出形式与任务设计**:采用统一的“下一个点预测”框架,将各种视觉感知任务转化为坐标序列生成,使用量化相对坐标和专有Token,表示一个完整边界框仅需4个特殊Token,Token效率提升数倍 [11][13][14] - **多种数据引擎**:构建Grounding、Referring、Pointing等定制化数据引擎,自动化生成大规模高质量训练数据,共在2200万张高标注质量图像样本上训练 [16] - **两阶段训练方法**:采用SFT+GRPO两阶段训练,SFT阶段在2200万数据上进行监督微调,GRPO阶段在66K数据上采用强化学习后训练,通过几何感知奖励函数解锁模型潜在能力 [17][19][21] 实验性能评估结果 - **通用目标检测**:在COCO基准零样本评估下,Rex-Omni的F1@IoU=0.5达72.0%,超越Grounding DINO的69.8%;在LVIS基准上F1@IoU=0.5达64.3%,超越Grounding DINO的47.7% [20][22][23][24] - **密集小物体检测**:在VisDrone任务上F1@mIoU达35.8%,在Dense200任务上达58.3%,均为MLLM中最高性能,相比SEED1.5-VL等模型输出相同数量目标时Token数减少90%以上 [27][28] - **多任务通用处理**:在对象指代任务RefCOCOg test上F1@mIoU达74.3%,在对象点选任务中所有测试数据集均取得MLLM最高F1-Score,在GUI定位和OCR任务中也展现卓越跨场景泛化能力 [31][32][34][37] GRPO训练机制深度分析 - GRPO并非从零学习,而是通过奖励反馈解锁SFT模型已具备的定位潜能,仅需极少训练步骤就使性能出现陡峭跃升 [40][41] - 核心贡献在于行为矫正,GRPO将SFT模型在密集场景下预测大框的占比从20.5%降至3.5%,并几乎自动消除重复预测问题 [43][47] - GRPO显著提升了模型采样到高质量正确答案的概率,使SFT模型在贪心解码时更可靠地选择最优解 [43]
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
机器之心· 2025-10-17 10:11
核心技术方案:DeepMMSearch-R1模型 - 提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制自适应地优化搜索查询[1] - 引入中间图像裁剪工具(Grounding DINO)以应对图像背景噪声和干扰性视觉实体,通过生成指代表达来识别并裁剪相关图像区域,从而提升图像搜索的检索质量和整体性能[3] 模型训练方法 - 采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL)[3] - 训练目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索内容进行推理以决定下一步行动[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和投影层冻结,以保留预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过比较同一提示词下的候选回复提升训练稳定性,并采用结合事实准确性与结构合规性的复合奖励函数[10][14] 数据集构建 - 构建了DeepMMSearchVQA数据集,包含多样化多跳视觉问答样本,并以多轮对话形式呈现,在不同知识类别间保持平衡分布[4][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签的多轮对话数据,经质量筛选后得到约4.7万条精炼对话样本,并进一步采样1万个VQA样本作为有监督微调阶段的训练语料[7] 性能表现 - 配备网络搜索功能的多模态大语言模型在性能上显著优于RAG工作流和基于提示的搜索代理基线模型[16] - DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[16] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,SFT阶段使模型具备工具使用能力,而RL阶段通过减少不必要调用来优化工具选择行为[17][19] - 在DynVQA数据集中,模型在87.7%的样本上调用了工具,而在OKVQA中这一比例为43.5%,工具使用行为与数据集特性保持一致[20] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定[23][24]