Referring Expression Comprehension

搜索文档
AI能看懂细节了!IDEA研究院多模态目标检测模型DINO-XSeek,自然语言精准定位目标
量子位· 2025-03-06 16:29
文章核心观点 IDEA研究院发布基于多模态大语言模型的目标检测模型DINO - XSeek,结合视觉与语言理解,能精准定位复杂场景目标,解决传统模型矛盾,在多行业有广泛应用潜力 [1][2] 模型特点 - 结合视觉与语言理解,通过自然语言描述精准定位复杂场景目标,如识别工作的消防员和金色头发的人 [2][5][6] - 基于DINO - X统一视觉模型,融合多模态大语言模型推理与理解能力,能联合解析形容词和介词,让AI看懂细节 [7] - 参考ChatRex模型架构,采用检索式框架,先检测图像物体生成候选目标边界框,再由大语言模型检索相关对象 [10][11][12] - 能精准处理多实例指代任务,实现指代表达理解,为相关任务提供强大解决方案 [15] - 以“理解物体属性及关系”为核心,近似人类对复杂场景的理解能力,降低实际生产应用后置开发成本 [17][18] 应用场景 工业制造与质检 - 安全合规检测,识别未佩戴护具或进入危险区域人员并触发警告 [19] - 质量检测,自动识别并分类零部件或成品缺陷,为工艺改进提供数据参考 [21] 智能家居与生活 - 危险行为识别,识别老人意外摔倒等状况并通知或警告 [23] 农业与食品 - 农作物检测,根据发育程度分类农作物,识别腐坏、病虫害侵染果实 [25] 自动驾驶 - 道路场景识别,标注道路图像目标,帮助自动驾驶汽车决策 [26] - 障碍物检测,标注障碍物保障行车安全 [28]