Referring Expression Comprehension - 财报，业绩电话会，研报，新闻 - Reportify

Referring Expression Comprehension

搜索文档

AI能看懂细节了！IDEA研究院多模态目标检测模型DINO-XSeek，自然语言精准定位目标

量子位· 2025-03-06 16:29

文章核心观点 IDEA研究院发布基于多模态大语言模型的目标检测模型DINO - XSeek，结合视觉与语言理解，能精准定位复杂场景目标，解决传统模型矛盾，在多行业有广泛应用潜力 [1][2] 模型特点 - 结合视觉与语言理解，通过自然语言描述精准定位复杂场景目标，如识别工作的消防员和金色头发的人 [2][5][6] - 基于DINO - X统一视觉模型，融合多模态大语言模型推理与理解能力，能联合解析形容词和介词，让AI看懂细节 [7] - 参考ChatRex模型架构，采用检索式框架，先检测图像物体生成候选目标边界框，再由大语言模型检索相关对象 [10][11][12] - 能精准处理多实例指代任务，实现指代表达理解，为相关任务提供强大解决方案 [15] - 以“理解物体属性及关系”为核心，近似人类对复杂场景的理解能力，降低实际生产应用后置开发成本 [17][18] 应用场景工业制造与质检 - 安全合规检测，识别未佩戴护具或进入危险区域人员并触发警告 [19] - 质量检测，自动识别并分类零部件或成品缺陷，为工艺改进提供数据参考 [21] 智能家居与生活 - 危险行为识别，识别老人意外摔倒等状况并通知或警告 [23] 农业与食品 - 农作物检测，根据发育程度分类农作物，识别腐坏、病虫害侵染果实 [25] 自动驾驶 - 道路场景识别，标注道路图像目标，帮助自动驾驶汽车决策 [26] - 障碍物检测，标注障碍物保障行车安全 [28]

Artificial Intelligence

Multimodal Fusion

Referring Expression Comprehension

Artificial Intelligence

Artificial Intelligence

Multimodal Fusion

Referring Expression Comprehension

Artificial Intelligence