多模态大语言模型(MLLM)

搜索文档
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 12:05
于恩 投稿 量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的 纯多模态开源LLM 来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 (PR1) ,在视觉推理中最基础的感知层面,探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的 纯视觉 (计数,通用目标检测) 以及 视觉语言 (grounding,OCR) 任务,实验结果展现出在模型感知策略上 的巨大潜力。 然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们 在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只 猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。 强化学习的崛起与Perception-R1的诞生 强化学习 (Reinforcement Learning, RL) 引发了语言模型的范式转变。像RLHF (来自人 ...
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
机器之心· 2025-04-28 09:26
在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。无论是手术医 生带着 AR 眼镜进行操作,还是智能工厂流水线前的例行检查、或是面对书本时 AR 快速查找翻阅的超能力,是这一切只为一个最终目的——通过适时的信 息辅助我们。 直到今日,大部分 AR 辅助依然停留在需要人工远程接入辅助的层面,与我们期待的智能的、理解性的、可拓展的 AR 辅助相差甚远。这也导致 AR 在重要 产业和生活应用中的普及受到限制。如何能让 AR 在生活中真正做到理解用户、理解环境、并适时的辅助依然面临巨大挑战。 Satori 系统自动识别用户称重 11 g 咖啡的展示 这一切随着 Satori 系统的诞生即将成为过去。来自纽约大学数据与可视化实验室(NYU VIDA)联合 Adobe 的研究人员融合多模态大语言模型(MLLM) 与认知理论 BDI(Belief-desire-intention theory) 让 AI 首次真正意义的去理解使用者的行为、目标以及环境状态 ,最终达到根据不同场景自动适配指 示内容,指示步骤,与判断辅助时机。让 AR 辅助接入智慧核心 ...
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 11:54
多模态大语言模型(MLLM)时空智能评测 - 核心观点:当前最先进的多模态大语言模型在精确空间时间理解任务上表现不佳,距离实际应用需求仍有显著差距 [1][12][20] - 研究团队推出首个MLLM时空智能评测基准STI-Bench,聚焦真实世界视频输入和定量化空间-时间理解能力评估 [4][6] STI-Bench评测框架 - 数据来源:300+真实世界视频,覆盖毫米级(桌面)、厘米级(室内)、分米级(户外)三类场景 [6] - 评测任务:8项任务分静态空间理解(尺度度量/空间关系/3D定位)和动态时序理解(位移路径/速度加速度/轨迹描述等) [6] - 问答数据集:2000+对高质量QA,基于GPT-4o生成并经过人工校准 [8] 模型表现分析 - 整体表现:最佳模型Qwen2 5-VL-72B和Gemini-2 5-Pro准确率仅41 3%和40 9%,远低于实际应用可靠性阈值 [11][12] - 场景差异:户外场景表现最佳(Qwen2 5-VL达49 24%),室内和桌面环境普遍低于40% [14][17] - 开源突破:Qwen2 5-VL-72B超越所有专有模型,成为开源社区亮点 [13] 核心能力缺陷 - 定量空间缺陷:单目视频中物体尺寸/距离估计不准,3D信息推断困难(尺度度量最高仅34 2%) [15][17] - 动态理解短板:跨帧运动特征计算能力弱(位移路径长度最佳不足33%,速度加速度最高36 9%) [16][17] - 多模态整合不足:文本指令与视觉内容协同处理能力薄弱 [18] 行业影响与资源 - 研究价值:为具身智能和自动驾驶领域提供MLLM能力评估标准,指明改进方向 [19][21] - 开源资源:论文/代码/数据已公开,涵盖arXiv论文、GitHub代码库和HuggingFace数据集 [22]