Workflow
多模态大语言模型(MLLM)
icon
搜索文档
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 12:05
多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1(PR1),首次在COCO2017 val set上突破30AP,超越YOLOv3(27.9AP)和Faster-RCNN(35.6AP)等传统模型 [1][19] - 该框架专注于纯视觉任务(目标检测、计数)和视觉语言任务(OCR、grounding),通过基于规则的强化学习(RL)优化感知策略,显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization(GRPO)技术,通过多轮尝试、奖励建模和策略更新机制优化模型输出,例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架,可增强现有MLLM(如Qwen2-VLInstruct-2B)的视觉能力,无需从头训练 [7] - 奖励函数设计包含三部分:视觉细节提取(如OCR任务使用编辑距离)、逻辑操作执行(如点检测计数)、输出格式验证(正确格式+1分,错误-1分) [11][13][17] - 针对多物体检测的匹配难题,采用二分图匹配和匈牙利算法计算最优奖励,确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分(测试集75.6分),远超LLaVA-1.5(33.3分)和Qwen2-VL(60.2分) [19] - OCR任务(PageOCR)编辑距离仅3.5(英文)和9.0(中文),F1-score达98.2(英文)和94.4(中文),优于Nougat(25.5)和DocOw(25.8) [18] - 在MMBench等综合评测中,Perception-R1以71.8平均分展现全面优势,尤其在MMVet(48.9分)和AI2D(58.2分)等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关,为大规模扩展提供验证基础,例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设,为下一代智能感知系统奠定技术路径,例如通过显式思维链(thinking)优化策略 [24][25] - 论文与代码已开源,旨在推动社区建立更强基线,加速多模态感知技术迭代 [2][26]
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
机器之心· 2025-04-28 09:26
研究团队与背景 - 团队由IEEE会士Claudio Silva和纽约大学研究助理教授钱靖共同指导 [2] - 论文由Chenyi Li和Guande Wu担任共同第一作者 [2] - 研究由纽约大学数据与可视化实验室(NYU VIDA)联合Adobe共同完成 [5] AR技术现状与挑战 - 当前AR辅助仍依赖人工远程接入,与理想的智能理解型辅助存在差距 [4] - AR在重要产业和生活应用中的普及受限于技术成熟度 [4] - 主要挑战在于如何让AR真正理解用户行为、环境状态并适时提供辅助 [4] Satori系统创新 核心技术架构 - 融合多模态大语言模型(MLLM)与认知理论BDI(Belief-desire-intention theory) [5] - 采用模块化组织MLLM,将图像识别、语义理解、交互历史解耦处理 [11] - 视觉感知模块(OWL-ViT与DETR)与语言推理模块分层协作 [11] 四大核心创新 1. 结合BDI模型理解用户行为 - 通过AR眼镜实现"具身感知" [8] - BDI模型分解行为为Belief(环境理解)、Desire(目标判断)、Intention(动作行为)三部分 [8] - AI可实时判断用户行为背后的目的而非单纯行为本身 [10] 2. 大语言模型结构认知 - 模块化架构增强推理透明度与可解释性 [12] - 显著提升系统泛化性与跨任务适配能力 [12] - 展示多模态大模型在具身智能中的潜力 [12] 3. AI自动生成多模态指示 - 使用DALLE-3生成与任务阶段匹配的视觉提示 [13] - 自动生成场景化文字指引(如"把花插入蓝色花瓶") [13] - 提升AR辅助的清晰度与实用性 [13] 4. 双系统动作检测 - 将复杂步骤分解为易判断的小目标(checkpoints) [15] - 采用双系统理论(Dual Process Theory)实现快速反应+理性结构 [17] - 轻量LLM负责快速判断,高容量LLM补充语义分析 [17] 应用前景 - 框架可部署于HoloLens、Vision Pro及Rokid、INMO等智能眼镜平台 [18] - 为跨平台、多领域智能辅助系统奠定方法论基础 [18] - 代表AR技术迈向实用性的重要机遇 [19]
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 11:54
多模态大语言模型(MLLM)时空智能评测 - 核心观点:当前最先进的多模态大语言模型在精确空间时间理解任务上表现不佳,距离实际应用需求仍有显著差距 [1][12][20] - 研究团队推出首个MLLM时空智能评测基准STI-Bench,聚焦真实世界视频输入和定量化空间-时间理解能力评估 [4][6] STI-Bench评测框架 - 数据来源:300+真实世界视频,覆盖毫米级(桌面)、厘米级(室内)、分米级(户外)三类场景 [6] - 评测任务:8项任务分静态空间理解(尺度度量/空间关系/3D定位)和动态时序理解(位移路径/速度加速度/轨迹描述等) [6] - 问答数据集:2000+对高质量QA,基于GPT-4o生成并经过人工校准 [8] 模型表现分析 - 整体表现:最佳模型Qwen2 5-VL-72B和Gemini-2 5-Pro准确率仅41 3%和40 9%,远低于实际应用可靠性阈值 [11][12] - 场景差异:户外场景表现最佳(Qwen2 5-VL达49 24%),室内和桌面环境普遍低于40% [14][17] - 开源突破:Qwen2 5-VL-72B超越所有专有模型,成为开源社区亮点 [13] 核心能力缺陷 - 定量空间缺陷:单目视频中物体尺寸/距离估计不准,3D信息推断困难(尺度度量最高仅34 2%) [15][17] - 动态理解短板:跨帧运动特征计算能力弱(位移路径长度最佳不足33%,速度加速度最高36 9%) [16][17] - 多模态整合不足:文本指令与视觉内容协同处理能力薄弱 [18] 行业影响与资源 - 研究价值:为具身智能和自动驾驶领域提供MLLM能力评估标准,指明改进方向 [19][21] - 开源资源:论文/代码/数据已公开,涵盖arXiv论文、GitHub代码库和HuggingFace数据集 [22]