多模态大语言模型(MLLM)
搜索文档
下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
机器之心· 2025-11-13 16:26
核心观点 - 多模态大语言模型在目标定位精度上取得重大突破,IDEA研究院的Rex-Omni模型首次在零样本检测性能上超越传统基于坐标回归的检测器 [2][4] - 该模型通过三大核心设计系统性地解决了MLLM的几何离散化挑战和行为调控缺陷,实现了强大的语言理解与精确几何感知的融合 [10][11] - Rex-Omni在10多项视觉感知任务上实现SOTA性能,预示下一代强语言理解感知系统的到来 [4][45] 目标检测领域的范式困境 - 目标检测的“金杯”是构建能根据任意自然语言提示检测任意物体且无需微调的通用模型 [7] - 传统回归模型(如DETR、Grounding DINO)定位精度高但语言理解能力浅,无法满足复杂语义要求 [7] - MLLM模型(如Qwen2.5-VL)具有强大语言理解能力,但面临几何离散化挑战和行为调控缺陷两大根本问题,导致定位能力不足 [7][9] Rex-Omni的核心技术突破 - **输出形式与任务设计**:采用统一的“下一个点预测”框架,将各种视觉感知任务转化为坐标序列生成,使用量化相对坐标和专有Token,表示一个完整边界框仅需4个特殊Token,Token效率提升数倍 [11][13][14] - **多种数据引擎**:构建Grounding、Referring、Pointing等定制化数据引擎,自动化生成大规模高质量训练数据,共在2200万张高标注质量图像样本上训练 [16] - **两阶段训练方法**:采用SFT+GRPO两阶段训练,SFT阶段在2200万数据上进行监督微调,GRPO阶段在66K数据上采用强化学习后训练,通过几何感知奖励函数解锁模型潜在能力 [17][19][21] 实验性能评估结果 - **通用目标检测**:在COCO基准零样本评估下,Rex-Omni的F1@IoU=0.5达72.0%,超越Grounding DINO的69.8%;在LVIS基准上F1@IoU=0.5达64.3%,超越Grounding DINO的47.7% [20][22][23][24] - **密集小物体检测**:在VisDrone任务上F1@mIoU达35.8%,在Dense200任务上达58.3%,均为MLLM中最高性能,相比SEED1.5-VL等模型输出相同数量目标时Token数减少90%以上 [27][28] - **多任务通用处理**:在对象指代任务RefCOCOg test上F1@mIoU达74.3%,在对象点选任务中所有测试数据集均取得MLLM最高F1-Score,在GUI定位和OCR任务中也展现卓越跨场景泛化能力 [31][32][34][37] GRPO训练机制深度分析 - GRPO并非从零学习,而是通过奖励反馈解锁SFT模型已具备的定位潜能,仅需极少训练步骤就使性能出现陡峭跃升 [40][41] - 核心贡献在于行为矫正,GRPO将SFT模型在密集场景下预测大框的占比从20.5%降至3.5%,并几乎自动消除重复预测问题 [43][47] - GRPO显著提升了模型采样到高质量正确答案的概率,使SFT模型在贪心解码时更可靠地选择最优解 [43]
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
机器之心· 2025-11-11 07:47
文章核心观点 - 空间智能是人工智能的下一个前沿,它将彻底改变人类创造和交互现实与虚拟世界的方式,重塑叙事、创意、机器人学、科学发现等领域 [5][17] - 当前以大语言模型为代表的AI在空间智能方面与人类存在巨大差距,缺乏对物理世界的整体性理解和交互能力 [14][15] - 实现空间智能需要构建全新的“世界模型”,该模型需具备生成性、多模态性和交互性三大核心能力 [17][18][19][20] - 空间智能的应用潜力巨大,将赋能创造力、机器人技术、科学、医疗和教育等多个领域,其目标是增强而非取代人类能力 [30][38][40] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,定义了人类如何与物理世界互动,是想象力与创造力的基础 [10][13] - 人类依赖空间智能完成日常行为,如停车、接钥匙、在人群中穿行等,这种流畅性是机器尚未具备的 [10] - 在人类文明发展的关键时刻,空间智能屡次扮演核心角色,例如埃拉托色尼计算地球周长、发明珍妮纺纱机、发现DNA双螺旋结构等 [11][12] - 当前最先进的多模态AI模型在估算距离、方向、大小等任务上表现仅略高于随机水平,无法预测基本物理规律,生成的视频缺乏连贯性 [14] 构建空间智能世界模型的框架 - 世界模型是一种新型生成式模型,需在语义、物理、几何与动态等多重复杂世界中进行理解、推理、生成与交互 [17] - 核心能力一:生成性——能生成在感知、几何与物理层面保持一致的世界,对世界的理解必须与过去状态保持连贯 [18] - 核心能力二:多模态性——能处理多种形式的输入(如图像、视频、文本指令、手势等),并预测或生成完整的世界状态 [19] - 核心能力三:交互性——能根据输入的动作生成下一个世界状态,输出需与物理规律及动态行为相一致 [20] - 构建世界模型面临三大挑战:定义通用训练任务函数、获取和处理大规模多模态训练数据、开发新型模型架构与表征学习算法 [23][24][25] 空间智能的应用前景 - 在创造力领域,空间智能将改变故事创造与体验方式,例如World Labs的Marble平台使创作者能快速创建并迭代可自由探索的三维世界 [32][33] - 在机器人领域,世界模型将扩展机器人的学习能力,通过仿真训练帮助机器人理解、导航并与物理世界互动,成为人类的伙伴与协作者 [34][35][36] - 在科学、医疗与教育等长远领域,空间智能能模拟实验、加速药物发现、实现沉浸式学习,从而增强人类的专业能力与加速发现 [38][39][40] - 空间智能的应用涵盖不同时间维度,从面向创作者的工具到中期的机器人学雄心,再到长期的变革性科学应用 [30]
FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
36氪· 2025-09-30 18:36
文章核心观点 - FSDrive提出“时空视觉CoT”方法,让多模态大语言模型直接以图像进行思考,使用统一的未来图像帧作为中间推理步骤,以解决现有方法因依赖文本或符号中介而导致的时空关系模糊和细粒度信息丢失问题 [1][4] - 该方法在不改动原有模型架构的前提下,通过词表扩展和自回归视觉生成激活图像生成能力,并以渐进式视觉CoT注入物理先验,使模型兼具世界模型和逆动力学模型的双重角色 [1][5][8] - 该方法在自动驾驶的轨迹规划、未来帧生成和场景理解任务上展现出强大竞争力,以较低的数据和算力成本实现了高性能,推动了自动驾驶从符号推理向视觉推理的范式转变 [9][11][14][17] 技术创新与方法 - 核心创新在于用统一的“视觉中介”替代文字或表格中介,直接在视觉域内完成因果推断与决策规划,消除了跨模态语义鸿沟 [4][5] - 通过极低成本在现成MLLM上激活图像生成能力:仅扩展词表引入视觉token,无需大规模架构修改或海量训练,所需数据量约为其他统一方法的0.3% [5][8] - 采用渐进式视觉CoT策略:先生成带有物理约束的粗粒度感知图(车道线/3D框),再生成细节丰富的未来帧,显式注入物理合理性 [5][8] - 模型框架整合了理解与生成任务,输入为环视图像与任务指令,输出为含感知结果叠加的统一未来帧(时空视觉CoT)以及最终轨迹 [8] 性能表现与实验结果 - 在端到端轨迹规划任务中,FSDrive(基于Qwen2-VL-2B)相比Doe-1取得了更低的平均L2距离(0.53 vs 0.70)和更低的碰撞率(0.19 vs 0.21) [9] - 在未来帧生成质量上,FSDrive在128×192分辨率下的FID指标为10.1,优于多数扩散式世界模型(如GEM的10.5)并显著优于Doe-1(15.9) [10][11] - 在场景理解任务(DriveLM GVQA)中,FSDrive的Final Score达到0.57,超过OmniDrive(0.56)、Cube-LLM(0.50)等方法,多选准确率达0.72 [13][14] - 定性分析显示,该方法具备通过视觉推理纠正错误导航指令的能力,体现了其逆动力学能力和决策的可解释性 [16]
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
机器之心· 2025-09-30 16:45
核心观点 - FSDrive提出“时空视觉链式思考”方法,以统一的未来图像帧作为中间推理步骤,替代传统的文字或符号中介,旨在解决自动驾驶多模态大模型在推理过程中的时空关系模糊与信息丢失问题 [2][7] - 该方法的核心创新在于让模型直接“以图思考”,联合预测未来场景与感知结果,在视觉域内完成因果推断与决策规划,推动自动驾驶从“符号推理”走向“视觉推理” [7][28] 技术创新 - 提出统一的“视觉中介”替代文字或符号中介,通过生成包含红色车道线和3D检测框的未来图像帧作为时空CoT,消除跨模态语义鸿沟 [7][8] - 以极小代价在现成多模态大语言模型上激活图像生成能力:仅通过扩展词表引入视觉token,无需改动模型架构或进行海量训练 [8][19] - 采用渐进式视觉CoT训练策略,先生成受物理约束的粗粒度感知图,再生成细节丰富的未来帧,显式注入物理合理性以提升预测真实性与一致性 [8][14][19] 方法框架 - 框架采用统一预训练范式,兼具理解与生成能力,输入为环视图像与任务指令,输出为统一未来帧和最终轨迹 [12][13] - 模型扮演双重角色:首先生成未来统一帧作为“世界模型”,然后作为“逆动力学模型”进行轨迹规划 [13][27] - 训练分为两个阶段:第一阶段进行统一预训练,混合训练视觉问答、未来帧生成及渐进式感知生成;第二阶段进行有监督微调,联合优化场景理解与轨迹规划 [19] 性能表现 - 在端到端轨迹规划任务中,基于Qwen2-VL-2B模型的FSDrive在ST-P3指标上平均L2误差为0.53米,碰撞率为0.19%;在UniAD指标上平均L2误差为0.96米,碰撞率为0.40%,优于对比方法 [17][29] - 在未来帧生成质量上,FSDrive在128×192分辨率下FID得分达到10.1,优于多数扩散式世界模型,兼顾了实时性与生成质量 [21][22] - 在场景理解任务中,FSDrive的Final Score达到0.57,多项语言生成指标与多选准确率表现稳健,验证了其“理解+生成”统一预训练的有效性 [23][25]
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 12:05
多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1(PR1),首次在COCO2017 val set上突破30AP,超越YOLOv3(27.9AP)和Faster-RCNN(35.6AP)等传统模型 [1][19] - 该框架专注于纯视觉任务(目标检测、计数)和视觉语言任务(OCR、grounding),通过基于规则的强化学习(RL)优化感知策略,显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization(GRPO)技术,通过多轮尝试、奖励建模和策略更新机制优化模型输出,例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架,可增强现有MLLM(如Qwen2-VLInstruct-2B)的视觉能力,无需从头训练 [7] - 奖励函数设计包含三部分:视觉细节提取(如OCR任务使用编辑距离)、逻辑操作执行(如点检测计数)、输出格式验证(正确格式+1分,错误-1分) [11][13][17] - 针对多物体检测的匹配难题,采用二分图匹配和匈牙利算法计算最优奖励,确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分(测试集75.6分),远超LLaVA-1.5(33.3分)和Qwen2-VL(60.2分) [19] - OCR任务(PageOCR)编辑距离仅3.5(英文)和9.0(中文),F1-score达98.2(英文)和94.4(中文),优于Nougat(25.5)和DocOw(25.8) [18] - 在MMBench等综合评测中,Perception-R1以71.8平均分展现全面优势,尤其在MMVet(48.9分)和AI2D(58.2分)等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关,为大规模扩展提供验证基础,例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设,为下一代智能感知系统奠定技术路径,例如通过显式思维链(thinking)优化策略 [24][25] - 论文与代码已开源,旨在推动社区建立更强基线,加速多模态感知技术迭代 [2][26]
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
机器之心· 2025-04-28 09:26
研究团队与背景 - 团队由IEEE会士Claudio Silva和纽约大学研究助理教授钱靖共同指导 [2] - 论文由Chenyi Li和Guande Wu担任共同第一作者 [2] - 研究由纽约大学数据与可视化实验室(NYU VIDA)联合Adobe共同完成 [5] AR技术现状与挑战 - 当前AR辅助仍依赖人工远程接入,与理想的智能理解型辅助存在差距 [4] - AR在重要产业和生活应用中的普及受限于技术成熟度 [4] - 主要挑战在于如何让AR真正理解用户行为、环境状态并适时提供辅助 [4] Satori系统创新 核心技术架构 - 融合多模态大语言模型(MLLM)与认知理论BDI(Belief-desire-intention theory) [5] - 采用模块化组织MLLM,将图像识别、语义理解、交互历史解耦处理 [11] - 视觉感知模块(OWL-ViT与DETR)与语言推理模块分层协作 [11] 四大核心创新 1. 结合BDI模型理解用户行为 - 通过AR眼镜实现"具身感知" [8] - BDI模型分解行为为Belief(环境理解)、Desire(目标判断)、Intention(动作行为)三部分 [8] - AI可实时判断用户行为背后的目的而非单纯行为本身 [10] 2. 大语言模型结构认知 - 模块化架构增强推理透明度与可解释性 [12] - 显著提升系统泛化性与跨任务适配能力 [12] - 展示多模态大模型在具身智能中的潜力 [12] 3. AI自动生成多模态指示 - 使用DALLE-3生成与任务阶段匹配的视觉提示 [13] - 自动生成场景化文字指引(如"把花插入蓝色花瓶") [13] - 提升AR辅助的清晰度与实用性 [13] 4. 双系统动作检测 - 将复杂步骤分解为易判断的小目标(checkpoints) [15] - 采用双系统理论(Dual Process Theory)实现快速反应+理性结构 [17] - 轻量LLM负责快速判断,高容量LLM补充语义分析 [17] 应用前景 - 框架可部署于HoloLens、Vision Pro及Rokid、INMO等智能眼镜平台 [18] - 为跨平台、多领域智能辅助系统奠定方法论基础 [18] - 代表AR技术迈向实用性的重要机遇 [19]
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 11:54
多模态大语言模型(MLLM)时空智能评测 - 核心观点:当前最先进的多模态大语言模型在精确空间时间理解任务上表现不佳,距离实际应用需求仍有显著差距 [1][12][20] - 研究团队推出首个MLLM时空智能评测基准STI-Bench,聚焦真实世界视频输入和定量化空间-时间理解能力评估 [4][6] STI-Bench评测框架 - 数据来源:300+真实世界视频,覆盖毫米级(桌面)、厘米级(室内)、分米级(户外)三类场景 [6] - 评测任务:8项任务分静态空间理解(尺度度量/空间关系/3D定位)和动态时序理解(位移路径/速度加速度/轨迹描述等) [6] - 问答数据集:2000+对高质量QA,基于GPT-4o生成并经过人工校准 [8] 模型表现分析 - 整体表现:最佳模型Qwen2 5-VL-72B和Gemini-2 5-Pro准确率仅41 3%和40 9%,远低于实际应用可靠性阈值 [11][12] - 场景差异:户外场景表现最佳(Qwen2 5-VL达49 24%),室内和桌面环境普遍低于40% [14][17] - 开源突破:Qwen2 5-VL-72B超越所有专有模型,成为开源社区亮点 [13] 核心能力缺陷 - 定量空间缺陷:单目视频中物体尺寸/距离估计不准,3D信息推断困难(尺度度量最高仅34 2%) [15][17] - 动态理解短板:跨帧运动特征计算能力弱(位移路径长度最佳不足33%,速度加速度最高36 9%) [16][17] - 多模态整合不足:文本指令与视觉内容协同处理能力薄弱 [18] 行业影响与资源 - 研究价值:为具身智能和自动驾驶领域提供MLLM能力评估标准,指明改进方向 [19][21] - 开源资源:论文/代码/数据已公开,涵盖arXiv论文、GitHub代码库和HuggingFace数据集 [22]