多模态大语言模型(MLLMs)
搜索文档
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷
机器之心· 2026-01-24 09:53
FutureOmni基准发布与评测范式革命 - 复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准FutureOmni,旨在评估模型从音频-视觉线索中预测未来事件的能力,实现跨模态因果和时间推理[2] - 该基准标志着评测范式从“回顾性理解”(视频中发生了什么)转向“前瞻性预测”(接下来会发生什么),要求模型融合视觉观察与听觉线索来预测未来[3][7] - 过去的多模态大语言模型(MLLMs)主要擅长事后分析,而FutureOmni旨在推动模型成为能“未卜先知”的智能伙伴,理解音频中的语义、环境声音及视觉观察之间的因果关系[8][9] FutureOmni数据集核心特征 - 数据集包含919个视频和1,034个多选题问答对,覆盖教育、紧急情况、监控、日常生活、纪录片、电影、游戏、卡通等八大领域[12][18] - 数据确保100%原创视频率,避免污染,并包含语音、声音、音乐三种音频类型[18] - 数据构建采用三阶段流程:视频收集与筛选、因果对构建(使用LLM辅助识别因果关系)、问题生成与人工及大模型审核,以确保高质量[19] 当前模型性能评估结果 - 在13个全模态模型和7个纯视频模型上的评估显示,当前系统在预测未来事件方面存在显著困难,最佳准确率仅为64.8%(由Gemini 3 Flash取得)[2][20] - 开源最强模型Qwen3-Omni(30B)准确率为53.05%,视觉大模型GPT-4o准确率为49.70%,表明现有模型距离人类水平仍有不小差距[21] - 细粒度分析显示,语音场景最具挑战性,最佳模型Gemini 3 Flash在该场景准确率仅60.52%;音乐场景相对容易,同一模型达到68.31%;声音场景为中等难度,准确率67.13%[24] 关键研究发现与模态重要性 - 模态消融研究表明,音频+视频的组合显著优于单独使用视频,缺失音频会导致性能大幅下降,例如Qwen3-Omni模型在缺少音频时性能下降1.55至2.71个百分点[27][28] - 跨模态融合能力是成功预测未来的关键,证明了FutureOmni设计(要求同时理解音频和视觉信息之间的因果关系)的合理性[28][33] OFF训练策略及其效果 - 研究团队提出全模态未来预测(OFF)策略,并策划了一个7K样本的指令微调数据集,核心思想是通过专门的未来预测训练,让模型学习音频-视觉间的因果关系以预测未来事件[29][30][31] - 使用OFF策略训练后,模型在FutureOmni基准上的未来预测能力得到提升,例如video-SALMONN 2模型平均准确率从46.03%提升至49.90%(+3.87个百分点)[34][35] - OFF策略不仅提升了未来预测能力,还增强了模型的通用感知能力,在Audio-Visual Bench(如WorldSense、DailyOmni)和Video-only Bench(如Video-MME)等多个流行基准上均观察到性能提升[36][37] 未来展望与行业影响 - 该研究期待更多模型参与FutureOmni评估,共同推动多模态场景下未来预测能力的发展[43] - 基于研究发现,行业需要开发更强大的未来预测方法,特别是针对语音场景和跨模态因果推理的改进[43] - 未来预测能力有广阔的应用拓展前景,可应用于智能助手、自动驾驶、机器人等实际场景,让AI真正具备“未卜先知”的能力[43]
从平面几何出发:形式化验证如何驱动MLLM的推理能力跃迁
机器之心· 2026-01-20 18:19
文章核心观点 - 多模态大语言模型在复杂数学与几何推理中存在幻觉与逻辑断层问题,现有“结果导向”训练方式难以培养真正鲁棒的推理能力 [2] - 研究团队提出“以形式化增强非形式化推理”的系统化解决方案,利用严谨、可验证的形式化逻辑作为监督信号,规范和引导模型在非形式化场景下的推理行为,并发现此方法能提升模型在分布外任务上的泛化能力 [2] 研究方案与框架 - 团队构建了从数据底层到模型顶层的完整闭环,历经三个阶段探索 [3] - **TrustGeoGen**:构建了首个形式化验证的几何数据合成引擎,通过集成多模态对齐、全路径形式化验证及GeoExplore探索算法,生成了逻辑链条经过严格数学验算的GeoTrust数据集 [4] - **GeoBench**:提出了基于分层能力评估的基准测试,将几何推理拆解为视觉感知、目标规划、定理应用、自我反思四个层级,并引入“无关条件过滤”与“逻辑纠错”等高阶任务,以精准定位模型推理短板 [4] - **SGVR**:提出了Sub-Goal Verifiable Reward训练框架,将抽象证明转化为可执行的数值子目标,并利用Skeleton Rate提供密集奖励信号,以纠正“结果监督”的不足 [4] TrustGeoGen数据引擎详解 - 引擎通过constructor, reasoner, sampler和translator四个模块构造问题、扩充推理图谱、回溯推理路径和转译自然表达 [8] - 使用形式化推理引擎DDAR保证每一个结论都由预定义的定理规则得到,确保推理链路的连贯性和可解释性 [8] - 引入connection thinking来构造思考过程性数据,在每一步推理前显式分析当前结论与下一步目标,将推理步骤以深度思考方式连接 [9] - 在sampler阶段采用不同采样方式,获得具有不同思维模板(如多解和回溯)的推理数据,以丰富模型的推理“技能库” [11] - 该引擎不仅生成大量可验证的几何推理数据,更关注自然语言与形式化推理的差异,从模型训练角度生成连贯可信的数据 [13] GeoBench诊断基准与发现 - GeoBench基于TrustGeoGen引擎生成的1021个形式化验证样本,设计了六大核心任务进行全方位评估 [17] - 基准将几何推理能力拆解为四个维度:视觉感知、目标导向规划、严谨定理应用、自我反思回溯 [16] - 实验揭示了现有模型的短板:即使如OpenAI-o3这样的顶尖模型,随着任务复杂度提升,性能也呈现显著下降趋势 [22] - 关键瓶颈在于子目标分解和无关条件过滤,表明模型缺乏“排除干扰、规划路径”的大局观,而非单纯计算能力 [22] - 思维链提示在涉及“错误定位”的高阶反思任务中可能产生负面干扰,导致模型在错误路径上越走越远 [22] - 模型在GeoBench的6个任务上的表现与最终答案正确率的Spearman相关系数显示,传统基准(如GeoQA、Geometry3K)可能掩盖了推理过程的问题 [18] SGVR训练框架与效果 - SGVR框架主张“里程碑重于结果”,利用TrustGeoGen将证明拆解为可自动验证的数值子目标,并引入Skeleton Rate作为核心指标,计算推理链条中正确“路标”的比例 [20] - 配合GRPO算法,密集的中间奖励迫使模型“步步为营”,只有每一步逻辑经得起验证才能获得高分 [20] - 该训练方法在几何推理任务上实现了9.7%的显著性能提升 [24] - 展现出强大的跨域泛化能力:在完全未接触过的通用数学任务和通用逻辑推理任务中,模型在零样本条件下分别获得了8.0%和2.8%的性能跃升 [24] - 消融实验通过调节Mask Ratio探索验证密度的影响,发现验证并非越密越好,存在一个“黄金比例”;适中的验证颗粒度能使模型获得足够纠错信号,同时保留自主推理空间,过度干预可能导致模型过拟合于特定验证路径 [28] 研究意义与未来方向 - 该研究构建了从可信数据合成、分级能力诊断到过程监督训练的完整逻辑闭环,核心是利用形式化验证的严谨性约束与增强非形式化推理过程 [30] - 研究表明,在高度严谨的几何环境中习得的“验证思维”能转化为通用的逻辑素养,实现跨领域泛化 [24][30] - 平面几何不仅是评估模型能力的试金石,更是训练AI具备高阶逻辑思维的最佳演练场 [30] - 未来计划将“形式化增强”范式拓展至通用数学、代码生成、物理模拟等更广泛领域,旨在构建更可信、更鲁棒且具备强大泛化能力的通用推理大模型 [30]
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知
机器之心· 2026-01-08 10:06
核心观点 - 研究团队发布了UniPercept,这是首个统一了美学、质量、结构与纹理三个维度的感知级图像理解框架,旨在解决多模态大语言模型在理解“图像看起来怎么样”这一感知层面的不足 [3] - 该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型 [5] - UniPercept在视觉评分和视觉问答任务上全面超越了包括GPT-4o在内的18个现有顶尖模型,并在下游应用中展示了作为生成模型奖励模型和评估指标的潜力 [28][33] 技术框架与基准 - **统一的感知评价体系**:UniPercept-Bench的定义体系分为3个领域、17个类别和44个细分准则,精细程度远超此前图像评估基准 [10] - **图像美学评估**:侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力,关注图像是否“好看” [11] - **图像质量评估**:侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影,回答图像是否“技术性达标” [11] - **图像结构与纹理评估**:首次系统化提出的维度,强调局部特征、几何规律性、材质属性和细节丰富度,回答图像的“场景、结构、纹理和构成与复杂程度” [11] - **任务与数据流水线**:基准支持视觉评分和视觉问答两种任务形式,并通过三阶段自动化流水线(初始生成、拒绝采样、人工精修)确保数据质量,其中拒绝采样阶段剔除了约40%的不合格样本 [17][24] 模型训练方法 - **两阶段训练框架**:采用领域自适应预训练和任务对齐强化学习对基础多模态模型进行持续演进 [21] - **领域自适应预训练**:整合了约80万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分,使模型习得跨领域的底层视觉特征 [22] - **任务对齐强化学习**:采用GRPO算法进行策略优化,并针对感知任务设计特定奖励函数 [23] - **视觉问答任务**:采用二元奖励,鼓励模型输出准确的离散答案 [23] - **视觉评分任务**:创新性地设计了自适应高斯软奖励,根据预测值与参考分数的偏差动态调整平滑系数,并引入评分Token策略以缓解模型生成数字时的幻觉倾向 [25] 性能表现 - **视觉评分表现**:在UniPercept-Bench上,UniPercept在美学、质量、结构三个领域均取得了最高的斯皮尔曼相关系数和皮尔逊相关系数,全面超越评估的18个模型 [29] - 例如,在美学评估的多个数据集上,UniPercept的平均SRCC/PLCC达到0.590/0.586,显著高于GPT-4o的0.431/0.410 [30] - 在结构与纹理评估的ISTA-10K数据集上,UniPercept的SRCC/PLCC为0.778/0.767,而GPT-4o仅为-0.003/0.116,填补了现有模型对细节纹理判断的空白 [30] - **视觉问答表现**:UniPercept在处理精细感知问题上展现出显著优势 [31] - 在图像美学评估领域,准确率超越GPT-4o约16个百分点 [31] - 在图像质量评估领域,展现出极强的对细微损伤的定位与判断能力 [31] - 在图像结构与纹理评估领域,准确率突破80%,能够准确分辨不同材质的表面特性 [31] - 总体准确率达到81.07%,显著高于GPT-4o的66.36% [32] 下游应用 - **作为生成模型的奖励模型**:整合进文生图模型的微调流水线,从美学、质量、结构纹理三个方面对生成模型进行优化,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优 [34][37] - **美学引导**:显著改善生成图像的构图平衡和光影和谐度 [36] - **质量引导**:增强图像细节的锐度和清晰度,减少常见的伪影干扰 [36] - **结构纹理引导**:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理 [37] - **作为生成模型的评估指标**:可以从美学、质量、纹理与结构三方面对图像进行全方位评估,准确反映不同模型输出图像的表现 [38] - **生成图像“感知档案”**:不仅能给出评分,还能从美学、质量、纹理与结构三个方面针对具体维度给出详细的文字解析与结构化输出 [41]
最鲁棒的MLLM,港科大开源「退化感知推理新范式」
36氪· 2025-12-24 15:47
文章核心观点 - 多模态大语言模型在真实世界视觉退化下的性能崩溃是产业落地的致命瓶颈[1] - 由香港科技大学、西北工业大学等团队提出的Robust-R1实现了从“抵抗干扰”到“理解干扰”的范式转变[2] - 该方法将视觉退化问题重构为显式结构化推理任务,在多项权威评测中实现了质量与鲁棒性的双重突破[1] 技术方案与创新 - **核心思想**:为视觉大模型构建一套“退化感知推理系统”,执行三步诊断流程:退化参数感知、语义影响分析、鲁棒结论生成[3][5] - **范式创新**:首次跳出“隐式适应”的思维定式,将退化感知提升为显式的结构化推理能力[2][24] - **技术内核**:通过三阶段构建“退化感知推理引擎”,包括结构化推理链监督微调、退化参数精准对齐奖励、动态推理深度自适应调控[9][10][11] - **可解释性**:模型的每一个判断都伴随完整的推理链条,决策依据透明、可追溯、可验证[3][19] 数据与训练 - **数据引擎**:研究团队构建了业界首个大规模退化感知推理数据集,覆盖真实世界四大退化阶段和16种精细化退化类型[13][16] - **训练流程**:数据集包含11K样本,每个样本不仅包含退化参数,更包含完整的“诊断→分析→推理→结论”链条[13][16] 性能表现 - **真实退化基准测试**:在R-Bench基准上,Robust-R1在低、中、高三种退化强度下全面超越所有基线模型[14] - **综合性能领先**:Robust-R1 (SFT+RL) 在R-Bench上的综合性能得分为0.5017,高于通用MLLM Qwen2.5-VL-3B的0.4845和专用鲁棒模型TeCoA的0.3586[15] - **对抗退化压力测试**:在MMMB、MMStar、RealWorldQA三大通用VQA基准上,对图像施加25%、50%、100%强度的合成退化[15] - **抗衰减能力强**:随着退化强度从25%增加到100%,Robust-R1的性能下降幅度显著小于所有基线模型[18] - **极端场景可用**:在100%强度的极端退化下,Robust-R1在MMMB基准上的性能为75.35,大幅领先专用鲁棒模型TeCoA的51.76和Robust CLIP的53.33[15][17][18] - **全面领先**:Robust-R1 (SFT+RL) 在三大基准的所有退化强度下,均取得了最佳或接近最佳的性能[17] 行业影响与意义 - **开启新篇章**:标志着多模态大模型从追求“在清晰世界中表现完美”向追求“在复杂现实中可靠决策”的重大转变[23] - **可信AI**:提供完整的可解释推理链,极大增强了模型在关键应用中的透明度和可信度[24] - **高效实用**:动态推理机制平衡了性能与效率,更具实用价值[24] - **应用领域**:解决了自动驾驶、医疗影像、安防监控等关键领域落地的瓶颈问题[2]
复杂空间推理新SOTA,性能提升55%,中山大学新作SpatialDreamer
36氪· 2025-12-22 18:12
核心观点 - 中山大学等机构推出的SpatialDreamer框架通过模拟人类主动心理想象和空间推理过程显著提升了多模态大语言模型在复杂空间任务中的性能为人工智能空间智能发展开辟了新路径 [1] 技术框架与原理 - SpatialDreamer构建了一个基于强化学习的闭环推理流程包含探索、想象、推理三个步骤使模型从被动观察转向主动目标导向的想象 [4] - 为解决长序列推理奖励稀疏问题研究团队提出了GeoPO策略优化方法结合树状采样结构、多级奖励设计和几何惩罚机制以提升性能并加快训练收敛 [4] - 为引导模型学习特定推理模式构建了SpatialDreamer-SFT数据集包含单轮推理数据以及通过错误注入和自我纠正构建的反思式推理数据 [6] 性能表现 - 在SAT基准的真实与合成图像测试中平均准确率分别达到93.9%与92.5%实现了最先进的性能 [7] - 在MindCube-Tiny基准上整体准确率达到84.9%较基线模型Qwen2.5-VL-7B提升超过55% [7] - 在VSI-Bench的物体计数、相对方向、路径规划等任务中全面领先平均准确率达到62.2% [7] 行业意义与发展方向 - 该研究证明了多模态大语言模型可以通过“想象力”增强推理能力是向人类般空间智能迈出的重要一步 [7] - 该框架解决了现有模型在需要视角变换等复杂空间推理任务中的局限例如因视角单一而无法判断遮挡物体位置的问题 [1]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 17:20
文章核心观点 - DrivePI是一种新型的空间感知4D多模态大语言模型,它作为一个统一的视觉-语言-行为框架,旨在通过端到端优化,同时执行空间理解、3D感知、预测和规划任务,从而弥合当前自动驾驶系统中基于视觉的方法与基于VLA的方法之间的差距 [4][6][7] 研究背景与挑战 - 当前自动驾驶系统主要有两种范式:基于视觉的方法(如UniAD、VAD)在空间感知方面表现出色但缺乏自然语言交互能力;基于VLA的方法(如OpenDriveVLA、ORION)具有更好的交互能力但缺乏精细的中间3D感知和预测输出,影响可靠性和安全性 [7][8] - 核心挑战在于开发一个统一框架,结合基于视觉模型的精确空间感知能力和VLA方法的自然语言交互能力 [7] 技术架构与创新点 - **多模态感知**:引入激光雷达作为相机图像的补充传感模态,提供精确的3D几何信息,以激发MLLM的空间理解能力 [11] - **精细化空间表示**:生成中间的精细3D感知(如3D占用体素)和预测(如占用流)表示,确保输出特征保持可靠的空间感知能力,增强系统的可解释性和安全保障 [11] - **丰富的数据引擎**:开发了将3D占用和占用流表示无缝集成到自然语言场景描述中的数据引擎,使模型能够通过文本理解复杂的时空动态 [11] - **统一模型设计**:采用端到端联合优化,覆盖3D感知、预测、规划和场景理解等所有任务,用一个MLLM统一了现有的VLA和VA框架 [11] - 架构关键组件包括:多模态视觉编码器(UniLION)、空间投影器、MLLM主干(基于Qwen2.5-0.5B模型构建)、以及四个专用头部(文本头、3D占用头、占用流头、行为扩散头) [11][17] 数据引擎 - 数据引擎分为三个阶段:场景理解注释(使用InternVL3-78B生成前/后视图描述)、4D空间理解注释(利用地面真实占用和流数据生成问答对)、规划推理注释(基于自车未来轨迹生成规划问答对) [18] 实验结果与分析 - **文本理解能力**:在nuScenes-QA基准测试中达到60.7%的平均准确率,超过OpenDriveVLA-7B模型2.5个百分点;在存在、对象和状态子类别上分别达到85.3%、57.5%和59.1%的准确率 [19][20] - **3D占用体素感知性能**:在Occ3D基准测试上达到46.0%的RayIoU,比之前最先进的OPUS方法提高4.8个百分点;在1m、2m和4m距离上分别达到42.2%、46.7%和49.2%的RayIoU [21][22] - **3D占用和占用流预测性能**:在OpenOcc基准测试上实现49.3%的OccScore和49.3%的RayIoU,将占用流mAVE降至0.509;超越FB-OCC的3D占用RayIoU达10.3个百分点,并将流mAVE从0.591降至0.509;比ALOcc-Flow-3D在OccScore上高出6.3%,在RayIoU上高出7.4% [15] - **轨迹规划性能**:在nuScenes基准测试中,使用自车状态信息时实现0.40m的L2误差和0.11%的碰撞率,碰撞率比ORION降低70%(从0.37%降至0.11%);不使用自车状态信息时,L2误差比VAD低32%(从0.72m降至0.49m) [16] 消融研究与分析 - **文本头部与视觉头部的消融研究**:当文本头和视觉头结合时,与仅视觉设置相比,统一模型的3D占用RayIoU提高1.8%,占用流mAVE降低0.18,规划L2误差降低0.52m,同时保持60.7%的文本理解准确率,证明了统一框架的有效性 [23][24] - **文本数据规模的影响**:使用Qwen-2.5 3B模型并扩大训练数据规模后,模型在占用状态预测的准确率从73%提升到87%,占用类别预测的准确率从14.3%显著提升到59.2% [26] - **多任务学习平衡权重研究**:实验表明,较高的3D占用和流损失权重(1.0)在该任务上性能更好,但在规划准确性和文本理解任务上略有降低,最终实现采用了默认权重1.0 [27][28] - **MLLM隐藏状态重要性权重分析**:分析显示,更深层的Transformer层获得更大的可学习权重,表明高级特征对模型有效性更为关键 [29][30] 可视化结果与能力展示 - DrivePI能够同时生成场景描述、3D占用、占用流、动作和轨迹预测的可视化结果,在粗粒度和细粒度预测之间表现出很强的一致性,验证了其统一语言理解与3D感知能力的有效性 [31] - 在静止等待、直行驾驶和夜间转弯等多种复杂驾驶场景中,DrivePI展示了卓越的性能和适应能力,例如在低光照条件下仍能准确描述环境并生成合理轨迹 [36][39] 主要贡献与未来展望 - 提出了首个统一的空间感知4D MLLM框架DrivePI,无缝集成粗粒度语言空间理解与精细3D感知能力 [39] - 将激光雷达作为补充传感模态,并支持精确的3D感知和预测,增强了系统的可解释性和安全保障 [39] - 尽管仅使用0.5B参数的紧凑MLLM主干网络,其在3D占用和占用流预测方面优于现有基于视觉的模型,同时保持了与现有VLA框架相当的交互能力 [39] - 该框架有望通过语言推理和精细的3D输出,启发未来研究,增强自动驾驶系统的可解释性和可解释决策能力 [38]
超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
36氪· 2025-10-28 15:26
技术概述与核心创新 - 提出名为Grasp Any Region (GAR)的新型区域多模态大模型(MLLM),旨在实现对自然图像中用户指定区域的细粒度、可交互式理解[2] - 模型核心设计原则是既要实现对提示区域的细粒度理解,同时保留并利用整个场景的全局上下文,解决了传统Region MLLMs在局部细节与全局信息之间的两难困境[25][28] - 引入两个全新组件:简洁高效的提示编码机制,以及创新性的区域对齐特征回放技术,通过视觉编码器生成全局特征图,并利用RoI-Align技术提取高保真度局部特征[25][27] 模型核心能力 - 具备精准描述用户指定区域的能力,能够基于色彩、纹理、形状、材质等基础属性进行客观评测,例如正确识别青蛙样式的拖鞋而非误判为青蛙[5][8][9] - 能够建模多个区域之间的关系并进行复杂的组合推理,例如判断多个提示是否在镜子当中,或综合理解物体间的复杂关联[5][18] - 可对极小物体进行精准识别,并利用极小的图像细节正确建模物体之间的关系,在示例中能准确判断人物是拿着书而非在看书,凸显细节理解能力之强[11][14][16] - 模型能力可零样本迁移至视频描述任务,能够精准识别视频中的物体、人物与动作,进行语义层次的深度分析,甚至识别运动信息[21][23][24] 技术实现与数据构建 - 采用多阶段流程生成大规模、高质量训练数据集:首先利用种子数据集和ImageNet-21K构建45.6万条细粒度描述数据,再结合Panoptic Scene Graph数据集生成关联感知型数据[30][31][32] - 最终训练数据包含三部分:细粒度描述数据、关联感知型描述及问答对、以及选择题,本阶段最终构建出含414K样本的关联数据集[30][35] - 在模型架构中,用户指定的二值掩码经卷积块处理后生成mask embedding,与ViT的patch embedding相加完成空间信息与视觉特征的融合[27] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o的53.5分,直逼o3的61.3分和Gemini-2.5-Pro的64.2分[38][39] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,超过Gemini-2.5-Pro的59.3分[41] - GAR-1B模型尽管参数量远小于其他模型,但其综合得分为50.6分,性能超过了InternVL3-78B等大规模公开模型,在纹理维度得分达到69.0分[39] - 在Ferret-Bench与MDVP-Bench上的零样本表现优异,GAR-8B在MDVP-Bench的自然图像任务中取得178.6分,大幅超过所有竞品模型[43][44] - 在VideoRefer-Bench测试中,zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型,取得72.0分的总体成绩[46][47] 应用前景与行业价值 - 可作为多模态理解模型的预训练数据生成工具,为训练提供精细的图像/视频描述[47] - 能辅助文生图或文生视频模型理解复杂的用户指令,提升模型对于复杂文本的指令遵循能力[47] - 可作为细粒度编辑模型的数据来源,提供针对待编辑区域的精准描述[47] - 可天然作为奖励模型,为多模态理解任务的后训练阶段提供准确的区域理解奖励信号[47] - 团队已将论文、代码和模型全部开源,并支持基于gradio的本地部署,降低了行业应用门槛[47][48][49]
大模型在具身推理上「翻车」了?4496 道题全面揭示短板
机器之心· 2025-10-28 08:41
文章核心观点 - 行业提出BEAR基准以系统评估多模态大语言模型在具身智能领域的各项子能力 涵盖6大类14个细粒度技能 [4][8][9] - 行业测评发现当前多模态大模型在具身智能任务上整体表现不佳 最优模型GPT-5成功率仅为52% [11] - 行业基于错因分析开发了BEAR-Agent智能体 通过提供工具和辅助线显著提升模型在基准测试和仿真环境中的表现 [17][21] BEAR基准概述 - BEAR基准包含4,469个图片-视频-文字的VQA问题 旨在系统评估MLLM的具身智能子能力 [8] - 基准涵盖5个基础类别和1个长程推理类别 包括给点、给检测框、空间推理、任务规划等 共细分为14个技能 [8][9] - 该基准首次将具身智能任务切分为以技能划分的步骤 便于进行细粒度的错因分析 [9] 测评实验结果 - 行业全面测量了20个不同的MLLM 发现闭源模型通常优于开源模型 但部分开源模型如InternVL系列展现出潜力 其表现超过了GPT-4o和Claude等模型 [11] - 实验表明Chain-of-thought提示策略在闭源模型的给点和空间推理等子能力上起到一致的负面作用 过度推理会引入干扰 [13] - 在GPT-4o的错因分析中发现 模型视觉全能能力不足是多个类别的主要瓶颈 3D能力不足和长程推理中底层感知与空间推理的错误占比高达88% [15][19] BEAR-Agent性能提升 - BEAR-Agent可显著提升模型性能 使GPT-5在BEAR基准上的平均成功率从52.17%提升至61.29% [20] - 对于开源模型InternVL3-14B BEAR-Agent将其平均成功率从33.93%提升至36.24% [20] - 在桌面操作环境的仿真测试中 BEAR-Agent将MOKA的表现提升了20.17% 显示出其对具身智能体的实际应用潜力 [21]
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
机器之心· 2025-10-17 12:09
研究背景与问题 - 多模态大语言模型在视觉理解和跨模态推理等任务上表现出强大能力,但其视觉编码器存在对抗脆弱性,容易受到对抗样本的攻击[2] - 在无法访问内部参数的黑盒场景下,尤其是针对GPT-4、Claude-3等闭源商业模型,现有对抗攻击方法的迁移效果显著下降[3][8] - 现有方法仅对齐全局特征而忽略图像补丁中的局部信息,导致特征对齐不充分和迁移能力受限[3][10] 方法创新:FOA-Attack框架 - 提出特征最优对齐攻击框架,核心思想是在全局和局部两个层面实现特征的最优对齐[3][6] - 全局层面通过余弦相似度损失对齐粗粒度的全局特征,避免宏观语义偏差[6][13] - 局部层面创新性地使用聚类技术提取关键局部特征模式,并将其建模为最优传输问题,实现细粒度精准对齐[6][14] - 设计动态集成权重策略,在攻击生成过程中自适应平衡多个替代模型的影响,避免优化偏向单一模型特征[6][11][15] 实验效果:开源模型 - 在Qwen2 5-VL-3B模型上攻击成功率达到52 4%,显著高于M-Attack的38 6%[18] - 在Qwen2 5-VL-7B模型上攻击成功率为70 7%,语义相似度达到0 58[18] - 在LLaVa-1 5-7B和LLaVa-1 6-7B模型上攻击成功率分别达到79 6%和78 9%[18] - 在Gemma-3-4B和Gemma-3-12B模型上攻击成功率为38 1%和35 3%,全面超越现有方法[18] 实验效果:闭源模型 - 对GPT-4o模型的攻击成功率高达75 1%,语义相似度为0 59[19] - 对Claude-3 5和Claude-3 7模型的攻击成功率分别为11 9%和15 8%[19] - 对Gemini-2 0模型的攻击成功率达到53 4%,语义相似度为0 50[19] - 在所有闭源商业模型上的表现均显著优于现有最佳方法M-Attack[19] 实验效果:推理增强模型 - 对GPT-o3推理增强模型的攻击成功率达到81%,语义相似度为0 63[21] - 对Claude-3 7-thinking模型的攻击成功率为16%[21] - 对Gemini-2 0-flash-thinking-exp模型的攻击成功率为57%[21] - 结果表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack能有效利用这一漏洞[21] 研究意义与影响 - 该方法揭示了当前多模态大语言模型在视觉编码阶段的脆弱面,为防御方向提供了新思路[24] - 论文与代码已公开,便于学术界和工业界进行复现和深入研究[4][25] - 研究团队来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校等知名机构[27]
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
36氪· 2025-10-14 16:54
行业技术发展新方向 - 多模态大语言模型在视觉与语言融合的感知与推理任务中展现出强大能力[1] - 研究焦点从离线静态场景理解转向在线动态场景理解,更贴近真实世界应用[3] - OST-Bench基准通过“移步换景”的动态在线视角,为模型能力提出新挑战[1][3] 新基准的核心特点与设计 - 基准设计包含在线设定和跨时空理解两大核心特点,模型需在增长观测中实时感知并结合历史信息推理[3] - 将动态场景理解划分为智能体空间状态、智能体可见信息、智能体-物体空间关系三大信息类别[7] - 基于三类信息设计了15个子任务,覆盖判断、估算、计数、时间定位四类题型[7] - 通过规则生成加人工筛选,构建了包含10k测试集数据和50k训练集数据的大规模基准[7] 主流模型性能评估 - 当前主流多模态大模型与人类水平存在显著性能差距,人类水平平均准确率达83.5%,而最佳模型GPT-4.1为53.4[9][10] - 在具体任务表现上,模型在智能体可见信息任务上相对较好,最佳达76.5,但在智能体-物体空间关系任务上表现最差,仅为37.7[10] - 开源模型中Intern VL-2.5-78B表现最佳,平均准确率达51.1,接近部分商用模型水平[9][10] 模型能力短板分析 - 模型准确率随探索步数增加持续下降,暴露出现有范式难以适应长时序在线设定的缺陷[12] - 专门的空间增强模型如Spatial-MLLM、VLM-3R等未带来预期提升,在部分任务上反而出现明显退步[12][13] - 模型存在“时空推理捷径”现象,倾向于就地猜测而非真正进行时空整合推理[14][15] 技术突破方向 - 复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型的两大关键限制因素[18] - 微调实验显示模型分数可提升超过10%,但复杂时空推理任务准确率仍难以突破50%[21] - 微调带来的提升更多是“题海战术式的熟练”而非“机制上的理解进步”,需要更强的模型设计或训练策略[21]