多模态大语言模型(MLLMs)
搜索文档
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知
机器之心· 2026-01-08 10:06
核心观点 - 研究团队发布了UniPercept,这是首个统一了美学、质量、结构与纹理三个维度的感知级图像理解框架,旨在解决多模态大语言模型在理解“图像看起来怎么样”这一感知层面的不足 [3] - 该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型 [5] - UniPercept在视觉评分和视觉问答任务上全面超越了包括GPT-4o在内的18个现有顶尖模型,并在下游应用中展示了作为生成模型奖励模型和评估指标的潜力 [28][33] 技术框架与基准 - **统一的感知评价体系**:UniPercept-Bench的定义体系分为3个领域、17个类别和44个细分准则,精细程度远超此前图像评估基准 [10] - **图像美学评估**:侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力,关注图像是否“好看” [11] - **图像质量评估**:侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影,回答图像是否“技术性达标” [11] - **图像结构与纹理评估**:首次系统化提出的维度,强调局部特征、几何规律性、材质属性和细节丰富度,回答图像的“场景、结构、纹理和构成与复杂程度” [11] - **任务与数据流水线**:基准支持视觉评分和视觉问答两种任务形式,并通过三阶段自动化流水线(初始生成、拒绝采样、人工精修)确保数据质量,其中拒绝采样阶段剔除了约40%的不合格样本 [17][24] 模型训练方法 - **两阶段训练框架**:采用领域自适应预训练和任务对齐强化学习对基础多模态模型进行持续演进 [21] - **领域自适应预训练**:整合了约80万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分,使模型习得跨领域的底层视觉特征 [22] - **任务对齐强化学习**:采用GRPO算法进行策略优化,并针对感知任务设计特定奖励函数 [23] - **视觉问答任务**:采用二元奖励,鼓励模型输出准确的离散答案 [23] - **视觉评分任务**:创新性地设计了自适应高斯软奖励,根据预测值与参考分数的偏差动态调整平滑系数,并引入评分Token策略以缓解模型生成数字时的幻觉倾向 [25] 性能表现 - **视觉评分表现**:在UniPercept-Bench上,UniPercept在美学、质量、结构三个领域均取得了最高的斯皮尔曼相关系数和皮尔逊相关系数,全面超越评估的18个模型 [29] - 例如,在美学评估的多个数据集上,UniPercept的平均SRCC/PLCC达到0.590/0.586,显著高于GPT-4o的0.431/0.410 [30] - 在结构与纹理评估的ISTA-10K数据集上,UniPercept的SRCC/PLCC为0.778/0.767,而GPT-4o仅为-0.003/0.116,填补了现有模型对细节纹理判断的空白 [30] - **视觉问答表现**:UniPercept在处理精细感知问题上展现出显著优势 [31] - 在图像美学评估领域,准确率超越GPT-4o约16个百分点 [31] - 在图像质量评估领域,展现出极强的对细微损伤的定位与判断能力 [31] - 在图像结构与纹理评估领域,准确率突破80%,能够准确分辨不同材质的表面特性 [31] - 总体准确率达到81.07%,显著高于GPT-4o的66.36% [32] 下游应用 - **作为生成模型的奖励模型**:整合进文生图模型的微调流水线,从美学、质量、结构纹理三个方面对生成模型进行优化,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优 [34][37] - **美学引导**:显著改善生成图像的构图平衡和光影和谐度 [36] - **质量引导**:增强图像细节的锐度和清晰度,减少常见的伪影干扰 [36] - **结构纹理引导**:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理 [37] - **作为生成模型的评估指标**:可以从美学、质量、纹理与结构三方面对图像进行全方位评估,准确反映不同模型输出图像的表现 [38] - **生成图像“感知档案”**:不仅能给出评分,还能从美学、质量、纹理与结构三个方面针对具体维度给出详细的文字解析与结构化输出 [41]
最鲁棒的MLLM,港科大开源「退化感知推理新范式」
36氪· 2025-12-24 15:47
文章核心观点 - 多模态大语言模型在真实世界视觉退化下的性能崩溃是产业落地的致命瓶颈[1] - 由香港科技大学、西北工业大学等团队提出的Robust-R1实现了从“抵抗干扰”到“理解干扰”的范式转变[2] - 该方法将视觉退化问题重构为显式结构化推理任务,在多项权威评测中实现了质量与鲁棒性的双重突破[1] 技术方案与创新 - **核心思想**:为视觉大模型构建一套“退化感知推理系统”,执行三步诊断流程:退化参数感知、语义影响分析、鲁棒结论生成[3][5] - **范式创新**:首次跳出“隐式适应”的思维定式,将退化感知提升为显式的结构化推理能力[2][24] - **技术内核**:通过三阶段构建“退化感知推理引擎”,包括结构化推理链监督微调、退化参数精准对齐奖励、动态推理深度自适应调控[9][10][11] - **可解释性**:模型的每一个判断都伴随完整的推理链条,决策依据透明、可追溯、可验证[3][19] 数据与训练 - **数据引擎**:研究团队构建了业界首个大规模退化感知推理数据集,覆盖真实世界四大退化阶段和16种精细化退化类型[13][16] - **训练流程**:数据集包含11K样本,每个样本不仅包含退化参数,更包含完整的“诊断→分析→推理→结论”链条[13][16] 性能表现 - **真实退化基准测试**:在R-Bench基准上,Robust-R1在低、中、高三种退化强度下全面超越所有基线模型[14] - **综合性能领先**:Robust-R1 (SFT+RL) 在R-Bench上的综合性能得分为0.5017,高于通用MLLM Qwen2.5-VL-3B的0.4845和专用鲁棒模型TeCoA的0.3586[15] - **对抗退化压力测试**:在MMMB、MMStar、RealWorldQA三大通用VQA基准上,对图像施加25%、50%、100%强度的合成退化[15] - **抗衰减能力强**:随着退化强度从25%增加到100%,Robust-R1的性能下降幅度显著小于所有基线模型[18] - **极端场景可用**:在100%强度的极端退化下,Robust-R1在MMMB基准上的性能为75.35,大幅领先专用鲁棒模型TeCoA的51.76和Robust CLIP的53.33[15][17][18] - **全面领先**:Robust-R1 (SFT+RL) 在三大基准的所有退化强度下,均取得了最佳或接近最佳的性能[17] 行业影响与意义 - **开启新篇章**:标志着多模态大模型从追求“在清晰世界中表现完美”向追求“在复杂现实中可靠决策”的重大转变[23] - **可信AI**:提供完整的可解释推理链,极大增强了模型在关键应用中的透明度和可信度[24] - **高效实用**:动态推理机制平衡了性能与效率,更具实用价值[24] - **应用领域**:解决了自动驾驶、医疗影像、安防监控等关键领域落地的瓶颈问题[2]
复杂空间推理新SOTA,性能提升55%,中山大学新作SpatialDreamer
36氪· 2025-12-22 18:12
核心观点 - 中山大学等机构推出的SpatialDreamer框架通过模拟人类主动心理想象和空间推理过程显著提升了多模态大语言模型在复杂空间任务中的性能为人工智能空间智能发展开辟了新路径 [1] 技术框架与原理 - SpatialDreamer构建了一个基于强化学习的闭环推理流程包含探索、想象、推理三个步骤使模型从被动观察转向主动目标导向的想象 [4] - 为解决长序列推理奖励稀疏问题研究团队提出了GeoPO策略优化方法结合树状采样结构、多级奖励设计和几何惩罚机制以提升性能并加快训练收敛 [4] - 为引导模型学习特定推理模式构建了SpatialDreamer-SFT数据集包含单轮推理数据以及通过错误注入和自我纠正构建的反思式推理数据 [6] 性能表现 - 在SAT基准的真实与合成图像测试中平均准确率分别达到93.9%与92.5%实现了最先进的性能 [7] - 在MindCube-Tiny基准上整体准确率达到84.9%较基线模型Qwen2.5-VL-7B提升超过55% [7] - 在VSI-Bench的物体计数、相对方向、路径规划等任务中全面领先平均准确率达到62.2% [7] 行业意义与发展方向 - 该研究证明了多模态大语言模型可以通过“想象力”增强推理能力是向人类般空间智能迈出的重要一步 [7] - 该框架解决了现有模型在需要视角变换等复杂空间推理任务中的局限例如因视角单一而无法判断遮挡物体位置的问题 [1]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 17:20
文章核心观点 - DrivePI是一种新型的空间感知4D多模态大语言模型,它作为一个统一的视觉-语言-行为框架,旨在通过端到端优化,同时执行空间理解、3D感知、预测和规划任务,从而弥合当前自动驾驶系统中基于视觉的方法与基于VLA的方法之间的差距 [4][6][7] 研究背景与挑战 - 当前自动驾驶系统主要有两种范式:基于视觉的方法(如UniAD、VAD)在空间感知方面表现出色但缺乏自然语言交互能力;基于VLA的方法(如OpenDriveVLA、ORION)具有更好的交互能力但缺乏精细的中间3D感知和预测输出,影响可靠性和安全性 [7][8] - 核心挑战在于开发一个统一框架,结合基于视觉模型的精确空间感知能力和VLA方法的自然语言交互能力 [7] 技术架构与创新点 - **多模态感知**:引入激光雷达作为相机图像的补充传感模态,提供精确的3D几何信息,以激发MLLM的空间理解能力 [11] - **精细化空间表示**:生成中间的精细3D感知(如3D占用体素)和预测(如占用流)表示,确保输出特征保持可靠的空间感知能力,增强系统的可解释性和安全保障 [11] - **丰富的数据引擎**:开发了将3D占用和占用流表示无缝集成到自然语言场景描述中的数据引擎,使模型能够通过文本理解复杂的时空动态 [11] - **统一模型设计**:采用端到端联合优化,覆盖3D感知、预测、规划和场景理解等所有任务,用一个MLLM统一了现有的VLA和VA框架 [11] - 架构关键组件包括:多模态视觉编码器(UniLION)、空间投影器、MLLM主干(基于Qwen2.5-0.5B模型构建)、以及四个专用头部(文本头、3D占用头、占用流头、行为扩散头) [11][17] 数据引擎 - 数据引擎分为三个阶段:场景理解注释(使用InternVL3-78B生成前/后视图描述)、4D空间理解注释(利用地面真实占用和流数据生成问答对)、规划推理注释(基于自车未来轨迹生成规划问答对) [18] 实验结果与分析 - **文本理解能力**:在nuScenes-QA基准测试中达到60.7%的平均准确率,超过OpenDriveVLA-7B模型2.5个百分点;在存在、对象和状态子类别上分别达到85.3%、57.5%和59.1%的准确率 [19][20] - **3D占用体素感知性能**:在Occ3D基准测试上达到46.0%的RayIoU,比之前最先进的OPUS方法提高4.8个百分点;在1m、2m和4m距离上分别达到42.2%、46.7%和49.2%的RayIoU [21][22] - **3D占用和占用流预测性能**:在OpenOcc基准测试上实现49.3%的OccScore和49.3%的RayIoU,将占用流mAVE降至0.509;超越FB-OCC的3D占用RayIoU达10.3个百分点,并将流mAVE从0.591降至0.509;比ALOcc-Flow-3D在OccScore上高出6.3%,在RayIoU上高出7.4% [15] - **轨迹规划性能**:在nuScenes基准测试中,使用自车状态信息时实现0.40m的L2误差和0.11%的碰撞率,碰撞率比ORION降低70%(从0.37%降至0.11%);不使用自车状态信息时,L2误差比VAD低32%(从0.72m降至0.49m) [16] 消融研究与分析 - **文本头部与视觉头部的消融研究**:当文本头和视觉头结合时,与仅视觉设置相比,统一模型的3D占用RayIoU提高1.8%,占用流mAVE降低0.18,规划L2误差降低0.52m,同时保持60.7%的文本理解准确率,证明了统一框架的有效性 [23][24] - **文本数据规模的影响**:使用Qwen-2.5 3B模型并扩大训练数据规模后,模型在占用状态预测的准确率从73%提升到87%,占用类别预测的准确率从14.3%显著提升到59.2% [26] - **多任务学习平衡权重研究**:实验表明,较高的3D占用和流损失权重(1.0)在该任务上性能更好,但在规划准确性和文本理解任务上略有降低,最终实现采用了默认权重1.0 [27][28] - **MLLM隐藏状态重要性权重分析**:分析显示,更深层的Transformer层获得更大的可学习权重,表明高级特征对模型有效性更为关键 [29][30] 可视化结果与能力展示 - DrivePI能够同时生成场景描述、3D占用、占用流、动作和轨迹预测的可视化结果,在粗粒度和细粒度预测之间表现出很强的一致性,验证了其统一语言理解与3D感知能力的有效性 [31] - 在静止等待、直行驾驶和夜间转弯等多种复杂驾驶场景中,DrivePI展示了卓越的性能和适应能力,例如在低光照条件下仍能准确描述环境并生成合理轨迹 [36][39] 主要贡献与未来展望 - 提出了首个统一的空间感知4D MLLM框架DrivePI,无缝集成粗粒度语言空间理解与精细3D感知能力 [39] - 将激光雷达作为补充传感模态,并支持精确的3D感知和预测,增强了系统的可解释性和安全保障 [39] - 尽管仅使用0.5B参数的紧凑MLLM主干网络,其在3D占用和占用流预测方面优于现有基于视觉的模型,同时保持了与现有VLA框架相当的交互能力 [39] - 该框架有望通过语言推理和精细的3D输出,启发未来研究,增强自动驾驶系统的可解释性和可解释决策能力 [38]
超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
36氪· 2025-10-28 15:26
技术概述与核心创新 - 提出名为Grasp Any Region (GAR)的新型区域多模态大模型(MLLM),旨在实现对自然图像中用户指定区域的细粒度、可交互式理解[2] - 模型核心设计原则是既要实现对提示区域的细粒度理解,同时保留并利用整个场景的全局上下文,解决了传统Region MLLMs在局部细节与全局信息之间的两难困境[25][28] - 引入两个全新组件:简洁高效的提示编码机制,以及创新性的区域对齐特征回放技术,通过视觉编码器生成全局特征图,并利用RoI-Align技术提取高保真度局部特征[25][27] 模型核心能力 - 具备精准描述用户指定区域的能力,能够基于色彩、纹理、形状、材质等基础属性进行客观评测,例如正确识别青蛙样式的拖鞋而非误判为青蛙[5][8][9] - 能够建模多个区域之间的关系并进行复杂的组合推理,例如判断多个提示是否在镜子当中,或综合理解物体间的复杂关联[5][18] - 可对极小物体进行精准识别,并利用极小的图像细节正确建模物体之间的关系,在示例中能准确判断人物是拿着书而非在看书,凸显细节理解能力之强[11][14][16] - 模型能力可零样本迁移至视频描述任务,能够精准识别视频中的物体、人物与动作,进行语义层次的深度分析,甚至识别运动信息[21][23][24] 技术实现与数据构建 - 采用多阶段流程生成大规模、高质量训练数据集:首先利用种子数据集和ImageNet-21K构建45.6万条细粒度描述数据,再结合Panoptic Scene Graph数据集生成关联感知型数据[30][31][32] - 最终训练数据包含三部分:细粒度描述数据、关联感知型描述及问答对、以及选择题,本阶段最终构建出含414K样本的关联数据集[30][35] - 在模型架构中,用户指定的二值掩码经卷积块处理后生成mask embedding,与ViT的patch embedding相加完成空间信息与视觉特征的融合[27] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o的53.5分,直逼o3的61.3分和Gemini-2.5-Pro的64.2分[38][39] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,超过Gemini-2.5-Pro的59.3分[41] - GAR-1B模型尽管参数量远小于其他模型,但其综合得分为50.6分,性能超过了InternVL3-78B等大规模公开模型,在纹理维度得分达到69.0分[39] - 在Ferret-Bench与MDVP-Bench上的零样本表现优异,GAR-8B在MDVP-Bench的自然图像任务中取得178.6分,大幅超过所有竞品模型[43][44] - 在VideoRefer-Bench测试中,zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型,取得72.0分的总体成绩[46][47] 应用前景与行业价值 - 可作为多模态理解模型的预训练数据生成工具,为训练提供精细的图像/视频描述[47] - 能辅助文生图或文生视频模型理解复杂的用户指令,提升模型对于复杂文本的指令遵循能力[47] - 可作为细粒度编辑模型的数据来源,提供针对待编辑区域的精准描述[47] - 可天然作为奖励模型,为多模态理解任务的后训练阶段提供准确的区域理解奖励信号[47] - 团队已将论文、代码和模型全部开源,并支持基于gradio的本地部署,降低了行业应用门槛[47][48][49]
大模型在具身推理上「翻车」了?4496 道题全面揭示短板
机器之心· 2025-10-28 08:41
文章核心观点 - 行业提出BEAR基准以系统评估多模态大语言模型在具身智能领域的各项子能力 涵盖6大类14个细粒度技能 [4][8][9] - 行业测评发现当前多模态大模型在具身智能任务上整体表现不佳 最优模型GPT-5成功率仅为52% [11] - 行业基于错因分析开发了BEAR-Agent智能体 通过提供工具和辅助线显著提升模型在基准测试和仿真环境中的表现 [17][21] BEAR基准概述 - BEAR基准包含4,469个图片-视频-文字的VQA问题 旨在系统评估MLLM的具身智能子能力 [8] - 基准涵盖5个基础类别和1个长程推理类别 包括给点、给检测框、空间推理、任务规划等 共细分为14个技能 [8][9] - 该基准首次将具身智能任务切分为以技能划分的步骤 便于进行细粒度的错因分析 [9] 测评实验结果 - 行业全面测量了20个不同的MLLM 发现闭源模型通常优于开源模型 但部分开源模型如InternVL系列展现出潜力 其表现超过了GPT-4o和Claude等模型 [11] - 实验表明Chain-of-thought提示策略在闭源模型的给点和空间推理等子能力上起到一致的负面作用 过度推理会引入干扰 [13] - 在GPT-4o的错因分析中发现 模型视觉全能能力不足是多个类别的主要瓶颈 3D能力不足和长程推理中底层感知与空间推理的错误占比高达88% [15][19] BEAR-Agent性能提升 - BEAR-Agent可显著提升模型性能 使GPT-5在BEAR基准上的平均成功率从52.17%提升至61.29% [20] - 对于开源模型InternVL3-14B BEAR-Agent将其平均成功率从33.93%提升至36.24% [20] - 在桌面操作环境的仿真测试中 BEAR-Agent将MOKA的表现提升了20.17% 显示出其对具身智能体的实际应用潜力 [21]
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
机器之心· 2025-10-17 12:09
研究背景与问题 - 多模态大语言模型在视觉理解和跨模态推理等任务上表现出强大能力,但其视觉编码器存在对抗脆弱性,容易受到对抗样本的攻击[2] - 在无法访问内部参数的黑盒场景下,尤其是针对GPT-4、Claude-3等闭源商业模型,现有对抗攻击方法的迁移效果显著下降[3][8] - 现有方法仅对齐全局特征而忽略图像补丁中的局部信息,导致特征对齐不充分和迁移能力受限[3][10] 方法创新:FOA-Attack框架 - 提出特征最优对齐攻击框架,核心思想是在全局和局部两个层面实现特征的最优对齐[3][6] - 全局层面通过余弦相似度损失对齐粗粒度的全局特征,避免宏观语义偏差[6][13] - 局部层面创新性地使用聚类技术提取关键局部特征模式,并将其建模为最优传输问题,实现细粒度精准对齐[6][14] - 设计动态集成权重策略,在攻击生成过程中自适应平衡多个替代模型的影响,避免优化偏向单一模型特征[6][11][15] 实验效果:开源模型 - 在Qwen2 5-VL-3B模型上攻击成功率达到52 4%,显著高于M-Attack的38 6%[18] - 在Qwen2 5-VL-7B模型上攻击成功率为70 7%,语义相似度达到0 58[18] - 在LLaVa-1 5-7B和LLaVa-1 6-7B模型上攻击成功率分别达到79 6%和78 9%[18] - 在Gemma-3-4B和Gemma-3-12B模型上攻击成功率为38 1%和35 3%,全面超越现有方法[18] 实验效果:闭源模型 - 对GPT-4o模型的攻击成功率高达75 1%,语义相似度为0 59[19] - 对Claude-3 5和Claude-3 7模型的攻击成功率分别为11 9%和15 8%[19] - 对Gemini-2 0模型的攻击成功率达到53 4%,语义相似度为0 50[19] - 在所有闭源商业模型上的表现均显著优于现有最佳方法M-Attack[19] 实验效果:推理增强模型 - 对GPT-o3推理增强模型的攻击成功率达到81%,语义相似度为0 63[21] - 对Claude-3 7-thinking模型的攻击成功率为16%[21] - 对Gemini-2 0-flash-thinking-exp模型的攻击成功率为57%[21] - 结果表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack能有效利用这一漏洞[21] 研究意义与影响 - 该方法揭示了当前多模态大语言模型在视觉编码阶段的脆弱面,为防御方向提供了新思路[24] - 论文与代码已公开,便于学术界和工业界进行复现和深入研究[4][25] - 研究团队来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校等知名机构[27]
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
36氪· 2025-10-14 16:54
行业技术发展新方向 - 多模态大语言模型在视觉与语言融合的感知与推理任务中展现出强大能力[1] - 研究焦点从离线静态场景理解转向在线动态场景理解,更贴近真实世界应用[3] - OST-Bench基准通过“移步换景”的动态在线视角,为模型能力提出新挑战[1][3] 新基准的核心特点与设计 - 基准设计包含在线设定和跨时空理解两大核心特点,模型需在增长观测中实时感知并结合历史信息推理[3] - 将动态场景理解划分为智能体空间状态、智能体可见信息、智能体-物体空间关系三大信息类别[7] - 基于三类信息设计了15个子任务,覆盖判断、估算、计数、时间定位四类题型[7] - 通过规则生成加人工筛选,构建了包含10k测试集数据和50k训练集数据的大规模基准[7] 主流模型性能评估 - 当前主流多模态大模型与人类水平存在显著性能差距,人类水平平均准确率达83.5%,而最佳模型GPT-4.1为53.4[9][10] - 在具体任务表现上,模型在智能体可见信息任务上相对较好,最佳达76.5,但在智能体-物体空间关系任务上表现最差,仅为37.7[10] - 开源模型中Intern VL-2.5-78B表现最佳,平均准确率达51.1,接近部分商用模型水平[9][10] 模型能力短板分析 - 模型准确率随探索步数增加持续下降,暴露出现有范式难以适应长时序在线设定的缺陷[12] - 专门的空间增强模型如Spatial-MLLM、VLM-3R等未带来预期提升,在部分任务上反而出现明显退步[12][13] - 模型存在“时空推理捷径”现象,倾向于就地猜测而非真正进行时空整合推理[14][15] 技术突破方向 - 复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型的两大关键限制因素[18] - 微调实验显示模型分数可提升超过10%,但复杂时空推理任务准确率仍难以突破50%[21] - 微调带来的提升更多是“题海战术式的熟练”而非“机制上的理解进步”,需要更强的模型设计或训练策略[21]
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心· 2025-10-14 14:33
研究背景与基准概述 - 多模态大语言模型在视觉与语言模态融合的感知与推理任务中已展现出强大能力,但面临真实世界动态场景的新挑战[2] - 由上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者提出的OST-Bench,从智能体探索场景的动态在线视角出发,为大模型能力提出新挑战[2] - 相比离线/静态的空间智能基准,OST-Bench更精准地反映了具身感知在真实世界中的核心挑战,其代码和数据均已开源[2][6] 基准核心特点与设计 - 基准模拟现实世界中人类“移步换景”的有限视野探索过程,智能体需依赖连续输入的局部观测完成在线感知、记忆维护与时空推理[5][7] - 传统空间智能评测多为离线、固定输入长度,而OST-Bench具有两大核心特点:在线设定(模型需在增长观测中实时感知)和跨时空理解(需结合当前画面与历史信息)[7][10] - 研究团队将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体-物体空间关系,并基于此设计了15个子任务,覆盖判断、估算、计数、时间定位四类题型[8] - 基准包含基于规则生成加人工筛选的10k条测试集数据(覆盖1.4k个场景)以及用于微调的50k条训练集数据(覆盖7k个场景)[8] 主流模型性能评估 - 当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板[13][14][17] - 在专有模型中,GPT-4.1整体平均得分最高为53.4%,Claude-3.5-Sonnet为47.8%,GPT-4o为48.7%[14] - 在开源模型中,InternVL-2.5-78B表现最佳,整体平均得分为51.1%,InternVL-2.5-38B为50.8%[14] - 人类水平基准整体平均得分高达83.5%,显著高于所有测试模型,而随机猜测水平为36.9%[14] 模型能力深度分析 - 模型的准确率随着探索步数的增加持续下降,说明现有范式难以适应长时序的在线设定[17] - 模型存在“时空推理捷径”现象:面对复杂问题时更倾向于就地猜测而非进行真正的时空整合推理[18] - 针对性的跨视角推理测评表明,复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是模型准确率受限的两大关键因素[20][21] - 专门设计的空间增强模型(如Spatial-MLLM、VLM-3R和LLaVA-3D)与其基座模型相比没有显著提升,反而在部分任务上明显退步[16][17] 微调实验效果评估 - 基于5万条问答数据对多种模型进行微调后,所有模型的分数均提升了超过10%,证明微调确实有效[23] - 然而,真正涉及复杂时空推理的任务仍难以突破50%的准确率,说明单纯微调不能触及问题本质[23] - 微调后的模型在部分题型上呈现“背答案”倾向而非真正理解,且容易变得不听话,无法稳定遵守格式对自己的答案进行解释[23] - 现象表明微调带来的提升更像是“题海战术式的熟练”,而非“机制上的理解进步”[23] 行业意义与发展方向 - OST-Bench通过多模型评估揭示了当前模型在面对“在线时空理解”任务时的深层短板[24] - 突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步[24] - 该基准为未来模型的发展指明了方向,在导航、移动操控等具身任务领域具有重要应用价值[7][24]
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集
机器之心· 2025-09-26 07:54
多模态大语言模型几何推理研究突破 - 多模态大语言模型在视觉问答和图像描述任务中广泛应用,但现有方法依赖模板生成图像-文本对,存在泛化能力有限和视觉-文本信息不对齐问题 [1] - UIUC团队提出基于强化学习与可验证奖励(RLVR)的数据生成框架Geo-Image-Textualization,并发布首个完全对齐的高质量几何图像-文本数据集GeoReasoning-10K,包含1万对精心构建的图像与描述 [2] - 该框架具有强泛化性,训练后的模型不仅能处理几何任务,还能泛化至算术、代数、数值推理等非几何任务,甚至处理非几何图像输入 [8] 数据集与代码开源 - 研究团队已公开GeoReasoning-10K数据集及相关代码,数据集地址为https://huggingface.co/datasets/ScaleMath/GeoReasoning,代码地址为https://github.com/MachinePhoenix/GeoReasoning [3][5] - 论文标题为"Generalizable Geometric Image Caption Synthesis",论文链接为https://arxiv.org/abs/2509.15217 [5] 框架核心优势 - 生成样本由模板集字句组合而成,可以组合出任意复杂度的几何题,展现出卓越的可扩展性 [8] - 经过GeoReasoning训练过的模型在下游任务上性能超过其他同类型数据集,并且具有良好的缩放性质,体现高质量特性 [8] 实验验证结果 - 在MathVista和MathVers数学推理基准测试中,GeoReasoning-10K在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性 [12] - 使用GeoReasoning-10K微调后的Gemma3-4B模型在MMMU测评基准上显著提升多项能力 [14] - 具体样例显示模型能成功解决几何问题(如圆的角度计算)和算术问题(如车辆数量比较) [17][19] 研究意义与应用前景 - 该框架通过确保视觉和文本信息的完全对齐,不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化 [21] - 给几何图片写标题能增强AI的整体数学推理能力,为多模态AI在教育、科学计算等领域的应用铺平道路 [21]