多模态大模型(MLLM)

搜索文档
多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
机器之心· 2025-07-28 10:47
多模态大模型核心认知缺陷研究 核心观点 - 主流多模态大模型(MLLM)普遍缺乏人类婴儿期即具备的核心认知能力,且该缺陷无法通过单纯扩大模型规模解决[5][12][16] - 模型在基础物理概念(如物体恒存、空间知觉)任务中表现远低于复杂推理任务,显示其认知架构存在结构性缺失[12][14] - 通过创新评估框架CoreCognition和Concept Hacking方法,证实模型多依赖表面特征而非深层理解[6][18][20] 研究框架设计 - **CoreCognition测评体系** - 覆盖12项核心认知概念,分层设计对应感知运动期/混合期/形式运算期三阶段[11] - 包含1503个图像-问题对,测试230款模型×11种prompt生成2530个评估数据点[11] - 采用三重严谨设计标准:判别性强/混淆最小/无文本捷径[11] 关键发现 - **基础认知缺陷** - 模型在边界感/连续性/空间知觉等基础任务中准确率比复杂任务低37%-62%[12] - 物体恒存性测试中,83%的模型表现低于随机猜测水平[12] - **规模效应悖论** - 参数增加100倍仅带来基础认知能力≤5%提升,部分能力随规模扩大下降16%[16] - System-2推理模型在核心认知任务中未显现优势[19] - **虚假学习模式** - Concept Hacking测试显示,关键特征反转导致模型准确率骤降58%-72%[18][20] - 模型在70%干预测试中表现出依赖表面线索的投机行为[20] 技术启示 - 当前预训练范式无法自发形成核心认知架构,需显式注入物理常识[30] - 需开发认知引导训练机制,建立类似人类的认知scaffold结构[30] - 模型高级能力与基础认知脱节,反映现有评估体系存在盲区[14][22] 研究团队 - 跨学科团队涵盖认知科学/计算机视觉/神经工程领域[23][24][25][26][27][28][29] - 核心成员来自UC San Diego/约翰霍普金斯/卡内基梅隆等机构[23][24][29]
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:17
视频生成技术评估框架 - 视频生成技术正在快速革新视觉内容创作方式,高质量视频生成模型的重要性日益凸显[1] - Video-Bench框架通过模拟人类认知过程,建立文本指令与视觉内容的智能评估体系[2] - 该框架能精准识别物体一致性(0.735相关性)、动作合理性等维度缺陷,显著优于现有评估方法[3] 技术架构创新 - 构建视频-条件对齐和视频质量双维度评估框架,覆盖对象类别/动作/颜色/场景一致性等要素[7][10] - 引入链式查询技术:通过多轮"描述-提问-验证"流程解决跨模态对齐难题[8][13] - 采用少样本评分技术:通过多视频对比将主观美学评判转化为量化标准[8][15] 性能优势 - 视频-条件对齐维度Spearman相关系数达0.733,较CompBench提升56.3%[18][19] - 视频质量维度平均相关性0.620,领先EvalCrafter[18] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] 技术组件效果 - 链式查询使视频-条件对齐评估提升9.3%[22] - 少样本评分将成像质量评估相关性从46.1%提升至62.4%[22] - 组合使用时评估稳定性(TARA@3)达67%,Krippendorff's α达0.867[23] 模型测评结果 - 商业模型Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - 当前模型在动作合理性(平均2.53/3)和动态模糊(3.11/5)等动态维度表现较弱[26] - GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)方面表现突出[27] 研究团队 - 团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等顶尖机构[4] - 核心成员包括多模态语言模型专家和LLM agent研究者[28] - 项目代码和论文已开源[29]
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:16
视频生成技术评估框架Video-Bench 核心观点 - 视频生成技术革新视觉内容创作方式,高质量视频生成模型重要性凸显[1] - Video-Bench通过模拟人类认知过程建立文本指令与视觉内容的智能评估体系,显著优于现有方法[2][3] - 框架由上海交通大学、斯坦福大学等机构联合开发,采用双维度评估和两项核心技术实现突破[4][7][8] 技术架构创新 - **双维度评估框架**:覆盖视频-条件对齐(对象/动作/颜色/场景一致性)和视频质量(成像/美学/时间/运动质量)[7][10] - **链式查询技术**:通过多轮"描述-提问-验证"流程解决跨模态对齐难题,提升评估相关性9.3%[8][13][22] - **少样本评分技术**:通过多视频对比量化美学评价,成像质量评估相关性从46.1%提升至62.4%[8][15][22] 性能优势 - 视频-条件对齐维度Spearman相关系数0.733,较CompBench显著领先[18] - 对象类别一致性达0.735相关性,较GRiT方法提升56.3%[19] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] - 抗干扰能力强:添加高斯噪声后评估误差<5%,评分一致性达87%[24] 主流模型测评结果 - **商业模型优势**:Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - **专项能力差异**:CogVideoX视频-文本一致性领先,Gen3成像质量最优[25] - **共性短板**:动作合理性平均仅2.53/3,动态模糊评分3.11/5[26] - **基础模型对比**:GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)表现突出,但版本更新可能引发性能波动[27] 技术实现细节 - 实验验证35,196个视频样本,组合技术使评估稳定性达67%(TARA@3)[22][23] - 框架对不同复杂度提示的评估稳定性优于基线方法32%[24] - 代码与论文已开源,便于行业应用验证[29]
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 15:10
多模态大模型在视频OCR领域的挑战与进展 - 多模态大模型(MLLM)在静态图像OCR任务中表现卓越 但在动态视频OCR任务中面临严峻挑战 主要受限于运动模糊、光影变化、视角切换等动态因素以及复杂的时序关联[1][2] - MME-VideoOCR评测框架旨在系统评估MLLM在视频OCR中的感知、理解和推理能力 构建了包含1,464个精选视频片段和2,000条人工标注问答对的高质量数据集[3][4] - 视频OCR任务难度远超静态图像 需解决文字信息形式复杂多样、时空视觉-文本关联建立以及语义解析与推理判断等核心问题[5] 评测体系设计与数据构建 - 设计10大任务类别和25个子任务 重点考察时序理解、信息整合及复杂推理等高阶能力 超越基础识别维度[6][15] - 数据集覆盖生活记录、影视娱乐、教育科普等多元化场景 融入运动模糊、低分辨率、复杂背景等真实世界复杂因素 并特别设计需要跨帧理解的时序性任务[10] - 额外引入短视频、弹幕视频及AIGC视频等新兴类型 增强数据全面性 共收集1,464个视频和2,000条样本[11][12] 主流模型性能表现 - 评测18个主流MLLM(含闭源与开源模型) 顶尖闭源模型Gemini-2.5 Pro整体准确率仅73.7% 显示当前技术存在明显瓶颈[7][19] - 开源模型表现显著落后 多数准确率不足60% 与闭源模型差距明显 其中Qwen2.5-VL(72B)以69%准确率位列开源第一[19][20] - 模型规模与性能正相关 InternVL3从8B到78B版本准确率提升7.4个百分点 显示参数扩大对能力提升的有效性[19] 核心能力短板与优化方向 - 时序处理成为关键瓶颈 模型在单帧识别表现较好 但对长时序信息整合和文字动态变化理解能力显著下降[21] - 时空推理能力普遍薄弱 且存在过度依赖语言先验知识而忽视视觉信息的问题[21][22] - 实验表明高分辨率视觉输入和完整时序帧覆盖对性能提升至关重要 但需平衡信息量与目标关注度的矛盾[23]