Workflow
核心认知能力
icon
搜索文档
230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷
量子位· 2025-10-10 09:03
CoreCognition团队 投稿 量子位 | 公众号 QbitAI 一篇被Yann LeCun转发的ICML 2025研究给了 多模态大模型 当头一棒—— 大部分AI在复杂任务上表现很好,但在人类从小就会的 基础认知能力 上却很拉垮。 研究者建了测评题库 CoreCognition ,覆盖在人类婴幼儿阶段即出现的12种核心认知能力(如客体永恒、视角采择、直觉物理、知觉恒常 等),用来对模型进行系统性测试。 在CoreCognition基准的1503道"经典发展心理学测验"上,230个主流模型系统暴露出对世界常识的"核心知识盲区"。 在归一化准确率对比中,多模态大模型在基础核心认知能力上普遍落后,差距往往达到两位数,即便规模更大也难以弥补。 这是否意味着MLLM(多模态大模型)的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制? 也就是说,它们是否缺乏"core knowledge"(核心认知能力)? 构建CoreCognition Benchmark 来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人 员,花费一年时间构造并 开 ...
多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
机器之心· 2025-07-28 10:47
多模态大模型核心认知缺陷研究 核心观点 - 主流多模态大模型(MLLM)普遍缺乏人类婴儿期即具备的核心认知能力,且该缺陷无法通过单纯扩大模型规模解决[5][12][16] - 模型在基础物理概念(如物体恒存、空间知觉)任务中表现远低于复杂推理任务,显示其认知架构存在结构性缺失[12][14] - 通过创新评估框架CoreCognition和Concept Hacking方法,证实模型多依赖表面特征而非深层理解[6][18][20] 研究框架设计 - **CoreCognition测评体系** - 覆盖12项核心认知概念,分层设计对应感知运动期/混合期/形式运算期三阶段[11] - 包含1503个图像-问题对,测试230款模型×11种prompt生成2530个评估数据点[11] - 采用三重严谨设计标准:判别性强/混淆最小/无文本捷径[11] 关键发现 - **基础认知缺陷** - 模型在边界感/连续性/空间知觉等基础任务中准确率比复杂任务低37%-62%[12] - 物体恒存性测试中,83%的模型表现低于随机猜测水平[12] - **规模效应悖论** - 参数增加100倍仅带来基础认知能力≤5%提升,部分能力随规模扩大下降16%[16] - System-2推理模型在核心认知任务中未显现优势[19] - **虚假学习模式** - Concept Hacking测试显示,关键特征反转导致模型准确率骤降58%-72%[18][20] - 模型在70%干预测试中表现出依赖表面线索的投机行为[20] 技术启示 - 当前预训练范式无法自发形成核心认知架构,需显式注入物理常识[30] - 需开发认知引导训练机制,建立类似人类的认知scaffold结构[30] - 模型高级能力与基础认知脱节,反映现有评估体系存在盲区[14][22] 研究团队 - 跨学科团队涵盖认知科学/计算机视觉/神经工程领域[23][24][25][26][27][28][29] - 核心成员来自UC San Diego/约翰霍普金斯/卡内基梅隆等机构[23][24][29]