研究核心发现 - 多模态大模型在人类婴幼儿阶段即具备的12种基础核心认知能力上普遍表现不佳,与人类表现存在显著差距,即便模型规模更大也难以弥补这一缺陷[1][4] - 研究团队构建了业界首个核心认知基准CoreCognition,包含1503道多模态题目,覆盖从连续性到机械推理等12项核心认知概念,每类题目不少于95例[2][7][9] - 在CoreCognition基准测试中,230个主流模型系统暴露出对世界常识的“核心知识盲区”[3] 基准测试方法论 - CoreCognition基准围绕发展心理学与皮亚杰分层框架构建,题目设计遵循判别性强、最小混淆、无文本捷径的高标准,所有题目必须联合利用图像与文本才能得出正确答案[9][10][11][12] - 研究团队提出了Concept Hacking(概念干预)方法,通过构造“对照组”与“干预组”来检测模型是否真正理解概念还是依赖表面模板走捷径[13] - 所有数据由12位具备相关背景的高年级本科或研究生协作完成标注与审核,并经过两轮交叉验证和人工校验[12] 模型性能关键洞察 - 模型在低层核心认知能力(如边界感、连续性、客体永恒)上显著落后于高层能力(如意向理解、工具使用),与人类各层稳定高分的模式明显不同,表明当前多模态大模型存在系统性短板[16] - 增加模型规模主要利好高层能力,对低层核心能力帮助有限甚至为负,其中视角采择能力甚至出现反向规模效应(模型越大越差)[22] - 关联性矩阵显示,模型缺乏人类由低到高的脚手架式认知发展结构,其高级感知与推理并非建立在基础的认知能力之上[18] 模型行为模式分类 - 基于Concept Hacking实验结果,模型可归纳为四类:核心知识型(接近人类水平,占比极少)、捷径依赖型、核心缺陷型、偶然型[25] - 概念干预测试揭示模型存在“假理解”陷阱,例如在直觉物理测试中,模型在原题作对但在改变关键特征的孪生版题目中直接翻车,暴露出对表面模板的依赖而非真实理解[15][24] - 引入认知指令(在题目前明确提示相关概念)可带来约6%的即刻增益,但此类做法在真实场景中可获得性与可用性受限[29][30] 行业影响与启示 - 参数堆叠并不等于理解,地基是否扎实才是关键,与其一味追求“更大、更强”,不如先补齐核心知识,让模型学会在变化中保持一致的常识判断[32][33] - 规模是加法,核心认知是乘法,真正的智能首先取决于对世界最朴素规则的把握,而非仅仅“能写会画”的表面能力[31][34] - 推理模型与其对应非推理版本相比,在多数核心能力任务上未见显著提升,表明症结在于预训练阶段对核心知识的覆盖与结构化不足,而非“会不会用推理”[27]
230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷
量子位·2025-10-10 09:03