核心认知能力 - 财报，业绩电话会，研报，新闻

核心认知能力

搜索文档

量子位· 2025-10-10 09:03

研究核心发现 - 多模态大模型在人类婴幼儿阶段即具备的12种基础核心认知能力上普遍表现不佳，与人类表现存在显著差距，即便模型规模更大也难以弥补这一缺陷[1][4] - 研究团队构建了业界首个核心认知基准CoreCognition，包含1503道多模态题目，覆盖从连续性到机械推理等12项核心认知概念，每类题目不少于95例[2][7][9] - 在CoreCognition基准测试中，230个主流模型系统暴露出对世界常识的“核心知识盲区”[3] 基准测试方法论 - CoreCognition基准围绕发展心理学与皮亚杰分层框架构建，题目设计遵循判别性强、最小混淆、无文本捷径的高标准，所有题目必须联合利用图像与文本才能得出正确答案[9][10][11][12] - 研究团队提出了Concept Hacking（概念干预）方法，通过构造“对照组”与“干预组”来检测模型是否真正理解概念还是依赖表面模板走捷径[13] - 所有数据由12位具备相关背景的高年级本科或研究生协作完成标注与审核，并经过两轮交叉验证和人工校验[12] 模型性能关键洞察 - 模型在低层核心认知能力（如边界感、连续性、客体永恒）上显著落后于高层能力（如意向理解、工具使用），与人类各层稳定高分的模式明显不同，表明当前多模态大模型存在系统性短板[16] - 增加模型规模主要利好高层能力，对低层核心能力帮助有限甚至为负，其中视角采择能力甚至出现反向规模效应（模型越大越差）[22] - 关联性矩阵显示，模型缺乏人类由低到高的脚手架式认知发展结构，其高级感知与推理并非建立在基础的认知能力之上[18] 模型行为模式分类 - 基于Concept Hacking实验结果，模型可归纳为四类：核心知识型（接近人类水平，占比极少）、捷径依赖型、核心缺陷型、偶然型[25] - 概念干预测试揭示模型存在“假理解”陷阱，例如在直觉物理测试中，模型在原题作对但在改变关键特征的孪生版题目中直接翻车，暴露出对表面模板的依赖而非真实理解[15][24] - 引入认知指令（在题目前明确提示相关概念）可带来约6%的即刻增益，但此类做法在真实场景中可获得性与可用性受限[29][30] 行业影响与启示 - 参数堆叠并不等于理解，地基是否扎实才是关键，与其一味追求“更大、更强”，不如先补齐核心知识，让模型学会在变化中保持一致的常识判断[32][33] - 规模是加法，核心认知是乘法，真正的智能首先取决于对世界最朴素规则的把握，而非仅仅“能写会画”的表面能力[31][34] - 推理模型与其对应非推理版本相比，在多数核心能力任务上未见显著提升，表明症结在于预训练阶段对核心知识的覆盖与结构化不足，而非“会不会用推理”[27]

多模态大模型，真的「懂」世界吗？——揭秘 MLLM 的核心知识缺陷

机器之心· 2025-07-28 10:47

多模态大模型核心认知缺陷研究核心观点 - 主流多模态大模型(MLLM)普遍缺乏人类婴儿期即具备的核心认知能力，且该缺陷无法通过单纯扩大模型规模解决[5][12][16] - 模型在基础物理概念(如物体恒存、空间知觉)任务中表现远低于复杂推理任务，显示其认知架构存在结构性缺失[12][14] - 通过创新评估框架CoreCognition和Concept Hacking方法，证实模型多依赖表面特征而非深层理解[6][18][20] 研究框架设计 - **CoreCognition测评体系** - 覆盖12项核心认知概念，分层设计对应感知运动期/混合期/形式运算期三阶段[11] - 包含1503个图像-问题对，测试230款模型×11种prompt生成2530个评估数据点[11] - 采用三重严谨设计标准：判别性强/混淆最小/无文本捷径[11] 关键发现 - **基础认知缺陷** - 模型在边界感/连续性/空间知觉等基础任务中准确率比复杂任务低37%-62%[12] - 物体恒存性测试中，83%的模型表现低于随机猜测水平[12] - **规模效应悖论** - 参数增加100倍仅带来基础认知能力≤5%提升，部分能力随规模扩大下降16%[16] - System-2推理模型在核心认知任务中未显现优势[19] - **虚假学习模式** - Concept Hacking测试显示，关键特征反转导致模型准确率骤降58%-72%[18][20] - 模型在70%干预测试中表现出依赖表面线索的投机行为[20] 技术启示 - 当前预训练范式无法自发形成核心认知架构，需显式注入物理常识[30] - 需开发认知引导训练机制，建立类似人类的认知scaffold结构[30] - 模型高级能力与基础认知脱节，反映现有评估体系存在盲区[14][22] 研究团队 - 跨学科团队涵盖认知科学/计算机视觉/神经工程领域[23][24][25][26][27][28][29] - 核心成员来自UC San Diego/约翰霍普金斯/卡内基梅隆等机构[23][24][29]