Workflow
Multimodal Large Language Model
icon
搜索文档
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
机器人圈· 2025-06-11 19:43
大模型理解能力研究 - 核心观点:大语言模型(LLM)和多模态大语言模型(MLLM)能够自发形成与人类高度相似的物体概念表征系统,证明其并非仅依赖统计概率的"随机鹦鹉"[1][2][3] - 研究团队通过470万次行为判断数据构建AI模型的"概念地图",证实其低维表征结构与人类相似[3][6][8] - 纯文本训练的ChatGPT-3.5与多模态Gemini模型预测人类行为选择的准确度分别达到噪声上限的87.1%和85.9%[9] 研究方法与发现 - 采用"三选一异类识别任务"分析1854种日常概念组合,首创"行为认知探针"方法避免黑箱神经网络的可解释性难题[5][8] - 从行为数据中提取66个核心维度,模型自发形成18个高级物体概念类别,分类准确率达78.3%(接近人类的87.1%)[9][13] - 模型表现出与人类一致的"生物/非生物""人造/自然"分类边界,印证认知神经科学经典发现[14] 模型与人类认知对比 - MLLM的低维嵌入预测大脑梭状回面孔区(FFA)神经活动的准确度达人类水平的85%,远超纯文本模型(60%)[23][24] - 大模型(如GPT-4、Gemini_Pro)在行为选择模式上更接近人类,传统单模态模型(如ResNet18、VGG16)一致性较低[28][29] - 人类决策依赖视觉特征和语义信息整合,而大模型更侧重语言驱动的语义归类[32][33] 应用前景与未来方向 - 潜在应用包括类脑智能系统开发、神经机制探索、认知增强型脑机接口构建[35] - 下一步将拓展至新一代多模态大模型测试平台,建立细粒度"认知图谱"并开发持续微调方法[35][36] - 研究团队由中科院自动化所主导,论文发表于《Nature Machine Intelligence》,相关代码与数据集已开源[37][39][40]