大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
机器之心·2026-01-15 08:53

文章核心观点 - 一项由帝国理工学院、华为诺亚方舟实验室等机构的研究发现,大型语言模型在学习过程中会自发演化出一个“协同核心”结构,该结构在功能和组织模式上与人脑的联合皮层相似,表明实现高级智能可能遵循某种共同的计算必然性,而非特定架构的工程巧合 [1][17][29] 研究模型与方法 - 研究团队利用部分信息分解框架对Gemma、Llama、Qwen和DeepSeek等多个具有代表性的大型语言模型系列进行了深度剖析 [5] - 实验向模型输入了涵盖语法纠错、逻辑推理、常识问答等6个类别的认知任务提示词,并记录每一层中所有注意力头或专家模块的激活值,以计算其激活强度 [9][10][11] - 研究应用整合信息分解框架,将注意力头对之间的交互分解为“协同”和“冗余”等原子项,并计算“协同-冗余秩”指标来量化模型组件处理信息的倾向 [12][13] 模型内部结构发现 - 研究发现模型内部存在一致的空间组织规律:中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理,在归一化层深图上协同分布呈显著的“倒U型”曲线 [6][14] - 这种“协同核心”结构在Gemma、Llama、Qwen等不同架构的模型中普遍存在,甚至在DeepSeek V2 Lite模型中以“专家模块”为分析单位也观察到相同特征,表明其跨架构的收敛性 [8][15][16] - 该结构与生物大脑形成映射:模型高冗余的底层和顶层对应人脑的感官和运动区域,而高协同的中层核心则对应负责复杂认知功能的联合皮层 [17] 协同核心的形成与功能 - 协同核心结构并非Transformer架构固有,而是通过学习习得:在随机初始化的Pythia 1B模型中不存在“倒U型”分布,随着训练步数增加该结构才逐渐稳定形成 [19] - 研究将模型结构分为“冗余外周”与“协同核心”:冗余外周(早期层和末期层)负责基础的解词元化、局部特征提取及Token预测和输出格式化;协同核心(中层)则负责高级语义集成和抽象推理 [21] - 在拓扑性质上,协同核心具有高“全局效率”以利于信息快速集成,而冗余外周则表现出强“模块化”以适用于专门化处理,这与人类大脑的网络架构形成平行关系 [23] 协同核心的功能验证 - 消融实验表明,消融高协同性节点会导致模型出现灾难性的性能下降和行为背离,其影响远超消融冗余节点,证明协同核心是模型智能的核心驱动力 [25] - 微调实验发现,在强化学习微调场景下,仅针对协同核心进行训练获得的性能提升显著优于针对冗余核心或随机子集的训练;在监督微调中这种差异不明显,研究者认为这反映了强化学习促进通用化而监督微调更多倾向于记忆的特性 [27] 研究意义与启示 - 对于人工智能领域,识别协同核心有助于设计更高效的模型压缩算法,或通过更有针对性的参数更新来加速训练 [29] - 对于神经科学,这提供了计算上的验证,预示着协同回路在强化学习和知识迁移中可能扮演至关重要的角色 [29] - 研究指出,大模型在追求智能的过程中不约而同地走向了与生物大脑相似的组织模式,这种智能演化的趋同性可能是揭开通用智能奥秘的关键线索 [29]