Workflow
斯坦福最新论文,揭秘大语言模型心智理论的基础
36氪·2025-09-24 19:04

大模型心智理论研究进展 - 斯坦福大学近期发表于《npj Artificial Intelligence》的论文揭示,大型语言模型(LLM)中驱动“心智理论”(ToM)能力的关键参数仅占模型总参数的0.001%,表明该复杂社交推理能力高度集中于一小部分神经元上[2][8] - 研究采用基于Hessian矩阵的敏感度分析方法,精确测量了模型中每个参数对特定任务的重要性,发现关键参数呈现出结构化的低秩特性,并主要集中在注意力机制的查询(Query)和键(Key)矩阵中[7][8] 模型心智能力的技术基础与脆弱性 - 研究发现,使用RoPE(旋转位置编码)架构的模型(如Llama、Qwen)其心智能力具有脆弱性,当对关键的0.001%参数进行扰动时,模型会丧失上下文定位能力,导致心智能力崩溃[8][14] - 相比之下,未使用RoPE的Jamba模型在经受同样参数扰动后,其心智能力未受影响,表明这种脆弱性与特定的技术选择(RoPE)直接相关[8] - RoPE通过为每个词在序列中的位置赋予独特的旋转操作来编码上下文顺序信息,其运作依赖于特定的“主导频率激活”模式,而心智核心参数的作用与此模式精确对齐[9][10][11] 高级认知能力的涌现路径 - 论文提出了智能涌现的路径模型:首先,模型需要像RoPE这样的强大“GPS系统”来构建对语言序列和结构的精确理解,这是所有高级认知能力的绝对前提[15] - 其次,在有序的语言世界模型基础上,模型通过统计学分析内化语言中蕴含的世界规律,例如动词时态变化、时间副词与事件先后顺序的关联,从而模拟因果关系[16][19] - 最终,心智理论等高级能力被视作模型在掌握词语定位、意义构建及时间因果等通用机制后产生的一种涌现属性,而非孤立的认知模块[20]