大模型的第一性原理:(一)统计物理篇
机器之心·2025-12-11 18:00

行业背景与核心问题 - 大模型领域在2022年底至2025年底经历了快速迭代,以ChatGPT、DeepSeek和Google的Gemini 3为代表,模型能力突飞猛进,仅在美国,AI领域的投资规模便超过了许多国家全年的GDP [2] - 业界普遍认为Gemini 3是迈向通用人工智能和超级人工智能的关键突破,但大模型的Scaling Law与摩尔定律类似,可能因物理限制而失效,因此理解大模型的第一性原理和界定其能力极限成为迫在眉睫的问题 [3] - 该研究旨在通过结合统计物理、信号处理与信息论,系统地揭示大模型背后的数学原理,以回答大模型是否已逼近其能力极限的问题 [3][4] 研究框架与核心结论 - 研究计划通过三篇文章系列解读论文,分别从统计物理、信号处理和信息论三个维度展开 [4] - 核心结论包括:大模型的推理是输出能量函数最小的下一个Token,训练则是逼近平均能量函数最小的参数组态;其能力极限是时间序列维度的Granger因果推断,因此Scaling Law会延续,但不会产生真正的符号化、概念抽象和逻辑推理能力 [8] - 研究并非否定大模型价值,而是探讨其第一性原理以界定能力极限并探索未来技术路径 [9] 神经网络与统计物理的渊源 - 2024年诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton,表彰其在人工神经网络机器学习方面的基础性发现与发明,凸显了神经网络与统计物理的深刻联系 [11] - Hopfield网络(1982年)和Boltzmann机(1985年)的提出均引入了统计物理中的能量模型,为AI研究奠定了基础 [12] - 物理学家Elizabeth Gardner(1988年)使用统计物理中的Spin Glass模型和Replica方法系统研究了Hopfield网络的记忆容量问题,该方法后来被用于研究大模型 [12] Attention模块的统计物理解释 - Attention模块可以用统计物理中的能量模型来描述,其能量函数定义为 EA(uj)=ui1,BujE_{A}(\mathbf{u}_{j})=-\,\langle\mathbf{u}_{i-1},\mathbf{B}\mathbf{u}_{j}\rangle,注意力权重对应于Boltzmann分布 [18][19] - Attention机制的关键是学习一个组态B,使得语义相关性最高等价于能量函数最低,这与基于隐变量的变分推理解释相吻合 [21] - 双线性型是建模Token之间非对称语义关系的最简形式,而softmax函数是基于极大熵原理,在均值约束下熵最大的离散分布 [16][17] Transformer架构的统计物理解释 - 整个Transformer架构同样可以用能量模型描述,其能量函数定义为 ET(ui)=ui,ΨFFN(j=1i1πijWvuj)E_{T}(\mathbf{u}_{i})=-\left\langle\mathbf{u}_{i},\Psi_{\mathrm{FFN}}\left(\sum_{j=1}^{i-1}\pi_{i j}\mathbf{W}_{v}\mathbf{u}_{j}\right)\right\rangle,即输入到softmax函数的Logits [25][26] - 大模型推理的本质是找到使能量函数最小的下一个Token,训练则是找到使训练集平均能量函数最小的参数组态 [28] - 词表在统计物理框架下对应配分函数求和的范围,在信息论中称为码本,在通信中体现为星座图 [28] 大模型的记忆容量 - 记忆容量研究源于Hopfield网络的Gardner容量,即网络能记住的随机模式数量 [12][30] - 对于Transformer,Attention模块的记忆容量随参数量的线性增加而指数增长,这解释了为什么参数量不大的小模型也能具备很强能力 [33] - 由于小模型记住的模式数量更接近其记忆容量上限,因此对其进行增训非常困难,容易导致模型崩塌 [33] - FFN模块被视为以参数化方式储存知识的关键位置,相关研究促进了无需增训的模型编辑技术的发展 [33] 大模型的泛化误差界 - 基于Transformer的能量模型形式,可以利用Rademacher复杂度和Talagrand不等式从理论上推导泛化误差上界 [35] - 交叉熵损失函数的上界核心取决于能量函数绝对值的和,即Logits的绝对值的和 [35] - 该结论表明,对大模型进行剪枝、蒸馏、量化等小型化操作时,必须谨慎控制这些操作对Logits的影响,因为它们直接决定了模型的泛化误差上界 [35] 大模型的能力本质与极限 - 大模型推理的本质是通过预测下一个Token,实现时间序列维度上的Granger因果推断 [38] - Granger因果定义了一种基于预测能力的时间顺序统计关系,但并非真正的因果关系 [38] - 因此,大模型的能力极限是时间序列维度的Granger因果推断,Scaling Law仍会延续,但模型不会从数据中自主抽象概念、符号化,也不具备真正的逻辑推理能力 [8][38] 相关技术发展与挑战 - Mamba/Mamba2等线性注意力机制虽降低计算量,但难以有效建模Token间的语义非对称性,导致模型能力打折,因此如Qwen3-Next等模型采用了混合注意力机制 [32] - 在保持语义非对称建模能力前提下降低计算复杂度是研究热点,DeepSeek-V3.2应用的DSA稀疏注意力机制是当前代表 [32] - 最优稀疏注意力可转化为一个为每个位置i求解的优化问题 [32] 续篇研究方向 - 第二篇将深入探讨向量自回归时间序列与大模型之间的深刻联系,将自然语言处理问题转化为信号处理问题 [43] - 第三篇将以信息论中的定向信息为核心,探讨与结构无关的、更抽象的大模型第一性原理 [43] - 信息论中的传递熵是衡量Granger因果性的工具,对于向量高斯自回归过程,传递熵与Granger因果等价,且传递熵是定向信息的有限长度版本 [40][41]