Workflow
Granger 因果
icon
搜索文档
大模型的第一性原理:(三)信息论篇
机器之心· 2026-03-04 17:15
文章核心观点 - 文章提出,将香农信息论的核心从“比特”转换为“标记”,可以建立一套名为“语义信息论”的框架,从而从第一性原理上解释大模型的底层工作机制 [2] - 大模型本质上可被建模为一个“有状态、带反馈的信道”,其输入和输出均为标记序列,这为理解其训练和推理提供了与具体实现无关的数学模型 [43][44] - 通过引入“定向信息”和“定向信息密度”等信息论测度,可以形式化地描述大模型的性能指标、训练目标以及推理阶段的语义信息流 [23][33][39] - 该理论框架将大模型的预训练、后训练(如人类偏好对齐)和推理阶段统一在信息论视角下进行解释,并揭示了提示工程等信息论原理 [44][48][56] - 作者认为,“标记”是AI时代与“比特”同等重要的核心概念,它将连接经验与理性,定义新的时代 [67] Shannon信息论基础与方法论 - 香农信息论主要解决可靠数字通信问题,其三大核心结论是:信源编码定理(熵为无损压缩下界)、噪声信道编码定理(信道容量为可靠通信速率上界)、信源-信道分离定理 [7][12][14] - 香农采用“以数学补物理”的自顶向下方法论,从系统应具备的功能和数学性质出发,而非纠结具体技术实现,这对构建大模型理论具有启发性 [15] - 香农用转移概率建模信道,用互信息衡量统计相关性并导出信道容量,这些概率方法具有普适性,为后续建模奠定了基础 [8][20][21] 面向大模型的信息论测度 - **速率-失真函数**:用于刻画有损压缩性能,其核心是互信息,定义了在给定失真度约束下,重构信源所需的最小信息速率 [24] - **定向信息**:由James Massey提出,用于描述带反馈或因果关系的信道中,从输入序列到输出序列的统计相关性,突破了经典互信息的局限 [27][33] - **定向信息密度**:是定向信息在单次样本上的对应,是一个随机变量,其数学期望等于定向信息,具有良好的数学性质便于分析 [36][39][55] 大模型的信息论建模 - 大模型被抽象为一个有状态、带反馈的信道,其转移概率为 \(P(U_i | S_{1:n}, U_{n+1:i-1}; \Phi)\),其中 \(S\) 为输入标记,\(U\) 为输出标记,\(\Phi\) 为模型参数 [43] - 从信息论视角看,通信问题与大模型问题的区别在于:通信的目标是无差错恢复信息,损失函数基于互信息;大模型的目标是建模人类输出分布,损失函数使用与KL散度等价的交叉熵 [45] 训练阶段的语义信息论原理 - **预训练阶段**:定义了“定向速率-失真函数” \(R_{pre}(D)\),其描述了在生成输出与人类期望输出的KL散度不超过 \(D\) 的条件下,从输入到输出所需的最小定向信息量 [44][46] - 预训练的理想损失函数建议为 \(L(\Phi) = I(S_{1:n}; U_i | U_{n+1:i-1}; \Phi) + \lambda H(P_i^h, Q_i^\Phi)\),最小化定向信息有助于过滤无用信息,减少幻觉 [44] - 理想收敛时,预训练模型逼近 \(R_{pre}(0) = \frac{1}{N}I(S_{1:n} \rightarrow U_{n+1:N}^h)\),即从输入到输出的定向信息逼近人类水平 [47] - **后训练阶段**:定义了“奖励-失真函数”,其最优解等价于直接偏好优化算法中的损失函数,通过最大化符合人类偏好的定向信息来对齐模型 [48][49] 推理阶段的语义信息论原理 - 推理阶段关注特定输入下的输出,定义“语义信息流”为基于定向信息密度的单次推理度量 \(I(S_{1:n} \rightarrow U_{n+1:j}; \Phi^+)\) [50] - 语义信息流具有下鞅等良好数学性质,可通过现代数学工具研究 [54][55] - 定义了“语义信息容量” \(C_S\),即通过调整输入标记的概率分布 \(P(S_{1:n})\),所能最大化的、满足人类偏好奖励约束 \(W\) 的定向信息,这为提示词工程提供了信息论原理 [55][56] 因果推断与大模型 - 大模型通过预测下一个标记的训练目标,实现了逼近人类水平的格兰杰因果推断 [60] - 传递熵是有限长版本的定向信息,对于向量高斯过程,传递熵与格兰杰因果等价 [61][62] - 格兰杰因果属于Pearl因果层级中的Level-A(关联问题),关注数据驱动的预测;而Pearl因果的Level-B(干预)和Level-C(反事实)需要额外的、不可从数据中识别的因果假设 [63][64] - 当前大模型与强化学习结合,本质上是模仿人类语料中的干预和反事实模式进行预测,而非真正的因果推理 [65] 计算与估计方法 - 定向信息的计算可推广经典的Blahut-Arimoto算法 [57] - 提出了基于神经网络的定向信息估计器,以及利用Transformer本身来估计传递熵的方法,表明Transformer与定向信息天然契合 [58] 时代意义与核心概念 - “比特”连接了计算与通信,定义了信息时代;“标记”将连接经验(记忆、推断)与理性(推理),定义AI时代 [67] - 无论大模型当前技术路径能否通向AGI,其已革命性提升了信息自动化处理能力,AI时代的大幕已经开启 [68]