Granger 因果 - 财报，业绩电话会，研报，新闻

Granger 因果

搜索文档

机器之心· 2026-03-04 17:15

文章核心观点 - 文章提出，将香农信息论的核心从“比特”转换为“标记”，可以建立一套名为“语义信息论”的框架，从而从第一性原理上解释大模型的底层工作机制 [2] - 大模型本质上可被建模为一个“有状态、带反馈的信道”，其输入和输出均为标记序列，这为理解其训练和推理提供了与具体实现无关的数学模型 [43][44] - 通过引入“定向信息”和“定向信息密度”等信息论测度，可以形式化地描述大模型的性能指标、训练目标以及推理阶段的语义信息流 [23][33][39] - 该理论框架将大模型的预训练、后训练（如人类偏好对齐）和推理阶段统一在信息论视角下进行解释，并揭示了提示工程等信息论原理 [44][48][56] - 作者认为，“标记”是AI时代与“比特”同等重要的核心概念，它将连接经验与理性，定义新的时代 [67] Shannon信息论基础与方法论 - 香农信息论主要解决可靠数字通信问题，其三大核心结论是：信源编码定理（熵为无损压缩下界）、噪声信道编码定理（信道容量为可靠通信速率上界）、信源-信道分离定理 [7][12][14] - 香农采用“以数学补物理”的自顶向下方法论，从系统应具备的功能和数学性质出发，而非纠结具体技术实现，这对构建大模型理论具有启发性 [15] - 香农用转移概率建模信道，用互信息衡量统计相关性并导出信道容量，这些概率方法具有普适性，为后续建模奠定了基础 [8][20][21] 面向大模型的信息论测度 - **速率-失真函数**：用于刻画有损压缩性能，其核心是互信息，定义了在给定失真度约束下，重构信源所需的最小信息速率 [24] - **定向信息**：由James Massey提出，用于描述带反馈或因果关系的信道中，从输入序列到输出序列的统计相关性，突破了经典互信息的局限 [27][33] - **定向信息密度**：是定向信息在单次样本上的对应，是一个随机变量，其数学期望等于定向信息，具有良好的数学性质便于分析 [36][39][55] 大模型的信息论建模 - 大模型被抽象为一个有状态、带反馈的信道，其转移概率为 \(P(U_i | S_{1:n}, U_{n+1:i-1}; \Phi)\)，其中 \(S\) 为输入标记，\(U\) 为输出标记，\(\Phi\) 为模型参数 [43] - 从信息论视角看，通信问题与大模型问题的区别在于：通信的目标是无差错恢复信息，损失函数基于互信息；大模型的目标是建模人类输出分布，损失函数使用与KL散度等价的交叉熵 [45] 训练阶段的语义信息论原理 - **预训练阶段**：定义了“定向速率-失真函数” \(R_{pre}(D)\)，其描述了在生成输出与人类期望输出的KL散度不超过 \(D\) 的条件下，从输入到输出所需的最小定向信息量 [44][46] - 预训练的理想损失函数建议为 \(L(\Phi) = I(S_{1:n}; U_i | U_{n+1:i-1}; \Phi) + \lambda H(P_i^h, Q_i^\Phi)\)，最小化定向信息有助于过滤无用信息，减少幻觉 [44] - 理想收敛时，预训练模型逼近 \(R_{pre}(0) = \frac{1}{N}I(S_{1:n} \rightarrow U_{n+1:N}^h)\)，即从输入到输出的定向信息逼近人类水平 [47] - **后训练阶段**：定义了“奖励-失真函数”，其最优解等价于直接偏好优化算法中的损失函数，通过最大化符合人类偏好的定向信息来对齐模型 [48][49] 推理阶段的语义信息论原理 - 推理阶段关注特定输入下的输出，定义“语义信息流”为基于定向信息密度的单次推理度量 \(I(S_{1:n} \rightarrow U_{n+1:j}; \Phi^+)\) [50] - 语义信息流具有下鞅等良好数学性质，可通过现代数学工具研究 [54][55] - 定义了“语义信息容量” \(C_S\)，即通过调整输入标记的概率分布 \(P(S_{1:n})\)，所能最大化的、满足人类偏好奖励约束 \(W\) 的定向信息，这为提示词工程提供了信息论原理 [55][56] 因果推断与大模型 - 大模型通过预测下一个标记的训练目标，实现了逼近人类水平的格兰杰因果推断 [60] - 传递熵是有限长版本的定向信息，对于向量高斯过程，传递熵与格兰杰因果等价 [61][62] - 格兰杰因果属于Pearl因果层级中的Level-A（关联问题），关注数据驱动的预测；而Pearl因果的Level-B（干预）和Level-C（反事实）需要额外的、不可从数据中识别的因果假设 [63][64] - 当前大模型与强化学习结合，本质上是模仿人类语料中的干预和反事实模式进行预测，而非真正的因果推理 [65] 计算与估计方法 - 定向信息的计算可推广经典的Blahut-Arimoto算法 [57] - 提出了基于神经网络的定向信息估计器，以及利用Transformer本身来估计传递熵的方法，表明Transformer与定向信息天然契合 [58] 时代意义与核心概念 - “比特”连接了计算与通信，定义了信息时代；“标记”将连接经验（记忆、推断）与理性（推理），定义AI时代 [67] - 无论大模型当前技术路径能否通向AGI，其已革命性提升了信息自动化处理能力，AI时代的大幕已经开启 [68]