语义信息论
搜索文档
大模型的第一性原理:(三)信息论篇
机器之心· 2026-03-04 17:15
文章核心观点 - 文章提出,将香农信息论的核心从“比特”转换为“标记”,可以建立一套名为“语义信息论”的框架,从而从第一性原理上解释大模型的底层工作机制 [2] - 大模型本质上可被建模为一个“有状态、带反馈的信道”,其输入和输出均为标记序列,这为理解其训练和推理提供了与具体实现无关的数学模型 [43][44] - 通过引入“定向信息”和“定向信息密度”等信息论测度,可以形式化地描述大模型的性能指标、训练目标以及推理阶段的语义信息流 [23][33][39] - 该理论框架将大模型的预训练、后训练(如人类偏好对齐)和推理阶段统一在信息论视角下进行解释,并揭示了提示工程等信息论原理 [44][48][56] - 作者认为,“标记”是AI时代与“比特”同等重要的核心概念,它将连接经验与理性,定义新的时代 [67] Shannon信息论基础与方法论 - 香农信息论主要解决可靠数字通信问题,其三大核心结论是:信源编码定理(熵为无损压缩下界)、噪声信道编码定理(信道容量为可靠通信速率上界)、信源-信道分离定理 [7][12][14] - 香农采用“以数学补物理”的自顶向下方法论,从系统应具备的功能和数学性质出发,而非纠结具体技术实现,这对构建大模型理论具有启发性 [15] - 香农用转移概率建模信道,用互信息衡量统计相关性并导出信道容量,这些概率方法具有普适性,为后续建模奠定了基础 [8][20][21] 面向大模型的信息论测度 - **速率-失真函数**:用于刻画有损压缩性能,其核心是互信息,定义了在给定失真度约束下,重构信源所需的最小信息速率 [24] - **定向信息**:由James Massey提出,用于描述带反馈或因果关系的信道中,从输入序列到输出序列的统计相关性,突破了经典互信息的局限 [27][33] - **定向信息密度**:是定向信息在单次样本上的对应,是一个随机变量,其数学期望等于定向信息,具有良好的数学性质便于分析 [36][39][55] 大模型的信息论建模 - 大模型被抽象为一个有状态、带反馈的信道,其转移概率为 \(P(U_i | S_{1:n}, U_{n+1:i-1}; \Phi)\),其中 \(S\) 为输入标记,\(U\) 为输出标记,\(\Phi\) 为模型参数 [43] - 从信息论视角看,通信问题与大模型问题的区别在于:通信的目标是无差错恢复信息,损失函数基于互信息;大模型的目标是建模人类输出分布,损失函数使用与KL散度等价的交叉熵 [45] 训练阶段的语义信息论原理 - **预训练阶段**:定义了“定向速率-失真函数” \(R_{pre}(D)\),其描述了在生成输出与人类期望输出的KL散度不超过 \(D\) 的条件下,从输入到输出所需的最小定向信息量 [44][46] - 预训练的理想损失函数建议为 \(L(\Phi) = I(S_{1:n}; U_i | U_{n+1:i-1}; \Phi) + \lambda H(P_i^h, Q_i^\Phi)\),最小化定向信息有助于过滤无用信息,减少幻觉 [44] - 理想收敛时,预训练模型逼近 \(R_{pre}(0) = \frac{1}{N}I(S_{1:n} \rightarrow U_{n+1:N}^h)\),即从输入到输出的定向信息逼近人类水平 [47] - **后训练阶段**:定义了“奖励-失真函数”,其最优解等价于直接偏好优化算法中的损失函数,通过最大化符合人类偏好的定向信息来对齐模型 [48][49] 推理阶段的语义信息论原理 - 推理阶段关注特定输入下的输出,定义“语义信息流”为基于定向信息密度的单次推理度量 \(I(S_{1:n} \rightarrow U_{n+1:j}; \Phi^+)\) [50] - 语义信息流具有下鞅等良好数学性质,可通过现代数学工具研究 [54][55] - 定义了“语义信息容量” \(C_S\),即通过调整输入标记的概率分布 \(P(S_{1:n})\),所能最大化的、满足人类偏好奖励约束 \(W\) 的定向信息,这为提示词工程提供了信息论原理 [55][56] 因果推断与大模型 - 大模型通过预测下一个标记的训练目标,实现了逼近人类水平的格兰杰因果推断 [60] - 传递熵是有限长版本的定向信息,对于向量高斯过程,传递熵与格兰杰因果等价 [61][62] - 格兰杰因果属于Pearl因果层级中的Level-A(关联问题),关注数据驱动的预测;而Pearl因果的Level-B(干预)和Level-C(反事实)需要额外的、不可从数据中识别的因果假设 [63][64] - 当前大模型与强化学习结合,本质上是模仿人类语料中的干预和反事实模式进行预测,而非真正的因果推理 [65] 计算与估计方法 - 定向信息的计算可推广经典的Blahut-Arimoto算法 [57] - 提出了基于神经网络的定向信息估计器,以及利用Transformer本身来估计传递熵的方法,表明Transformer与定向信息天然契合 [58] 时代意义与核心概念 - “比特”连接了计算与通信,定义了信息时代;“标记”将连接经验(记忆、推断)与理性(推理),定义AI时代 [67] - 无论大模型当前技术路径能否通向AGI,其已革命性提升了信息自动化处理能力,AI时代的大幕已经开启 [68]
大模型的第一性原理:(一)统计物理篇
机器之心· 2025-12-11 18:00
行业背景与核心问题 - 大模型领域在2022年底至2025年底经历了快速迭代,以ChatGPT、DeepSeek和Google的Gemini 3为代表,模型能力突飞猛进,仅在美国,AI领域的投资规模便超过了许多国家全年的GDP [2] - 业界普遍认为Gemini 3是迈向通用人工智能和超级人工智能的关键突破,但大模型的Scaling Law与摩尔定律类似,可能因物理限制而失效,因此理解大模型的第一性原理和界定其能力极限成为迫在眉睫的问题 [3] - 该研究旨在通过结合统计物理、信号处理与信息论,系统地揭示大模型背后的数学原理,以回答大模型是否已逼近其能力极限的问题 [3][4] 研究框架与核心结论 - 研究计划通过三篇文章系列解读论文,分别从统计物理、信号处理和信息论三个维度展开 [4] - 核心结论包括:大模型的推理是输出能量函数最小的下一个Token,训练则是逼近平均能量函数最小的参数组态;其能力极限是时间序列维度的Granger因果推断,因此Scaling Law会延续,但不会产生真正的符号化、概念抽象和逻辑推理能力 [8] - 研究并非否定大模型价值,而是探讨其第一性原理以界定能力极限并探索未来技术路径 [9] 神经网络与统计物理的渊源 - 2024年诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton,表彰其在人工神经网络机器学习方面的基础性发现与发明,凸显了神经网络与统计物理的深刻联系 [11] - Hopfield网络(1982年)和Boltzmann机(1985年)的提出均引入了统计物理中的能量模型,为AI研究奠定了基础 [12] - 物理学家Elizabeth Gardner(1988年)使用统计物理中的Spin Glass模型和Replica方法系统研究了Hopfield网络的记忆容量问题,该方法后来被用于研究大模型 [12] Attention模块的统计物理解释 - Attention模块可以用统计物理中的能量模型来描述,其能量函数定义为 $E_{A}(\mathbf{u}_{j})=-\,\langle\mathbf{u}_{i-1},\mathbf{B}\mathbf{u}_{j}\rangle$,注意力权重对应于Boltzmann分布 [18][19] - Attention机制的关键是学习一个组态B,使得语义相关性最高等价于能量函数最低,这与基于隐变量的变分推理解释相吻合 [21] - 双线性型是建模Token之间非对称语义关系的最简形式,而softmax函数是基于极大熵原理,在均值约束下熵最大的离散分布 [16][17] Transformer架构的统计物理解释 - 整个Transformer架构同样可以用能量模型描述,其能量函数定义为 $E_{T}(\mathbf{u}_{i})=-\left\langle\mathbf{u}_{i},\Psi_{\mathrm{FFN}}\left(\sum_{j=1}^{i-1}\pi_{i j}\mathbf{W}_{v}\mathbf{u}_{j}\right)\right\rangle$,即输入到softmax函数的Logits [25][26] - 大模型推理的本质是找到使能量函数最小的下一个Token,训练则是找到使训练集平均能量函数最小的参数组态 [28] - 词表在统计物理框架下对应配分函数求和的范围,在信息论中称为码本,在通信中体现为星座图 [28] 大模型的记忆容量 - 记忆容量研究源于Hopfield网络的Gardner容量,即网络能记住的随机模式数量 [12][30] - 对于Transformer,Attention模块的记忆容量随参数量的线性增加而指数增长,这解释了为什么参数量不大的小模型也能具备很强能力 [33] - 由于小模型记住的模式数量更接近其记忆容量上限,因此对其进行增训非常困难,容易导致模型崩塌 [33] - FFN模块被视为以参数化方式储存知识的关键位置,相关研究促进了无需增训的模型编辑技术的发展 [33] 大模型的泛化误差界 - 基于Transformer的能量模型形式,可以利用Rademacher复杂度和Talagrand不等式从理论上推导泛化误差上界 [35] - 交叉熵损失函数的上界核心取决于能量函数绝对值的和,即Logits的绝对值的和 [35] - 该结论表明,对大模型进行剪枝、蒸馏、量化等小型化操作时,必须谨慎控制这些操作对Logits的影响,因为它们直接决定了模型的泛化误差上界 [35] 大模型的能力本质与极限 - 大模型推理的本质是通过预测下一个Token,实现时间序列维度上的Granger因果推断 [38] - Granger因果定义了一种基于预测能力的时间顺序统计关系,但并非真正的因果关系 [38] - 因此,大模型的能力极限是时间序列维度的Granger因果推断,Scaling Law仍会延续,但模型不会从数据中自主抽象概念、符号化,也不具备真正的逻辑推理能力 [8][38] 相关技术发展与挑战 - Mamba/Mamba2等线性注意力机制虽降低计算量,但难以有效建模Token间的语义非对称性,导致模型能力打折,因此如Qwen3-Next等模型采用了混合注意力机制 [32] - 在保持语义非对称建模能力前提下降低计算复杂度是研究热点,DeepSeek-V3.2应用的DSA稀疏注意力机制是当前代表 [32] - 最优稀疏注意力可转化为一个为每个位置i求解的优化问题 [32] 续篇研究方向 - 第二篇将深入探讨向量自回归时间序列与大模型之间的深刻联系,将自然语言处理问题转化为信号处理问题 [43] - 第三篇将以信息论中的定向信息为核心,探讨与结构无关的、更抽象的大模型第一性原理 [43] - 信息论中的传递熵是衡量Granger因果性的工具,对于向量高斯自回归过程,传递熵与Granger因果等价,且传递熵是定向信息的有限长度版本 [40][41]
研发6G技术,赋能智慧转型
人民日报· 2025-11-04 15:40
6G智简技术核心观点 - 通信行业面临传统技术路径物理极限挑战,需要寻找新范式以满足AI时代需求 [1] - 6G智简技术通过引入AI构建语义通信系统,实现从“符号搬运”到“意图理解”的转变,提升效率并降低资源消耗 [1] - 该技术被视为通信范式变革的“新拐点”,旨在解决带宽需求与资源消耗的矛盾 [1][3] 理论基础与突破 - 构建了语义信息论新体系,阐明其与经典信息论的关系和差异,摆脱对西方传统理论的路径依赖 [2] - 理论已走向实践,建成国际首个面向6G的智能通信融合外场试验网,实现1200公里远距离语音语义短波通信 [2] - 研制出语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [2] 产业共识与标准化进展 - 6G智简方案已与多个运营商、设备商和学术机构达成全面共识 [2] - 相关场景需求及关键技术部分已被3GPP国际标准化组织接纳,开始在6G国际标准化中贡献中国方案 [2] 未来应用与产业赋能 - 成熟的6G智简网络将释放数据要素乘数效应,打破“数据孤岛”,实现跨域智能协同 [3] - 预计在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环 [3] - 推动6G系统从被动“信息传输”向主动“意图理解与资源协同”发展,加速学术创新到产业落地转化 [4]
迈向“十五五”的创新图景|研发6G技术,赋能智慧转型
人民日报· 2025-11-04 13:45
6G智简技术范式变革 - 通信技术发展面临传统路径物理极限挑战,需从“比特搬运工”范式向理解任务意图的范式转变 [2] - “6G智简”核心突破在于引入人工智能技术,构建端到端智能学习的语义通信系统,实现从“符号搬运”到精准理解任务意图的转化 [2] - 新范式大幅提升通信效率,并显著降低网络带宽与能源资源消耗 [2] 理论基础与技术突破 - 研究团队构建了语义信息论新体系,揭示了其与经典信息论的相互关系和本质差异,使中国6G研究摆脱对西方传统理论的路径依赖 [3] - 建成了国际首个面向6G智能通信融合外场试验网,实现了北京到西安1200公里语音语义短波通信的远距离测通 [3] - 研制了语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [3] 产业共识与国际标准化进展 - “6G智简”已与多个运营商、设备商和学术机构达成全面共识 [3] - 相关技术场景需求及关键技术部分已被全球移动通信标准制定组织3GPP接纳,开始在6G国际标准化中贡献中国方案 [3] 未来应用前景与产业赋能 - 成熟的“6G智简”网络将成为释放数据要素乘数效应的重要引擎,打破“数据孤岛” [4] - 技术将在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环,赋能千行百业智慧转型 [4] - 未来研发方向是推动6G系统从被动“信息传输”向主动“意图理解与资源协同”发展,加速学术创新到产业落地转化 [5]
研发6G技术 赋能智慧转型(迈向“十五五”的创新图景)
人民日报· 2025-11-04 06:47
6G智简技术核心观点 - 通信行业正面临传统技术路径逼近物理极限的挑战,6G发展需要寻找通信范式变革的新拐点 [1][4] - 6G智简技术通过引入人工智能构建语义通信系统,实现从“符号搬运”到“意图理解”的转变,旨在大幅提升通信效率并降低资源消耗 [1] - 该技术已从理论走向实践,建立了试验网并实现芯片和应用落地,开始在6G国际标准化中贡献中国方案 [2] 理论基础与突破 - 团队构建了语义信息论新体系,揭示了其与经典信息论的本质差异,使中国6G研究摆脱了对西方传统理论的路径依赖 [2] - 建成了国际首个面向6G智能通信融合的外场试验网,首次实现了北京到西安1200公里的语音语义短波通信远距离测通 [2] - 研制了语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [2] 产业合作与标准化进展 - 6G智简已与多个运营商、设备商和学术机构达成全面共识 [2] - 针对6G语义通信技术的场景需求及关键技术部分已被3GPP国际标准化组织接纳 [2] 未来应用与产业赋能 - 在十五五期间,成熟的6G智简网络将成为释放数据要素乘数效应的重要引擎,打破数据孤岛 [3] - 该技术预计将在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环,赋能千行百业智慧转型 [3] - 团队下一步将推动6G系统从被动的“信息传输”向主动的“意图理解与资源协同”发展,加速从学术创新到产业落地的转化 [4]
研发6G技术,赋能智慧转型(迈向“十五五”的创新图景)
人民日报· 2025-11-04 06:20
6G智简技术核心范式 - 通信范式从“比特搬运工”向精准理解任务意图的语义通信转变,实现从“符号搬运”到“意图理解”的变革 [1] - 通过在通信系统中引入人工智能技术,构建端到端智能学习的语义通信系统,大幅提升通信效率并显著降低网络带宽与能源消耗 [1] - 该技术旨在解决传统通信技术路径依赖频谱、能量堆叠已趋物理极限的问题,以满足人工智能时代万物智联对带宽的需求 [1][4] 理论基础与科研突破 - 团队构建了语义信息论新体系,揭示了其与经典信息论的相互关系和本质差异,使中国6G研究摆脱了对西方传统理论的路径依赖 [2] - 建成了国际首个面向6G智能通信的融合外场试验网,首次实现了从北京到西安1200公里语音语义短波通信的远距离测通 [2] - 研制了语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [2] 产业合作与标准化进展 - “6G智简”已与多个运营商、设备商和学术机构达成全面共识,并开始在6G国际标准化中贡献中国方案 [2] - 针对6G语义通信技术的场景需求及关键技术部分已被全球移动通信标准制定组织3GPP接纳 [2] 未来应用与产业影响 - 成熟的“6G智简”网络将成为释放数据要素乘数效应的重要引擎,打破“数据孤岛”,实现跨域、跨系统的智能协同 [3] - 预计将在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环,赋能千行百业智慧转型 [3] - 团队致力于推动6G系统从被动的“信息传输”向主动的“意图理解与资源协同”发展,加速技术从学术创新到产业落地的转化 [4]