Workflow
语义信息论
icon
搜索文档
大模型的第一性原理:(一)统计物理篇
机器之心· 2025-12-11 18:00
行业背景与核心问题 - 大模型领域在2022年底至2025年底经历了快速迭代,以ChatGPT、DeepSeek和Google的Gemini 3为代表,模型能力突飞猛进,仅在美国,AI领域的投资规模便超过了许多国家全年的GDP [2] - 业界普遍认为Gemini 3是迈向通用人工智能和超级人工智能的关键突破,但大模型的Scaling Law与摩尔定律类似,可能因物理限制而失效,因此理解大模型的第一性原理和界定其能力极限成为迫在眉睫的问题 [3] - 该研究旨在通过结合统计物理、信号处理与信息论,系统地揭示大模型背后的数学原理,以回答大模型是否已逼近其能力极限的问题 [3][4] 研究框架与核心结论 - 研究计划通过三篇文章系列解读论文,分别从统计物理、信号处理和信息论三个维度展开 [4] - 核心结论包括:大模型的推理是输出能量函数最小的下一个Token,训练则是逼近平均能量函数最小的参数组态;其能力极限是时间序列维度的Granger因果推断,因此Scaling Law会延续,但不会产生真正的符号化、概念抽象和逻辑推理能力 [8] - 研究并非否定大模型价值,而是探讨其第一性原理以界定能力极限并探索未来技术路径 [9] 神经网络与统计物理的渊源 - 2024年诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton,表彰其在人工神经网络机器学习方面的基础性发现与发明,凸显了神经网络与统计物理的深刻联系 [11] - Hopfield网络(1982年)和Boltzmann机(1985年)的提出均引入了统计物理中的能量模型,为AI研究奠定了基础 [12] - 物理学家Elizabeth Gardner(1988年)使用统计物理中的Spin Glass模型和Replica方法系统研究了Hopfield网络的记忆容量问题,该方法后来被用于研究大模型 [12] Attention模块的统计物理解释 - Attention模块可以用统计物理中的能量模型来描述,其能量函数定义为 $E_{A}(\mathbf{u}_{j})=-\,\langle\mathbf{u}_{i-1},\mathbf{B}\mathbf{u}_{j}\rangle$,注意力权重对应于Boltzmann分布 [18][19] - Attention机制的关键是学习一个组态B,使得语义相关性最高等价于能量函数最低,这与基于隐变量的变分推理解释相吻合 [21] - 双线性型是建模Token之间非对称语义关系的最简形式,而softmax函数是基于极大熵原理,在均值约束下熵最大的离散分布 [16][17] Transformer架构的统计物理解释 - 整个Transformer架构同样可以用能量模型描述,其能量函数定义为 $E_{T}(\mathbf{u}_{i})=-\left\langle\mathbf{u}_{i},\Psi_{\mathrm{FFN}}\left(\sum_{j=1}^{i-1}\pi_{i j}\mathbf{W}_{v}\mathbf{u}_{j}\right)\right\rangle$,即输入到softmax函数的Logits [25][26] - 大模型推理的本质是找到使能量函数最小的下一个Token,训练则是找到使训练集平均能量函数最小的参数组态 [28] - 词表在统计物理框架下对应配分函数求和的范围,在信息论中称为码本,在通信中体现为星座图 [28] 大模型的记忆容量 - 记忆容量研究源于Hopfield网络的Gardner容量,即网络能记住的随机模式数量 [12][30] - 对于Transformer,Attention模块的记忆容量随参数量的线性增加而指数增长,这解释了为什么参数量不大的小模型也能具备很强能力 [33] - 由于小模型记住的模式数量更接近其记忆容量上限,因此对其进行增训非常困难,容易导致模型崩塌 [33] - FFN模块被视为以参数化方式储存知识的关键位置,相关研究促进了无需增训的模型编辑技术的发展 [33] 大模型的泛化误差界 - 基于Transformer的能量模型形式,可以利用Rademacher复杂度和Talagrand不等式从理论上推导泛化误差上界 [35] - 交叉熵损失函数的上界核心取决于能量函数绝对值的和,即Logits的绝对值的和 [35] - 该结论表明,对大模型进行剪枝、蒸馏、量化等小型化操作时,必须谨慎控制这些操作对Logits的影响,因为它们直接决定了模型的泛化误差上界 [35] 大模型的能力本质与极限 - 大模型推理的本质是通过预测下一个Token,实现时间序列维度上的Granger因果推断 [38] - Granger因果定义了一种基于预测能力的时间顺序统计关系,但并非真正的因果关系 [38] - 因此,大模型的能力极限是时间序列维度的Granger因果推断,Scaling Law仍会延续,但模型不会从数据中自主抽象概念、符号化,也不具备真正的逻辑推理能力 [8][38] 相关技术发展与挑战 - Mamba/Mamba2等线性注意力机制虽降低计算量,但难以有效建模Token间的语义非对称性,导致模型能力打折,因此如Qwen3-Next等模型采用了混合注意力机制 [32] - 在保持语义非对称建模能力前提下降低计算复杂度是研究热点,DeepSeek-V3.2应用的DSA稀疏注意力机制是当前代表 [32] - 最优稀疏注意力可转化为一个为每个位置i求解的优化问题 [32] 续篇研究方向 - 第二篇将深入探讨向量自回归时间序列与大模型之间的深刻联系,将自然语言处理问题转化为信号处理问题 [43] - 第三篇将以信息论中的定向信息为核心,探讨与结构无关的、更抽象的大模型第一性原理 [43] - 信息论中的传递熵是衡量Granger因果性的工具,对于向量高斯自回归过程,传递熵与Granger因果等价,且传递熵是定向信息的有限长度版本 [40][41]
研发6G技术,赋能智慧转型
人民日报· 2025-11-04 15:40
6G智简技术核心观点 - 通信行业面临传统技术路径物理极限挑战,需要寻找新范式以满足AI时代需求 [1] - 6G智简技术通过引入AI构建语义通信系统,实现从“符号搬运”到“意图理解”的转变,提升效率并降低资源消耗 [1] - 该技术被视为通信范式变革的“新拐点”,旨在解决带宽需求与资源消耗的矛盾 [1][3] 理论基础与突破 - 构建了语义信息论新体系,阐明其与经典信息论的关系和差异,摆脱对西方传统理论的路径依赖 [2] - 理论已走向实践,建成国际首个面向6G的智能通信融合外场试验网,实现1200公里远距离语音语义短波通信 [2] - 研制出语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [2] 产业共识与标准化进展 - 6G智简方案已与多个运营商、设备商和学术机构达成全面共识 [2] - 相关场景需求及关键技术部分已被3GPP国际标准化组织接纳,开始在6G国际标准化中贡献中国方案 [2] 未来应用与产业赋能 - 成熟的6G智简网络将释放数据要素乘数效应,打破“数据孤岛”,实现跨域智能协同 [3] - 预计在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环 [3] - 推动6G系统从被动“信息传输”向主动“意图理解与资源协同”发展,加速学术创新到产业落地转化 [4]
迈向“十五五”的创新图景|研发6G技术,赋能智慧转型
人民日报· 2025-11-04 13:45
6G智简技术范式变革 - 通信技术发展面临传统路径物理极限挑战,需从“比特搬运工”范式向理解任务意图的范式转变 [2] - “6G智简”核心突破在于引入人工智能技术,构建端到端智能学习的语义通信系统,实现从“符号搬运”到精准理解任务意图的转化 [2] - 新范式大幅提升通信效率,并显著降低网络带宽与能源资源消耗 [2] 理论基础与技术突破 - 研究团队构建了语义信息论新体系,揭示了其与经典信息论的相互关系和本质差异,使中国6G研究摆脱对西方传统理论的路径依赖 [3] - 建成了国际首个面向6G智能通信融合外场试验网,实现了北京到西安1200公里语音语义短波通信的远距离测通 [3] - 研制了语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [3] 产业共识与国际标准化进展 - “6G智简”已与多个运营商、设备商和学术机构达成全面共识 [3] - 相关技术场景需求及关键技术部分已被全球移动通信标准制定组织3GPP接纳,开始在6G国际标准化中贡献中国方案 [3] 未来应用前景与产业赋能 - 成熟的“6G智简”网络将成为释放数据要素乘数效应的重要引擎,打破“数据孤岛” [4] - 技术将在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环,赋能千行百业智慧转型 [4] - 未来研发方向是推动6G系统从被动“信息传输”向主动“意图理解与资源协同”发展,加速学术创新到产业落地转化 [5]
研发6G技术 赋能智慧转型(迈向“十五五”的创新图景)
人民日报· 2025-11-04 06:47
6G智简技术核心观点 - 通信行业正面临传统技术路径逼近物理极限的挑战,6G发展需要寻找通信范式变革的新拐点 [1][4] - 6G智简技术通过引入人工智能构建语义通信系统,实现从“符号搬运”到“意图理解”的转变,旨在大幅提升通信效率并降低资源消耗 [1] - 该技术已从理论走向实践,建立了试验网并实现芯片和应用落地,开始在6G国际标准化中贡献中国方案 [2] 理论基础与突破 - 团队构建了语义信息论新体系,揭示了其与经典信息论的本质差异,使中国6G研究摆脱了对西方传统理论的路径依赖 [2] - 建成了国际首个面向6G智能通信融合的外场试验网,首次实现了北京到西安1200公里的语音语义短波通信远距离测通 [2] - 研制了语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [2] 产业合作与标准化进展 - 6G智简已与多个运营商、设备商和学术机构达成全面共识 [2] - 针对6G语义通信技术的场景需求及关键技术部分已被3GPP国际标准化组织接纳 [2] 未来应用与产业赋能 - 在十五五期间,成熟的6G智简网络将成为释放数据要素乘数效应的重要引擎,打破数据孤岛 [3] - 该技术预计将在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环,赋能千行百业智慧转型 [3] - 团队下一步将推动6G系统从被动的“信息传输”向主动的“意图理解与资源协同”发展,加速从学术创新到产业落地的转化 [4]
研发6G技术,赋能智慧转型(迈向“十五五”的创新图景)
人民日报· 2025-11-04 06:20
6G智简技术核心范式 - 通信范式从“比特搬运工”向精准理解任务意图的语义通信转变,实现从“符号搬运”到“意图理解”的变革 [1] - 通过在通信系统中引入人工智能技术,构建端到端智能学习的语义通信系统,大幅提升通信效率并显著降低网络带宽与能源消耗 [1] - 该技术旨在解决传统通信技术路径依赖频谱、能量堆叠已趋物理极限的问题,以满足人工智能时代万物智联对带宽的需求 [1][4] 理论基础与科研突破 - 团队构建了语义信息论新体系,揭示了其与经典信息论的相互关系和本质差异,使中国6G研究摆脱了对西方传统理论的路径依赖 [2] - 建成了国际首个面向6G智能通信的融合外场试验网,首次实现了从北京到西安1200公里语音语义短波通信的远距离测通 [2] - 研制了语义通信芯片,语义视频彩铃已在中国移动实现大规模应用 [2] 产业合作与标准化进展 - “6G智简”已与多个运营商、设备商和学术机构达成全面共识,并开始在6G国际标准化中贡献中国方案 [2] - 针对6G语义通信技术的场景需求及关键技术部分已被全球移动通信标准制定组织3GPP接纳 [2] 未来应用与产业影响 - 成熟的“6G智简”网络将成为释放数据要素乘数效应的重要引擎,打破“数据孤岛”,实现跨域、跨系统的智能协同 [3] - 预计将在智能交通、远程医疗、工业互联网等领域形成“技术突破—数据流通—产业升级”的正向循环,赋能千行百业智慧转型 [3] - 团队致力于推动6G系统从被动的“信息传输”向主动的“意图理解与资源协同”发展,加速技术从学术创新到产业落地的转化 [4]