大模型的第一性原理:(二)信号处理篇
机器之心·2026-01-30 16:49

文章核心观点 - 大语言模型的本质是将自然语言处理问题转换为信号处理问题,其核心在于将Token向量化,并在语义向量空间中通过内积等数值计算来建模语义相关性 [2] - 大模型通过预测下一个Token的训练目标,其本质是逼近人类水平的Granger因果推断 [30] - 从信息论角度看,大模型的最优语义编码问题可以归结为对定向信息(特别是倒向定向信息)的优化,而当前广泛应用的对比预测编码(CPC)算法是其上界的一种逼近 [15][18] - 从时间序列分析角度看,Transformer架构是一种非线性时变向量自回归模型 [23][28] - 信息论与计算理论通过“比特”(BIT)连接,而在AI时代,其核心概念正转变为“Token”(TOKEN) [33][36] 语义向量化与语义空间 - Token的语义嵌入(向量化)将自然语言处理转换为可进行数值计算的信号处理问题,从而能够定义内积来表示语义相关性,大幅降低计算复杂度 [2] - 一个Token的语义由定义在所有Token集合Ω上的概率分布描述,语义空间可建模为该概率空间,而语义向量空间则可定义为M维空间中的单位球面S^(M-1) [7] - 语义向量空间中,单个向量本身无意义,其与所有其他向量的内积(相对关系)才代表语义,这与经典信源编码有本质区别 [8] - 衡量两个语义向量空间(如不同语言)的结构差异,可使用基于最优传输理论的Gromov-Wasserstein距离 [8] - 语义向量空间存在最优压缩区间(甜点维数),Johnson-Lindenstrauss (JL) 引理为通过线性变换降维同时控制内积误差提供了数学原理 [10][11] 最优语义编码与信息论原理 - 针对预测下一个Token的任务,最优语义编码器是最大化条件互信息 I(X_{i+1:n}; S_i | S_{1:i-1}) 的解 [13] - Google DeepMind团队提出的对比预测编码(CPC)算法,其优化的目标实际上是上述最优问题上界的一个变分下界(InfoNCE) [15] - 从信息论角度看,最优语义编码问题等价于最大化从未来Token序列到当前语义向量序列的“倒向定向信息” [18] - 定向信息及其倒向形式的计算和估计非常困难,这解释了CPC等现有方法选择优化其近似下界的原因 [19] Transformer的信号处理本质 - Transformer的注意力(Attention)机制在数学上可表述为一个非线性时变向量自回归时间序列模型 [21][23] - 注意力权重的计算基于双线性型和非线性softmax函数,体现了模型的时变性和非线性 [22][28] - 前馈神经网络(FFN)层被认为是大模型储存知识的关键位置,注意力模块的输出用于激活FFN中匹配的记忆模式 [24] - Transformer可视为更普遍的非线性时变向量自回归模型的特例,对其核心组件(如注意力矩阵A_ij和非线性函数Ψ)进行不同分解或修改,可推导出如Mamba等新架构 [29] 信号处理、信息论与计算理论的统一视角 - 信号处理是信息论原理在具体计算架构下的工程实现,它将抽象的符号信息表示为向量以进行数值计算 [32] - 计算理论(关注时间复杂度)与信息论(关注速率极限)的基本操作单位都是“比特”(BIT),BIT是连接计算与通信两大领域的桥梁 [33] - 在AI时代,信息论的基础性作用依然存在,但其核心概念正从“比特”转变为“Token”,这为理解大模型背后的数学原理提供了新的框架 [36]