AGI 新技术路线:下一代稀疏注意力机制 Monte Carlo Attention 开源
AI科技大本营·2025-11-10 09:03

文章核心观点 - 超对称技术公司在新版基座模型 BigBang-Proton 中引入了创新的 Monte Carlo 注意力机制,该机制通过二进制块编码和块间代表交流机制,实现了线性计算复杂度,并兼具稀疏注意力、状态空间和线性注意力的优点,同时规避了它们的缺点 [1] - Monte Carlo 注意力机制旨在解决宇宙尺度科学建模所需的超长上下文长度问题,其有效上下文长度可随层数呈指数级增长,理论上可达 10¹⁵⁰ 级别,远超当前大语言模型 10⁵-10⁶ 的限制 [2][3][30] - 该技术突破了传统 Transformer 的 O(L²) 计算复杂度瓶颈,降低至 O(L),并消除了训练中对 GPU 内存的依赖,可能减少收敛所需训练步数,对现有预训练技术和硬件设计具有深远影响 [3][4] 技术架构与核心组件 - BigBang-Proton 架构由三个核心组件构成:Binary Patch Encoding 的嵌入输入、Monte Carlo Attention 以及前馈时序卷积网络 [7][8] - Binary Patch Encoding 的输入词汇表包含 0-255 的字节值和三个特殊 token,总大小为 259,每个输入 token 通过 one-hot 编码转换为 259 维稀疏向量后投影到稠密嵌入空间 [8] - 前馈时序卷积网络取代了传统的前馈全连接网络,以捕捉局部空间和时间模式,其固有的卷积特性使模型无需使用显式位置嵌入 [8][37] Monte Carlo 注意力机制原理 - 核心创新是块间代表交流机制:输入嵌入被分组为特定大小的块,每个块随机或选择性地指定一个字节作为代表,与其他块交换信息 [12] - 通过 Delegate 操作和序列重组,信息在全局范围内流动,而计算复杂度仅取决于块大小的平方 O(P²),而非序列总长度 [12][13] - 有效上下文长度的递归关系为 C(N) = (P-1) × P^N + C(N-1),当块大小 P=32 时,第 1 层上下文长度可达 992,第 2 层可达 32,736,层数加深后呈指数增长 [14][15][30] 与传统注意力机制的对比优势 - 与稀疏注意力相比,Monte Carlo 注意力通过基于重组的机制避免了信息丢失和选择偏差问题,实现了更优的上下文长度复杂度 [40][42] - 与状态空间模型相比,该方法通过直接的全局信息交换避免了线性时不变性约束、低秩近似相关的精度损失以及数值不稳定问题 [43][44] - 与线性注意力相比,Monte Carlo 注意力在增强的局部-全局上下文中进行精确计算,保持了完整的注意力表达能力,避免了核函数映射导致的信息丢失 [44][45] 性能与效率提升 - 计算复杂度从 O(L²) 降低到 O(L),对于 10⁸ 的上下文长度,在块大小为 4 时,计算量减少 99.99%,速度提升高达 195,313 倍 [4][34] - 该方法无须分阶段训练即可实现理论上无限的上下文长度,并能训练比设备内存容量长多个数量级的序列,缓解了传统的批次处理约束 [3][4] - 引入了循环 Monte Carlo Attention 来解决迭代表征传播过程中可能的信息退化问题 [33][41]