循环模型

搜索文档
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 17:52
状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息,实现流式处理,而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer,即使后者使用更多计算资源,表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优,类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块,本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下,计算量仍随token增加而增长,无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token,在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合,实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长,包括RWKV、xLSTM等变体,共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力,预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习,而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担,当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案,存在改进空间以更好利用FLOP资源[87][88]
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
机器之心· 2025-07-08 12:09
循环模型与Transformer对比 - 线性循环模型(如Mamba)和线性注意力机制能处理极长序列,这是其相较于Transformer的关键优势,后者受限于二次计算复杂度和有限上下文窗口[1][2] - 过去循环模型在短序列任务中性能不如Transformer,但近期架构突破使其性能显著提升,已在音频建模、代码补全等工业场景中应用[3] 循环模型的长度泛化问题 - 循环模型在训练长度范围内表现良好,但超出训练长度时泛化能力明显下降,例如Mamba-2在超出训练范围的序列位置困惑度急剧恶化[4][5] - 现有循环模型在长序列和短序列两个维度均未显现明显优势,处于效率与性能的双重瓶颈[6] 长度泛化解决方案 - 通过500步后训练(占预训练预算0.1%)可使循环模型在256k长度序列实现泛化,证明其潜力未被充分释放[7] - 提出"未探索状态假说":循环模型失败主因是训练时未接触长序列递推产生的状态分布,导致对未知状态处理能力不足[13][14][15] - 四种初始状态干预方法:随机噪声、拟合噪声、状态传递(SP)、TBTT,其中SP与TBTT效果最佳,仅需原始预训练预算0.02%即可实现泛化[19][20][23][24] 干预方法的效果验证 - 在370M参数模型中,拟合噪声干预有效但随机噪声无效;1.3B大模型因状态依赖复杂,需更高级干预手段[25][26] - 干预措施能稳定状态范数增长,提升模型输出稳定性[27] - 在BABILong、密码检索、合成复制三项长上下文任务中,干预后模型表现显著提升,780M模型可完美解决256k序列密码检索任务[31][32][33][35][36][38][39] 上下文处理机制优化 - 提出"有效记忆(EffRem)"指标量化模型对历史token的依赖程度,发现未干预模型对早期token存在不合理依赖[44][45][46][48][49][50] - 状态传递干预后,模型有效记忆曲线呈现理想梯度,优先关注最近上下文,符合自然语言处理需求[51][52]