未探索状态假说 - 财报，业绩电话会，研报，新闻

未探索状态假说

搜索文档

Transformer死角，只需500步后训练，循环模型突破256k长度泛化极限

机器之心· 2025-07-08 12:09

循环模型与Transformer对比 - 线性循环模型（如Mamba）和线性注意力机制能处理极长序列，这是其相较于Transformer的关键优势，后者受限于二次计算复杂度和有限上下文窗口[1][2] - 过去循环模型在短序列任务中性能不如Transformer，但近期架构突破使其性能显著提升，已在音频建模、代码补全等工业场景中应用[3] 循环模型的长度泛化问题 - 循环模型在训练长度范围内表现良好，但超出训练长度时泛化能力明显下降，例如Mamba-2在超出训练范围的序列位置困惑度急剧恶化[4][5] - 现有循环模型在长序列和短序列两个维度均未显现明显优势，处于效率与性能的双重瓶颈[6] 长度泛化解决方案 - 通过500步后训练（占预训练预算0.1%）可使循环模型在256k长度序列实现泛化，证明其潜力未被充分释放[7] - 提出"未探索状态假说"：循环模型失败主因是训练时未接触长序列递推产生的状态分布，导致对未知状态处理能力不足[13][14][15] - 四种初始状态干预方法：随机噪声、拟合噪声、状态传递（SP）、TBTT，其中SP与TBTT效果最佳，仅需原始预训练预算0.02%即可实现泛化[19][20][23][24] 干预方法的效果验证 - 在370M参数模型中，拟合噪声干预有效但随机噪声无效；1.3B大模型因状态依赖复杂，需更高级干预手段[25][26] - 干预措施能稳定状态范数增长，提升模型输出稳定性[27] - 在BABILong、密码检索、合成复制三项长上下文任务中，干预后模型表现显著提升，780M模型可完美解决256k序列密码检索任务[31][32][33][35][36][38][39] 上下文处理机制优化 - 提出"有效记忆（EffRem）"指标量化模型对历史token的依赖程度，发现未干预模型对早期token存在不合理依赖[44][45][46][48][49][50] - 状态传递干预后，模型有效记忆曲线呈现理想梯度，优先关注最近上下文，符合自然语言处理需求[51][52]

Artificial Intelligence

Artificial Intelligence