Workflow
长度泛化
icon
搜索文档
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
机器之心· 2025-07-08 12:09
循环模型与Transformer对比 - 线性循环模型(如Mamba)和线性注意力机制能处理极长序列,这是其相较于Transformer的关键优势,后者受限于二次计算复杂度和有限上下文窗口[1][2] - 过去循环模型在短序列任务中性能不如Transformer,但近期架构突破使其性能显著提升,已在音频建模、代码补全等工业场景中应用[3] 循环模型的长度泛化问题 - 循环模型在训练长度范围内表现良好,但超出训练长度时泛化能力明显下降,例如Mamba-2在超出训练范围的序列位置困惑度急剧恶化[4][5] - 现有循环模型在长序列和短序列两个维度均未显现明显优势,处于效率与性能的双重瓶颈[6] 长度泛化解决方案 - 通过500步后训练(占预训练预算0.1%)可使循环模型在256k长度序列实现泛化,证明其潜力未被充分释放[7] - 提出"未探索状态假说":循环模型失败主因是训练时未接触长序列递推产生的状态分布,导致对未知状态处理能力不足[13][14][15] - 四种初始状态干预方法:随机噪声、拟合噪声、状态传递(SP)、TBTT,其中SP与TBTT效果最佳,仅需原始预训练预算0.02%即可实现泛化[19][20][23][24] 干预方法的效果验证 - 在370M参数模型中,拟合噪声干预有效但随机噪声无效;1.3B大模型因状态依赖复杂,需更高级干预手段[25][26] - 干预措施能稳定状态范数增长,提升模型输出稳定性[27] - 在BABILong、密码检索、合成复制三项长上下文任务中,干预后模型表现显著提升,780M模型可完美解决256k序列密码检索任务[31][32][33][35][36][38][39] 上下文处理机制优化 - 提出"有效记忆(EffRem)"指标量化模型对历史token的依赖程度,发现未干预模型对早期token存在不合理依赖[44][45][46][48][49][50] - 状态传递干预后,模型有效记忆曲线呈现理想梯度,优先关注最近上下文,符合自然语言处理需求[51][52]
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 23:45
长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战:主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题,以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效,更涉及AGI核心问题——构建具有永久记忆的智能体,这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制,模拟人类开卷考试模式,通过因果检索注意力实现端到端学习,仅关注相关历史片段,显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制:分组注意力收集各chunk信息,chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力,前者负责长程检索后者处理短程信息,通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比,GCA让检索分参与前向运算获得梯度,实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化,16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长,推理显存接近常数且速度持平Transformers,CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力,能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案,GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补:GCA侧重长度泛化,NSA优化稀疏attention,后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源,论文被ICML 2025接收[3][11] - 尽管实验规模较小,但为机器永久记忆机制提供新思路,首次实现16M长度完美信息检索[23]