把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法
量子位·2026-01-13 17:50

技术核心:DroPE方法 - 针对Transformer模型处理长文本的难题,由核心作者Llion Jones领导的团队开源了名为DroPE的新技术[1] - 该方法无需昂贵的长上下文训练,即可实现无缝的零样本上下文扩展[2] - 使用DroPE对模型进行重新校准所需的预训练预算不到1%[2] - DroPE可被理解为一种通过丢弃位置嵌入来扩展上下文的方法,被网友称为“NoRoPE”[4][5] 技术原理:位置嵌入与创新 - Transformer的自注意力机制在并行计算时会丢失文本序列的位置关系[6][7] - 为解决此问题引入了位置嵌入,其中RoPE是当前流行的方法,但它存在长序列处理缺陷[9][10] - DroPE的创新在于将RoPE作为临时训练工具:在预训练阶段借助RoPE保证稳定性,在推理阶段则丢弃位置嵌入并进行简短重校准[12][13][14] - 该方法成功解锁了模型的长上下文外推能力,实现了零样本扩展[15][16] 实验验证与性能表现 - 研究团队在多种模型上进行了实验,包括5M参数模型、SmolLM家族模型以及7B参数的Llama2-7B[17] - 在LongBench基准测试中,DroPE将基础SmolLM的平均得分提高了10倍以上[18] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法[19] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的得分分别为29.33、7.93、21.87、18.56、74.92,平均分为30.52,显著高于其他方法[19] - 在Llama2-7B模型上,仅使用0.5%的预训练预算进行重校准后,DroPE在多项任务中表现卓越,平均得分达26.08,优于Base、RoPE-NTK和YaRN方法[23] 研发团队:Sakana AI - DroPE技术由Sakana AI团队提出,该公司由Transformer架构作者之一的Llion Jones和前谷歌高级科学家David Ha创办[24] - 该公司此前因创造出首个自带10篇完整学术论文的“AI科学家”而受到关注,并获得英伟达的投资[26] - 团队近期还与MIT合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,显示出在网络安全、药物设计等领域的潜在应用价值[28][31][32]

把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法 - Reportify