Self - Attention
搜索文档
把RoPE扔掉,AI更能看懂长上下文,Transformer作者团队开源大模型预训练新方法
36氪· 2026-01-13 19:01
核心技术:DroPE - 针对Transformer模型长文本处理难题,由Llion Jones领导的Sakana AI团队开源了新技术DroPE [1] - DroPE被网友称为“NoRoPE”,其核心是一种通过丢弃位置嵌入来扩展上下文的方法 [3] - 该技术无需昂贵的长上下文训练即可实现零样本上下文扩展,且重新校准模型所需预训练预算不到1% [1] 技术原理与优势 - Transformer的自注意力机制会丢失文本序列的位置关系,需引入位置嵌入(如RoPE)来建立语序感知 [4][5] - RoPE在处理长序列时存在缺陷,高频维度易饱和,低频维度变化过慢,导致位置编码失效 [5] - DroPE将RoPE作为临时训练工具,在预训练阶段借助RoPE保证稳定性,在推理阶段丢弃位置嵌入并进行简短重校准,从而解锁模型的长上下文外推能力 [8] 性能表现 - 在LongBench基准测试中,DroPE将基础SmolLM模型(360M/1.7B)的平均得分提高了10倍以上 [10] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法 [10] - 对于7B参数的Llama2-7B模型,仅使用0.5%的预训练预算进行重校准,DroPE在长上下文任务中表现卓越 [11] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的平均得分为30.52,显著高于使用RoPE-NTK(17.11)和YaRN(19.94)的版本 [11] - 在Llama2-7B模型上,DroPE在MultiFieldQA、MuSiQue、GovReport任务上的平均得分为26.08,高于基础模型(20.03)及RoPE-NTK(21.88)、YaRN(19.14)方法 [13] 研发公司背景 - DroPE技术由Sakana AI提出,该公司由Transformer架构核心作者之一Llion Jones和前谷歌高级科学家David Ha创办 [14] - Sakana AI曾获得英伟达的投资,并因推出首个自带10篇完整学术论文的“AI科学家”The AI Scientist而受到关注 [16] - 近期,Sakana AI还与MIT研究团队合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,其研究成果可能为网络安全、药物设计等领域提供参考 [18][20]