Workflow
RoPE
icon
搜索文档
把RoPE扔掉,AI更能看懂长上下文,Transformer作者团队开源大模型预训练新方法
36氪· 2026-01-13 19:01
核心技术:DroPE - 针对Transformer模型长文本处理难题,由Llion Jones领导的Sakana AI团队开源了新技术DroPE [1] - DroPE被网友称为“NoRoPE”,其核心是一种通过丢弃位置嵌入来扩展上下文的方法 [3] - 该技术无需昂贵的长上下文训练即可实现零样本上下文扩展,且重新校准模型所需预训练预算不到1% [1] 技术原理与优势 - Transformer的自注意力机制会丢失文本序列的位置关系,需引入位置嵌入(如RoPE)来建立语序感知 [4][5] - RoPE在处理长序列时存在缺陷,高频维度易饱和,低频维度变化过慢,导致位置编码失效 [5] - DroPE将RoPE作为临时训练工具,在预训练阶段借助RoPE保证稳定性,在推理阶段丢弃位置嵌入并进行简短重校准,从而解锁模型的长上下文外推能力 [8] 性能表现 - 在LongBench基准测试中,DroPE将基础SmolLM模型(360M/1.7B)的平均得分提高了10倍以上 [10] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法 [10] - 对于7B参数的Llama2-7B模型,仅使用0.5%的预训练预算进行重校准,DroPE在长上下文任务中表现卓越 [11] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的平均得分为30.52,显著高于使用RoPE-NTK(17.11)和YaRN(19.94)的版本 [11] - 在Llama2-7B模型上,DroPE在MultiFieldQA、MuSiQue、GovReport任务上的平均得分为26.08,高于基础模型(20.03)及RoPE-NTK(21.88)、YaRN(19.14)方法 [13] 研发公司背景 - DroPE技术由Sakana AI提出,该公司由Transformer架构核心作者之一Llion Jones和前谷歌高级科学家David Ha创办 [14] - Sakana AI曾获得英伟达的投资,并因推出首个自带10篇完整学术论文的“AI科学家”The AI Scientist而受到关注 [16] - 近期,Sakana AI还与MIT研究团队合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,其研究成果可能为网络安全、药物设计等领域提供参考 [18][20]
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
机器之心· 2026-01-02 09:55
文章核心观点 - 由Jürgen Schmidhuber团队提出的新型位置嵌入方法PoPE,通过解耦内容(what)与位置(where)信息,解决了当前主流方法RoPE中两者纠缠的问题,从而在多项任务中实现了更优的模型性能[1][9] RoPE的问题分析 - RoPE是Llama 3、DeepSeek-v3、Gemma 3和Qwen3等前沿模型的首选位置编码方法,它通过旋转键和查询的二维分量来编码相对位置信息[5] - 在极坐标表示下,RoPE的注意力分数公式显示,键和查询都混淆了特征存在与否的信息(what)和相对位置信息(where),这种纠缠被假设会损害模型性能[8][9] PoPE解决方案 - PoPE将键和查询转换为d元素复向量,其幅值通过softplus函数确保非负,相位则仅取决于位置,从而实现了内容与位置的解耦[12][13] - PoPE的注意力分数计算消除了RoPE中导致键和查询影响相位的交互项,并可引入一个可学习的偏置项来调整最佳相对偏移[13] - 该方案通过定制的Triton内核实现,相比标准Flash Attention仅需额外一次乘法,虽然当前通用变体内存开销较大,但可通过优化降低[14] 模型性能表现 - **间接索引任务**:RoPE平均准确率仅为11.16%,而PoPE达到94.82%,显示出PoPE在分离内容和位置信息上的显著优势[18][19] - **音乐与基因组序列建模**:在JSB和MAESTRO音乐数据集上,PoPE的负对数似然(NLL)均低于RoPE;在人类参考基因组数据集上,PoPE的NLL(4.152)也显著低于RoPE基线(4.217)[20][22][23] - **语言建模**:在OpenWebText数据集上,124M、253M和774M三种模型规模的测试中,PoPE的困惑度均始终低于RoPE[25][26] - **下游零样本任务**:在LAMBADA、Blimp、CBT、HellaSwag、PIQA和ARC-E六项任务中,PoPE在所有模型规模下的平均准确率均高于RoPE[27][28] - **长度外推能力**:在1024个token上训练,于长达10240个token的序列上评估时,RoPE性能显著下降,而PoPE显示出强大的开箱即用外推能力,优于专门的基线模型YaRN,且其外推性能随模型规模增加保持稳定,而RoPE则恶化[29][31][32]