Workflow
傅里叶位置编码(FoPE)
icon
搜索文档
ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
机器之心· 2025-05-08 13:51
语言模型长文本处理能力研究 核心观点 - 旋转位置编码(RoPE)的周期性特性理论上可帮助语言模型实现长文本泛化 但实际应用中仍存在外推限制 主要原因是频谱损坏破坏了周期延拓的有效性 [1][4] - 清华大学团队提出傅里叶位置编码(FoPE) 通过傅里叶级数建模和低频分量裁剪 显著提升Transformer模型的长文本泛化能力 [16][17] 频谱损坏机制分析 - 频谱损坏三大来源:线性层导致各维度频率分量混杂 激活函数产生频率线性组合 时域截断造成主频强度扩散 [7][9][11][13] - 实验显示RoPE在超过8k文本长度时性能显著下降 如GovReport数据集8k+文本困惑度达12.02 而FoPE提升至12.38 [19] FoPE技术创新 - 采用傅里叶级数建模 利用三角函数正交性解码混杂频率信息 将极低频分量转为直流分量以保持周期特性 [17] - 在TREC数据集8k+文本任务中 FoPE准确率较RoPE提升15个百分点(36%→51%) 展现显著优势 [19] 应用前景 - 技术可延伸至长视频生成、kv-cache压缩等领域 在语义通信和脑机接口等跨学科场景具潜在价值 [21] - 在MultiNews数据集4-8k文本段 FoPE困惑度改善1.87点(11.11→12.98) 验证算法稳定性 [19]