旋转位置编码（RoPE）

搜索文档

ICML 2025 Oral工作再升级！上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

机器之心· 2025-07-03 11:26

背景介绍 - 旋转位置编码（RoPE）及其变体在长上下文处理中广泛应用，但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性，这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER，其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系，包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V，仅在低频时间轴插值并保持空间维度稳定性，实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配（LTA）减少振荡确保鲁棒性，对角布局（DL）保持空间对称性，可调时间间隔（ATS）控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模，M-RoPE采用3D结构但引入不同帧间视觉标记索引差异，VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中，空间信息具有局部性和周期性，时间信息跨越更长范围，YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比，VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体，Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上，VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上，YaRN-V以81.33分显著领先，较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐，避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准：2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]

ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码，多项任务远超RoPE

机器之心· 2025-05-08 13:51

语言模型长文本处理能力研究核心观点 - 旋转位置编码(RoPE)的周期性特性理论上可帮助语言模型实现长文本泛化但实际应用中仍存在外推限制主要原因是频谱损坏破坏了周期延拓的有效性 [1][4] - 清华大学团队提出傅里叶位置编码(FoPE) 通过傅里叶级数建模和低频分量裁剪显著提升Transformer模型的长文本泛化能力 [16][17] 频谱损坏机制分析 - 频谱损坏三大来源：线性层导致各维度频率分量混杂激活函数产生频率线性组合时域截断造成主频强度扩散 [7][9][11][13] - 实验显示RoPE在超过8k文本长度时性能显著下降如GovReport数据集8k+文本困惑度达12.02 而FoPE提升至12.38 [19] FoPE技术创新 - 采用傅里叶级数建模利用三角函数正交性解码混杂频率信息将极低频分量转为直流分量以保持周期特性 [17] - 在TREC数据集8k+文本任务中 FoPE准确率较RoPE提升15个百分点(36%→51%) 展现显著优势 [19] 应用前景 - 技术可延伸至长视频生成、kv-cache压缩等领域在语义通信和脑机接口等跨学科场景具潜在价值 [21] - 在MultiNews数据集4-8k文本段 FoPE困惑度改善1.87点(11.11→12.98) 验证算法稳定性 [19]

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

机器之心· 2025-05-06 12:11

大型语言模型自注意力机制研究核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值，而值(V)表示无此现象，该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性，与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma)，未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃： - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小：城市类任务保持76-88%准确率，名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值：AWQ和SmoothQuant方法能有效保持上下文理解能力，普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源，其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响，优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术，平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性，拓展至多模态等新领域[16]