Workflow
Rotary Position Embedding)
icon
搜索文档
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
机器之心· 2025-06-29 12:23
视觉语言模型的长上下文建模研究 - 视觉语言模型(VLM)在视觉问答和图像描述等任务表现卓越,但在长视频理解和检索等长上下文任务中仍有不足 [2] - 旋转位置编码(RoPE)在大语言模型中提升长度泛化能力,但如何有效扩展到多模态领域仍是开放问题 [2] - CMU与小红书团队首次提出多模态RoPE扩展策略的理论评估框架,发现保留所有频率会限制长上下文语义建模 [2][5] 现有方法的局限性 - 现有RoPE频率分配策略无法保证"语义偏好性质",即语义相近的Query-Key对应获得更高注意力 [7] - 时间维度使用高频率建模会导致长上下文中语义相近对的注意力分数低于无关对 [8] - 即使采用最低频率建模时间维度,在超过临界长度Lc=π/(2θmin)+1时仍会破坏语义偏好 [14][15] 混合位置编码(HoPE)创新 - 提出混合频率分配策略:时间维度采用无位置编码(NoPE),空间维度保留多模态位置编码 [17] - 动态缩放策略根据视频内容(如纪录片/动作片)调整时间编码缩放因子,增强对不同视频速度的鲁棒性 [20] - 理论证明HoPE能在任意长度下保持语义偏好性质,优于其他频率分配方案 [17][18] 实验验证 - 在长视频理解和检索多个benchmark中,HoPE在不同模型尺寸和测试长度下均达到最优表现 [22] - 论文与代码已公开在arXiv和GitHub平台,标题为《HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models》 [6]