Workflow
长视频理解
icon
搜索文档
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 11:26
背景介绍 - 旋转位置编码(RoPE)及其变体在长上下文处理中广泛应用,但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性,这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER,其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系,包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V,仅在低频时间轴插值并保持空间维度稳定性,实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配(LTA)减少振荡确保鲁棒性,对角布局(DL)保持空间对称性,可调时间间隔(ATS)控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模,M-RoPE采用3D结构但引入不同帧间视觉标记索引差异,VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中,空间信息具有局部性和周期性,时间信息跨越更长范围,YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比,VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果 长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体,Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上,VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上,YaRN-V以81.33分显著领先,较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐,避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 13:21
核心观点 - 国产开源模型Video-XL-2在长视频理解领域取得突破性进展,支持单张显卡处理万帧视频输入,编码2048帧视频仅需12秒 [1][9][24] - Video-XL-2在效果、长度、速度三方面全面超越上一代Video-XL,达到开源轻量级模型的SOTA水平 [3][9][15] - 模型采用四阶段渐进式训练和双粒度KV解码等创新技术,显著提升计算效率和显存利用率 [8][11][13] 技术架构 - 核心组件包括视觉编码器SigLIP-SO400M、动态Token合成模块DTS和大语言模型Qwen2.5-Instruct,实现跨模态对齐与语义推理 [4][6] - 视觉编码器逐帧处理视频,DTS模块融合时序特征,最终通过MLP映射至文本嵌入空间 [6] 性能突破 - 评测表现:在MLVU(74.9)、VideoMME(66.8)、LVBench(48.6)、Charades-STA(73.0)等基准超越720亿参数大模型 [17][18] - 处理长度:单张80GB显卡支持万帧视频输入,24GB显卡支持千帧处理 [19][23] - 运算效率:2048帧视频预填充仅12秒,时间与帧数呈线性增长关系 [24][26] 应用场景 - 适用于影视内容分析、监控异常检测(如肢体冲突识别)、剧情问答等复杂视频理解任务 [28][30][32] - 示例显示模型可准确回答细节问题(如"红色电话"识别)和宏观事件判断(如"顾客与店员冲突") [30][32] 资源开放 - 模型权重、技术报告及代码已在Hugging Face和GitHub平台开源 [33]
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 12:06
技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
量子位· 2025-03-27 12:16
模型架构创新 - 提出Mamba-Transformer混合架构Vamba模型 通过改进架构设计而非压缩视频token来提升处理效率 [1][2] - 将传统因果自注意力分解为文本交叉注意力+视频Mamba-2模块的双路径设计 计算复杂度从二次降至线性 [7] - Mamba-2模块采用选择性扫描机制 在更新视频token时保持全局序列信息检索能力 [7] 性能突破 - 同等硬件下视频帧处理能力达传统Transformer的4倍 训练内存消耗降低超50% [4] - 单步训练速度实现翻倍提升 在128帧以上长视频场景运行时间与显存需求下降超50% [4][9] - LVBench长视频理解基准性能提升4.3% 完整保留原始视频时空特征避免信息丢失 [5][10] 技术实现细节 - 视频编码采用CLIP/SigLIP编码器 每帧转换为196个token 512帧视频对应10万token量级 [6] - 文本处理保留因果自注意力机制 通过交叉注意力实现视觉-语义对齐 [7] - 开源代码库包含模型权重(Qwen2-VL-7B)、训练推理脚本及7B参数规模预训练模型 [11] 应用场景优势 - 支持128帧以上超长视频理解 准确描述内容并回答用户提问 [9] - 在中短时长视频任务中同样展现竞争力 覆盖全视频时长区间的基准测试 [10] - 研究团队来自滑铁卢大学、多伦多大学及零一万物等机构 产学研协同创新 [2]