Workflow
Vamba模型
icon
搜索文档
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
量子位· 2025-03-27 12:16
模型架构创新 - 提出Mamba-Transformer混合架构Vamba模型 通过改进架构设计而非压缩视频token来提升处理效率 [1][2] - 将传统因果自注意力分解为文本交叉注意力+视频Mamba-2模块的双路径设计 计算复杂度从二次降至线性 [7] - Mamba-2模块采用选择性扫描机制 在更新视频token时保持全局序列信息检索能力 [7] 性能突破 - 同等硬件下视频帧处理能力达传统Transformer的4倍 训练内存消耗降低超50% [4] - 单步训练速度实现翻倍提升 在128帧以上长视频场景运行时间与显存需求下降超50% [4][9] - LVBench长视频理解基准性能提升4.3% 完整保留原始视频时空特征避免信息丢失 [5][10] 技术实现细节 - 视频编码采用CLIP/SigLIP编码器 每帧转换为196个token 512帧视频对应10万token量级 [6] - 文本处理保留因果自注意力机制 通过交叉注意力实现视觉-语义对齐 [7] - 开源代码库包含模型权重(Qwen2-VL-7B)、训练推理脚本及7B参数规模预训练模型 [11] 应用场景优势 - 支持128帧以上超长视频理解 准确描述内容并回答用户提问 [9] - 在中短时长视频任务中同样展现竞争力 覆盖全视频时长区间的基准测试 [10] - 研究团队来自滑铁卢大学、多伦多大学及零一万物等机构 产学研协同创新 [2]