Workflow
Reconstructive Token Compression
icon
搜索文档
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
量子位· 2025-05-04 12:08
文章核心观点 - 上海交通大学等联合团队推出的Video - XL - Pro模型,采用创新技术,用较少训练数据使3B参数模型性能超越多数7B模型,在多基准评测表现优异,有望在长视频理解场景广泛应用且已开源 [1][20][22] 模型结构 - 核心是重构性token压缩技术(ReCoT),通过自监督学习生成视频token提升理解效率和质量 [4] - ReCoT包含动态token合成器(DTS)和语义引导掩码(SGM),DTS压缩token捕捉动态运动,SGM减少冗余优化重构学习 [5] - 引入查询选择器,使输入上下文超限时能选择性关注相关片段 [7] - 提出视频数据集剪枝策略,筛选高质量数据降低计算成本并保障性能 [8][9] 评测基准 - 选用LongVideoBench、MLVU、Video - MME、TempCompass和VNbench等评测长视频理解任务 [10] - MLVU、VideoMME、LongVideoBench评测长视频理解能力,VNbench兼顾长短视频,TempCompass评测时间理解能力 [11][12] - Video - XL - Pro在多个主流长视频评测基准表现卓越,在MLVU的Dev、Test及TempCompass获第一,超越同参和7B模型;在VideoMME、LongVideoBench超越多数同参模型;在VNbench有竞争力,且使用较少SFT数据 [13][14][16] - 进行视频「大海捞针」测试,得益于ReCot模块和查询选择器,以8192帧为输入准确率近99% [17][18] 时间理解 - 选用Charades - STA和V - STaR评估模型时间理解性能 [19] - Video - XL - Pro - 3B在V - STaR测试mIoU得分25.07,IoU>0.7时准确率15.58,超越知名开源模型和上一代冠军,在Charades - STA表现不俗 [19] 总结 - 提出Video - XL - Pro模型,用少量数据训练的3B模型超越多数7B模型性能 [20] - 模型在多主流长视频理解基准评测表现优异,有望在长视频理解场景广泛应用,且模型、代码、训练数据已开源 [21][22][23]