Workflow
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
快手快手(HK:01024) 量子位·2025-09-05 18:56

模型性能表现 - 在Video-MME短视频基准测试中获得73.0分 [6] - 在OpenCompass综合基准测试中获得79.5分,超越Qwen2.5-VL 7B模型的70.9分 [19][20] - 在MMBench基准测试中获得92.0分,显著高于Qwen2.5-VL 7B的82.2分和GPT-40的86.0分 [19][20] - 在AI2D图像推理数据集获得89.5分,领先同级模型 [20] - 在OCRBench测试中获得86.6分,表现优异 [20] - 在Video-MME视频理解测试中获得73.0分,领先Qwen2.5-VL 7B的65.1分 [21][23] - 在MathVistaMINI数学视觉测试中获得81.2分,显著超越GPT-40的63.8分 [23] - 内部评测中在五项人类标注指标上获得3.53分综合成绩,较预览版本提升0.51分 [24][25] 技术创新特点 - 采用Slow-Fast双路编码机制,实现128k超长上下文窗口 [5][8] - 具备0.1秒级时序定位能力,能精确识别视频中特定物品出现时间点 [8][10] - 支持跨模态推理,能根据视频内容推断事件发生原因 [4][15] - 采用ViT+MLP投影器+语言解码器三段式架构 [27] - 视觉编码器继承SigLIP-400M参数,具备语义对齐能力 [29] - 引入2DRoPE和3DRoPE位置编码技术,支持高分辨率外推和时序排序 [29][31] - 通过四阶段渐进式预训练流程,使用超过1万亿token训练语料 [37][39][41] 应用场景与业务价值 - 为短视频内容审核、智能剪辑、搜索与互动推荐等业务场景提供底层AI能力 [69] - 在26秒带货视频分析中准确识别产品出现时间点(22.3-23.8秒) [11][12] - 能够详细描述视频画面场景和细节,具备强大的视频理解能力 [14][15] - 多模态技术已应用于千万级日常场景,验证了复杂视频理解的工程化可行性 [69] 研究成果与行业影响 - 团队在ICML 2025提出多模态RLHF框架MM-RLHF,通过120k人类偏好数据提升模型安全性 [51] - 在KDD 2025获得最佳论文提名的VLM as Policy框架,显著提高短视频审核效率与准确率 [54][55] - CVPR 2025发布交错图文多模态数据集CoMM和视觉token压缩加速算法LibraMerging [57][58][60] - ICLR 2025展示MoE模型优化算法STGC、视频对话理解基准SVBench和视觉任务指令数据集TaskGalaxy [61][62][65][67]