文章核心观点 - 复旦大学OpenMOSS团队与模思智能联合开源了MOSS-VL模型,这是一个11B参数的多模态视觉理解模型,专注于解决视频理解中的“证据题”,即要求模型从视频中精确提取可验证的细节、时间、过程和空间关系,而不仅仅是进行概括性描述 [3] 模型核心能力与突破 - 能力定位:模型的核心能力在于从连续画面中精确提取证据,回答可被验证的细节问题,而非仅进行概括 [5][6] - 瞬时细节捕捉:能够捕捉一闪而过的瞬时细节,例如准确识别出仅短暂出现的电动车车牌后四位为4425 [7][8] - 跨模态语义对齐:结合视频中的语义信息进行推理,而非仅凭外观猜测,例如根据柜员说法正确匹配杯子尺寸为中杯、大杯、特大杯 [9][10] - 重复事件计数与时间定位:具备时序推理能力,能对重复动作进行计数并精确定位到时间线,例如识别出喂猫5次并给出具体时间点 [11] - 长段滚动文本读取:能够持续跟踪并完整转写滚动字幕等动态文本,输出整段文本而非零碎关键词 [12] - 过程理解:能够将视频中的过程拆解为多个明确阶段并对应到具体时间段,例如将制作卤肉饭的过程分解为展示、切配、翻炒、收尾等步骤 [13] - 运动方向与空间推理:能够理解镜头运动方向(如向前推进)和物体间的空间相对位置关系(如马桶位于前右方),这是迈向具身智能的关键基础能力 [14][15][17][18] 技术架构设计 - Cross-Attention按需读取:通过交叉注意力机制让模型按需提取视觉信息,避免长视频处理被大量视觉token拖垮 [20] - 绝对时间戳编码:为视频帧引入真实时间信息,使模型具备时间定位的锚点 [21] - XRoPE统一位置编码:用一套编码方案同时建模时间、空间和文本查询维度,实现跨模态精细对齐 [22] 模型表现与开源信息 - 模型表现:在11B参数级别的主流视频理解基准测试中展现出领先表现 [23] - 开源许可:模型采用Apache2.0开源许可,可供学术研究和商业应用 [25]
准确回答视频细节!11B模型挑战视频理解「证据级」任务,开源可商用
量子位·2026-04-13 13:22