准确回答视频细节！11B模型挑战视频理解「证据级」任务，开源可商用

文章核心观点 - 复旦大学OpenMOSS团队与模思智能联合开源了MOSS-VL模型，这是一个11B参数的多模态视觉理解模型，专注于解决视频理解中的“证据题”，即要求模型从视频中精确提取可验证的细节、时间、过程和空间关系，而不仅仅是进行概括性描述 [3] 模型核心能力与突破 - 能力定位：模型的核心能力在于从连续画面中精确提取证据，回答可被验证的细节问题，而非仅进行概括 [5][6] - 瞬时细节捕捉：能够捕捉一闪而过的瞬时细节，例如准确识别出仅短暂出现的电动车车牌后四位为4425 [7][8] - 跨模态语义对齐：结合视频中的语义信息进行推理，而非仅凭外观猜测，例如根据柜员说法正确匹配杯子尺寸为中杯、大杯、特大杯 [9][10] - 重复事件计数与时间定位：具备时序推理能力，能对重复动作进行计数并精确定位到时间线，例如识别出喂猫5次并给出具体时间点 [11] - 长段滚动文本读取：能够持续跟踪并完整转写滚动字幕等动态文本，输出整段文本而非零碎关键词 [12] - 过程理解：能够将视频中的过程拆解为多个明确阶段并对应到具体时间段，例如将制作卤肉饭的过程分解为展示、切配、翻炒、收尾等步骤 [13] - 运动方向与空间推理：能够理解镜头运动方向（如向前推进）和物体间的空间相对位置关系（如马桶位于前右方），这是迈向具身智能的关键基础能力 [14][15][17][18] 技术架构设计 - Cross-Attention按需读取：通过交叉注意力机制让模型按需提取视觉信息，避免长视频处理被大量视觉token拖垮 [20] - 绝对时间戳编码：为视频帧引入真实时间信息，使模型具备时间定位的锚点 [21] - XRoPE统一位置编码：用一套编码方案同时建模时间、空间和文本查询维度，实现跨模态精细对齐 [22] 模型表现与开源信息 - 模型表现：在11B参数级别的主流视频理解基准测试中展现出领先表现 [23] - 开源许可：模型采用Apache2.0开源许可，可供学术研究和商业应用 [25]