Workflow
多模态视觉理解
icon
搜索文档
准确回答视频细节!11B模型挑战视频理解「证据级」任务,开源可商用
量子位· 2026-04-13 13:22
让一个模型概括"这是一段什么视频",并不难。 但如果追问一步——一闪而过的车牌号后四位是多少?这个动作一共发生了几次、分别在第几秒?不断滚动的字幕写了什么? MOSS-VL团队 投稿 量子位 | 公众号 QbitAI ——大多数视频理解模型就开始交白卷了。 这类问题有一个共同特征:答案可以被明确验证。研究团队把它称为视频理解中的「证据题」。 近日, 复旦大学、上海创智学院 邱锡鹏教授领衔的OpenMOSS团队联合初创公司 模思智能 (MOSI) 开源 MOSS-VL ——一个11B参数 的多模态视觉理解模型,支持图像、视频、文档等多种输入模态。在视频理解方面,MOSS-VL不满足于生成一段概括,而是开始把视频里可 被验证的细节、时间、过程和空间关系,准确地回答出来。 视频理解的真正门槛,不是「看见」而是「答出来」 如果只要回答"这是一段买瓜的视频""这是一段做饭的视频",很多模型看起来都不错。但视频理解真正拉开差距的地方,从来不在概括能力, 而在更深一层的追问: 路过的电动车,车牌后四位到底是多少? 柜台上三个杯子,分别对应什么尺寸? 同一个动作一共发生了几次,分别在第几秒? 不断滚动的字幕,能不能被完整读出 ...