多模态视觉理解 - 财报，业绩电话会，研报，新闻 - Reportify

多模态视觉理解

搜索文档

准确回答视频细节！11B模型挑战视频理解「证据级」任务，开源可商用

量子位· 2026-04-13 13:22

让一个模型概括"这是一段什么视频"，并不难。但如果追问一步——一闪而过的车牌号后四位是多少？这个动作一共发生了几次、分别在第几秒？不断滚动的字幕写了什么？ MOSS-VL团队投稿量子位 | 公众号 QbitAI ——大多数视频理解模型就开始交白卷了。这类问题有一个共同特征：答案可以被明确验证。研究团队把它称为视频理解中的「证据题」。近日，复旦大学、上海创智学院邱锡鹏教授领衔的OpenMOSS团队联合初创公司模思智能（MOSI）开源 MOSS-VL ——一个11B参数的多模态视觉理解模型，支持图像、视频、文档等多种输入模态。在视频理解方面，MOSS-VL不满足于生成一段概括，而是开始把视频里可被验证的细节、时间、过程和空间关系，准确地回答出来。视频理解的真正门槛，不是「看见」而是「答出来」如果只要回答"这是一段买瓜的视频""这是一段做饭的视频"，很多模型看起来都不错。但视频理解真正拉开差距的地方，从来不在概括能力，而在更深一层的追问：路过的电动车，车牌后四位到底是多少？柜台上三个杯子，分别对应什么尺寸？同一个动作一共发生了几次，分别在第几秒？不断滚动的字幕，能不能被完整读出 ...

多模态视觉理解

Artificial Intelligence

多模态视觉理解

Artificial Intelligence