看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源
量子位·2025-07-16 09:49
ShotBench团队 投稿 量子位 | 公众号 QbitAI 当前最强大的视觉语言模型(VLMs)虽然能"看图识物",但在理解电影方面还不够"聪明"。 上海人工智能实验室联合新加坡南洋理工大学 S-Lab、同济大学和香港中文大学,正式推出 ShotBench ,配套模型 ShotVL 及训练集 ShotQA ,为VLM的"电影感"打开评测与训练的双重缺口。 ShotBench是一个专门为电影语言理解设计的综合基准。 它包含超过3.5k个由专家标注的图像和视频片段问答对,来自超过200部备受赞誉 (主要是 奥斯卡 提名)的电影,涵盖 八个关键电影摄影维度 ——景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和 摄像机运动。团队按照严格的标注流程,结合经过训练的标注员和专家监督,确保构建基于专业电影知识的、高质量的评估数据集。 ShotQA ,是一个包含约7万个电影问答对的大规模多模态数据集。 借助ShotQA,团队通过 监督微调(SFT) 和 群体相对策略优化 (GRPO) 开发了ShotVL。 ShotVL 在ShotBench上显著优于所有现有的开源和专有模型,确立了新的顶尖性能。 团队在S ...