看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

ShotBench团队投稿量子位 | 公众号 QbitAI 当前最强大的视觉语言模型（VLMs）虽然能"看图识物"，但在理解电影方面还不够"聪明"。上海人工智能实验室联合新加坡南洋理工大学 S-Lab、同济大学和香港中文大学，正式推出 ShotBench ，配套模型 ShotVL 及训练集 ShotQA ，为VLM的"电影感"打开评测与训练的双重缺口。 ShotBench是一个专门为电影语言理解设计的综合基准。它包含超过3.5k个由专家标注的图像和视频片段问答对，来自超过200部备受赞誉（主要是奥斯卡提名）的电影，涵盖八个关键电影摄影维度 ——景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和摄像机运动。团队按照严格的标注流程，结合经过训练的标注员和专家监督，确保构建基于专业电影知识的、高质量的评估数据集。 ShotQA ，是一个包含约7万个电影问答对的大规模多模态数据集。借助ShotQA，团队通过监督微调（SFT）和群体相对策略优化（GRPO）开发了ShotVL。 ShotVL 在ShotBench上显著优于所有现有的开源和专有模型，确立了新的顶尖性能。团队在S ...