视觉语言大模型

搜索文档
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI 杯子在我的左边还是右边? 这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型 (VLMs) 也可能答错。 ViewSpatial-Bench评估集中 包含5700个问答对,涵盖相机视角与人类视角两种框架下的五种空间定位识别任务 。 究其根本,还是 当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视 角的空间推理能力 。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正成为与人类协作的智能体。 为此,来自浙江大学、电子科技大学和香港中文大学的研究团队提出了 首个系统评估VLM多视角多任务下的空间定位能力的基准体系 —— ViewSpatial-Bench,涵盖五种不同的任务类型,从相机和人类视角出发,全面评估模型的空间推理能力。 同时还并配备了能够生成精确方向标签的自动化3D标注流水线。通过高效的3D方向标注生成流程,实现了超过5700个问答对,覆盖丰富的 3D场景。 通过在多视角空间数据集上的 ...
对话理想智驾郎咸朋、贾鹏,一个后进生,怎么提前交卷了?
晚点LatePost· 2024-08-02 19:53
以下文章来源于晚点Auto ,作者晚点团队 晚点Auto . 从制造到创造,从不可能到可能。《晚点LatePost》旗下汽车品牌。 智能驾驶,一场昂贵的竞赛开始。决定排位、决定未来。 文丨程曼祺 窦亚娟 编辑丨 宋玮 先后任职于特斯拉和小鹏的谷俊丽博士说,中国智能驾驶研发进度至少落后特斯拉 1.5 -2 年。理想智驾副总裁郎咸朋认为,差距没那么大,产品体验上理想最 多落后半年。 理想强调自己做智驾的优势是车多、数据多,小鹏创始人何小鹏则说:"如果有人说它有很多车、很多数据" 就能做好自动驾驶,"千万别信,绝对是胡扯"。 价格战还在燃烧,中国汽车新势力们又集体挤入了一个新战场——智能驾驶,充满分歧、争议、你追我赶。 不是所有车企都买得起这张入场券。智能驾驶 30 亿研发投入起步,逐年递增。理想说,现在一年租卡要 10 亿人民币,将来要 10 亿美元。 新势力如此疯狂、不甘落后,是因为他们看到了特斯拉 FSD V12(特斯拉 2024 年 1 月开始大规模推送的完全自动驾驶新版本)的巨大进步,也看到了智驾能 力对消费决策的影响。去年 9 月,华为宣布年底推出全国都能开的无图方案,问界同期围绕智驾猛烈宣传。短短一个 ...