VaseVLM模型
搜索文档
北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型
量子位· 2025-11-06 21:22
VaseVQA-3D团队 投稿 量子位 | 公众号 QbitAI 现在AI都懂文物懂历史了。 一项来自北京大学的最新研究引发关注:他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集—— VaseVQA-3D ,并配套推出了专用 视觉语言模型 VaseVLM 。 这意味着,AI正在从"识图机器"迈向"文化考古Agent"。 传统视觉语言模型(VLM)如GPT-4V、Gemini等,擅长描述日常图像,在开放域视觉理解方面效果显著,但在面对文化遗产类复杂对象时 ——它们几乎"一脸茫然"。受限于训练数据的领域覆盖和语义建模能力,其对复杂纹饰、器形及文化背景的理解仍存在明显不足。 为什么?因为缺乏高质量、结构化的专业数据。 此次,北大牵头团队带来了突破性解决方案。 AI首次"看懂"古希腊陶罐 以往的视觉语言模型(VLM)如CLIP、LLaVA、GPT-4V等,虽然能识别日常图片,却在文化遗产这类专业领域失灵。 北大团队指出:"AI能认猫狗,却认不出陶罐的时代、风格与技法。" 于是他们构建了一个庞大的新基座VaseVQA-3D。 △ VaseVQA-3D中的陶罐3D模型 与问答示例:每个模型都能被AI"旋转、观察、回答 ...