VaseVLM模型 - 财报，业绩电话会，研报，新闻

VaseVLM模型

搜索文档

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

量子位· 2025-11-06 21:22

研究核心突破 - 北京大学团队推出了全球首个面向古希腊陶罐的3D视觉问答数据集VaseVQA-3D，并配套开发了专用视觉语言模型VaseVLM [1] - 该研究标志着AI正从通用“识图机器”向专业的“文化考古Agent”演进 [2] - 传统视觉语言模型在文化遗产领域存在明显不足，而新方案通过构建高质量、结构化的专业数据解决了这一问题 [3][4][5] 数据集构建方法 - 团队从现有资源中收集了3万多张古希腊陶器2D照片，经过多道筛选后保留了3880张高质量图像 [7][9][12] - 利用TripoSG技术将2D图像转换为664个高保真的GLB格式3D模型 [11] - 通过GPT-4o生成并增强了4460组“问题-答案”对，并为每个3D模型撰写了详细说明 [11] - 为确保3D模型质量，选取了24个高质量3D陶器作为标准样板进行检验 [14] 专用模型训练 - 以Qwen2.5-VL为基底，训练了专用模型VaseVLM [15] - 训练分为两个阶段：第一阶段为SFT监督微调，使用360度旋转视频和考古描述训练基础识别能力 [16][18] - 第二阶段为RLVR强化学习，将考古知识拆分为六个语义维度，模型根据每个维度的回答获得奖励 [16][18][19] - 该模型涵盖陶罐的六大核心属性：材质、工艺、形制、年代、装饰、归属 [17] 性能表现评估 - 在多项Vase-3D视觉问答任务上，VaseVLM的表现大幅超越现有基线模型 [20] - 相比最强基线模型，VaseVLM在R@1准确率上提升了12.8%，词汇相似度提升了6.6% [20] - 在专家人工评分中，VaseVLM-7B-RL模型获得了10位考古专家平均4.57分（满分5分）的高评价 [20][22] - VaseVLM生成的描述在自然度和学术准确性上显著优于通用大模型 [21] 未来应用与影响 - 该项目计划未来拓展到更多文化遗产领域，并建立更完善的数字遗产展示形式 [22] - 该研究为数字考古提供了全新的技术路径 [22] - 相关论文、官方网站、代码及数据集均已公开 [23]