研究核心突破 - 北京大学团队推出了全球首个面向古希腊陶罐的3D视觉问答数据集VaseVQA-3D,并配套开发了专用视觉语言模型VaseVLM [1] - 该研究标志着AI正从通用“识图机器”向专业的“文化考古Agent”演进 [2] - 传统视觉语言模型在文化遗产领域存在明显不足,而新方案通过构建高质量、结构化的专业数据解决了这一问题 [3][4][5] 数据集构建方法 - 团队从现有资源中收集了3万多张古希腊陶器2D照片,经过多道筛选后保留了3880张高质量图像 [7][9][12] - 利用TripoSG技术将2D图像转换为664个高保真的GLB格式3D模型 [11] - 通过GPT-4o生成并增强了4460组“问题-答案”对,并为每个3D模型撰写了详细说明 [11] - 为确保3D模型质量,选取了24个高质量3D陶器作为标准样板进行检验 [14] 专用模型训练 - 以Qwen2.5-VL为基底,训练了专用模型VaseVLM [15] - 训练分为两个阶段:第一阶段为SFT监督微调,使用360度旋转视频和考古描述训练基础识别能力 [16][18] - 第二阶段为RLVR强化学习,将考古知识拆分为六个语义维度,模型根据每个维度的回答获得奖励 [16][18][19] - 该模型涵盖陶罐的六大核心属性:材质、工艺、形制、年代、装饰、归属 [17] 性能表现评估 - 在多项Vase-3D视觉问答任务上,VaseVLM的表现大幅超越现有基线模型 [20] - 相比最强基线模型,VaseVLM在R@1准确率上提升了12.8%,词汇相似度提升了6.6% [20] - 在专家人工评分中,VaseVLM-7B-RL模型获得了10位考古专家平均4.57分(满分5分)的高评价 [20][22] - VaseVLM生成的描述在自然度和学术准确性上显著优于通用大模型 [21] 未来应用与影响 - 该项目计划未来拓展到更多文化遗产领域,并建立更完善的数字遗产展示形式 [22] - 该研究为数字考古提供了全新的技术路径 [22] - 相关论文、官方网站、代码及数据集均已公开 [23]
北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型
量子位·2025-11-06 21:22