全国首个主流文化语料库上线,推动数字文化产业高质量发展
齐鲁晚报网·2025-08-25 16:39
合作签约与项目背景 - 山东数字文化集团与人民网正式签约共建主流文化语料库 项目推进会于8月25日在济南举行 [1] - 高质量语料库是生成式人工智能技术的关键支撑资源 对行业大模型训练和应用至关重要 [1] - 国家政策明确支持文化领域人工智能高质量数据集建设 包括2024-2026年数据要素三年行动计划和2025年文化高质量发展经济政策 [1] - 山东省2025年6月政策明确支持文化大模型开源利用 要求建设文化领域高质量数据集和语料库 [1] 语料库资源与特点 - 语料库整合人民网 大众报业集团等党媒权威资源 以及省内文化单位高校优质私域文化资源 [1] - 通过数据采集 清洗 预标注 标注 增强 审校等环节 采用AI加人工方式打磨形成 [1] - 语料库具有标准统一 结构完整 权威准确 开放共享特色 解决AI大模型敏感领域语料欠缺等问题 [1] - 作为全国首个主流文化语料库 一期聚焦山东优秀文化 已上线问答语料5万对和基础语料2000万篇 [2] - 正在打造孔子学术研究 孔子画像等多个高质量数据集 计划分期分批建设覆盖广泛的内容 [2] 技术平台与数据服务 - 集团自主研发山东文化数据标注平台 提供一站式全链路服务包括采集清洗标注增强审核等 [4] - 平台支持问答 图片 视频 音频 文件 图谱等多类型数据标注 标注后语料可一键发布到大模型 [4] - 标注平台将面向全社会免费开放 助力文化单位高校企业打造高质量数据集 [4] - 集团将推出山东文化数据交易平台 提供文化数据集交易服务 推动数据要素流通与资产变现 [4]