语料库建设的必要性 - 高质量数据集是人工智能大模型训练的基础性关键资源 在算法趋同和算力普惠背景下成为核心竞争力[1] - 2025年2月27个国家部委代表参加高质量数据集建设工作启动会 推动"人工智能+"行动[2] - 国务院办公厅2025年1月提出建设文化领域人工智能高质量数据集 支持文化领域大模型建设[2] - 山东省2025年6月政策明确支持建设文化领域人工智能高质量数据集和语料库[2] 主流文化语料库特点 - 依托人民网 大众报业集团等权威媒体资源及省内文化单位 高校优质私域文化资源构建[3] - 通过标准化分类系统和专业标注平台解决格式不统一 质量不齐等问题[3] - 一期已上线5万对问答语料和2000万篇基础语料[4] - 重点打造孔子学术研究 孔子画像等多个高质量数据集[4][9] 技术平台与数据处理 - 自主研发山东文化数据标注平台 提供数据采集 清洗 预标注 标注 增强 审核全链路服务[7] - 支持问答 图片 视频 音频 文件 图谱等多类型数据标注[7] - 采用AI增强功能实现问题泛化和答案多样性 如"孔子出生地"可扩展多种问法[15] - 平台支持自动去重 智能筛选低质量样本 提升处理效能[12] - 配备AI识别映射关系体系 可自动识别历史名人家庭 朋友 事业等关系网络[12] 具体应用案例 - 孔子研究高质量数据集归集数千篇专业文献与著作 20余名专家深度文本挖掘[9] - 从5000多张图片资料中标注上千张孔子画像 详细标注创作年代 背景用途 风格材质等信息[9] - 数据处理完毕后支持一键发布至目标大模型 实现模型能力即时更新与增强[15] 发展战略与行业影响 - 山东省计划2027年底前建设5个成效明显 特色鲜明的数据标注基地[6] - 平台面向全社会免费开放 推动语料资源开源共享[15] - 公司将推出山东文化数据交易平台 提供文化数据集交易服务[15] - 项目助力区域及垂类产业数字经济高质量发展[2]
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
齐鲁晚报网·2025-08-25 16:39