主流文化语料库

搜索文档
主流文化语料库将为数文产业发展带来什么
齐鲁晚报· 2025-08-26 11:10
语料库建设背景与政策支持 - 高质量数据集是人工智能大模型训练的核心资源 与算法和算力并称为"三驾马车" [2] - 2025年2月高质量数据集建设工作启动会在京召开 会议落实"人工智能+"行动 [2] - 国家数据局局长刘烈宏2025年3月表示将充分调动社会力量推动高质量数据集建设 持续增加数据供给 [2] 主流文化语料库定义与特点 - 通过标准化分类系统和专业标注平台解决格式不统一、质量不齐等问题 [3] - 具备准确性、完整性、丰富性、一致性和时效性五大特征 [3] - 一期聚焦山东优秀文化 已上线5万对问答语料和2000万篇基础语料 [3] - 正在建设孔子学术研究、孔子画像等多个高质量数据集 [3] 语料库应用价值 - 增强AI对行业术语和场景化表达的理解力 提升应用效能 [3] - 加速AI技术与垂直领域的深度融合 驱动产业升级 [3] - 推动文化大模型性能跃迁和数字文化产业高质量发展 [3] 数据标注平台功能 - 提供数据采集、清洗、预标注、标注、增强、审核等一站式全链路服务 [5] - 支持问答、图片、视频、音频、文件、图谱等多类型数据标注 [5] - 采用标准化流程:数据采集归集→清洗筛选→自动标注→人工精校审核 [5] 平台技术优势 - 构建高效无缝衔接的数据处理闭环 各流程兼顾用户导向与智能驱动 [6] - 支持多人协作上传和标注 智能清洗保证数据不重复 [6] - 专有AI识别映射关系体系使关系梳理一目了然 [6] - 支持一键发布至目标大模型 实现模型能力即时更新与增强 [6] 战略规划与发展目标 - 贯彻落实国家文化数字化战略和山东文化强省建设要求 [4] - 2027年底前在省内建设5个成效明显、特色鲜明的数据标注基地 [4] - 平台面向全社会免费开放 旨在构建包容开放共享的AI语料新生态 [7] - 后续将推出山东文化数据交易平台 提供文化数据集交易服务 [7]
全国首个主流文化语料库上线,推动数字文化产业高质量发展
齐鲁晚报网· 2025-08-25 16:39
合作签约与项目背景 - 山东数字文化集团与人民网正式签约共建主流文化语料库 项目推进会于8月25日在济南举行 [1] - 高质量语料库是生成式人工智能技术的关键支撑资源 对行业大模型训练和应用至关重要 [1] - 国家政策明确支持文化领域人工智能高质量数据集建设 包括2024-2026年数据要素三年行动计划和2025年文化高质量发展经济政策 [1] - 山东省2025年6月政策明确支持文化大模型开源利用 要求建设文化领域高质量数据集和语料库 [1] 语料库资源与特点 - 语料库整合人民网 大众报业集团等党媒权威资源 以及省内文化单位高校优质私域文化资源 [1] - 通过数据采集 清洗 预标注 标注 增强 审校等环节 采用AI加人工方式打磨形成 [1] - 语料库具有标准统一 结构完整 权威准确 开放共享特色 解决AI大模型敏感领域语料欠缺等问题 [1] - 作为全国首个主流文化语料库 一期聚焦山东优秀文化 已上线问答语料5万对和基础语料2000万篇 [2] - 正在打造孔子学术研究 孔子画像等多个高质量数据集 计划分期分批建设覆盖广泛的内容 [2] 技术平台与数据服务 - 集团自主研发山东文化数据标注平台 提供一站式全链路服务包括采集清洗标注增强审核等 [4] - 平台支持问答 图片 视频 音频 文件 图谱等多类型数据标注 标注后语料可一键发布到大模型 [4] - 标注平台将面向全社会免费开放 助力文化单位高校企业打造高质量数据集 [4] - 集团将推出山东文化数据交易平台 提供文化数据集交易服务 推动数据要素流通与资产变现 [4]
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
齐鲁晚报网· 2025-08-25 16:39
语料库建设的必要性 - 高质量数据集是人工智能大模型训练的基础性关键资源 在算法趋同和算力普惠背景下成为核心竞争力[1] - 2025年2月27个国家部委代表参加高质量数据集建设工作启动会 推动"人工智能+"行动[2] - 国务院办公厅2025年1月提出建设文化领域人工智能高质量数据集 支持文化领域大模型建设[2] - 山东省2025年6月政策明确支持建设文化领域人工智能高质量数据集和语料库[2] 主流文化语料库特点 - 依托人民网 大众报业集团等权威媒体资源及省内文化单位 高校优质私域文化资源构建[3] - 通过标准化分类系统和专业标注平台解决格式不统一 质量不齐等问题[3] - 一期已上线5万对问答语料和2000万篇基础语料[4] - 重点打造孔子学术研究 孔子画像等多个高质量数据集[4][9] 技术平台与数据处理 - 自主研发山东文化数据标注平台 提供数据采集 清洗 预标注 标注 增强 审核全链路服务[7] - 支持问答 图片 视频 音频 文件 图谱等多类型数据标注[7] - 采用AI增强功能实现问题泛化和答案多样性 如"孔子出生地"可扩展多种问法[15] - 平台支持自动去重 智能筛选低质量样本 提升处理效能[12] - 配备AI识别映射关系体系 可自动识别历史名人家庭 朋友 事业等关系网络[12] 具体应用案例 - 孔子研究高质量数据集归集数千篇专业文献与著作 20余名专家深度文本挖掘[9] - 从5000多张图片资料中标注上千张孔子画像 详细标注创作年代 背景用途 风格材质等信息[9] - 数据处理完毕后支持一键发布至目标大模型 实现模型能力即时更新与增强[15] 发展战略与行业影响 - 山东省计划2027年底前建设5个成效明显 特色鲜明的数据标注基地[6] - 平台面向全社会免费开放 推动语料资源开源共享[15] - 公司将推出山东文化数据交易平台 提供文化数据集交易服务[15] - 项目助力区域及垂类产业数字经济高质量发展[2]