政策发布与核心目标 - 教育部联合国家语委、中央网信办印发《关于加强数字中文建设推进语言文字信息化发展的意见》,旨在抢抓大语言模型机遇,推进语言文字与信息技术深度融合,释放数据要素价值 [1] - 政策核心目标是全方位释放语言文字在经济社会发展中的数据要素价值,以数字化手段构建新型中文服务体系 [1] - 政策设定了“两步走”发展目标:第一步到2027年,为强基示范阶段,重点增强规范标准、前沿技术、语言资源等基础支撑能力;第二步面向2035年,为深化赋能阶段,目标是使中文在全球数字空间及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,使我国语言文字信息化整体水平位居世界前列 [2] 重点任务部署 - 部署了三大任务:一是创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工五项前沿技术,服务AI技术创新并夯实国家关键语料基础设施 [3] - 二是系统建设语言文字规范标准、资源服务、人才培养、协同创新和安全治理五大保障体系,提升基础能力 [3] - 三是统筹实施数字中文服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步五大赋能行动,推进技术与关键领域深度融合 [3] 基础设施建设与资源布局 - 将加快建设国家语言文字大数据中心、国家关键语料库和国家语言资源信息库 [4] - 教育部已启动布局新型国家语料库建设,以突破传统语料库单一文本模式和领域应用壁垒,核心服务于大模型训练及性能评测,具备新质态、多模态、多语言、大规模、全域性等特性 [5] - 新型国家语料库建设包括两方面:加强制度供给研制规范,以及开发建设“中华文脉新型语料库”和“中华大阅读体系语料库” [6] - 目前,教育部、国家语委已支持建设了30余项关键领域的语料库,并计划在关键学科、重点行业等领域分批建设国家关键语料库 [6] 标准化与技术创新支持 - 将统筹推进语言文字基础性标准和信息化标准一体建设,重点推进语料库、数据标注、数据评价等规范标准的制修订,并推进大语言模型等基础术语规范化 [6] - 坚持试点先行,支持面向重点行业、战略区域和关键学科等的垂直领域大语言模型建设与应用 [6] - 强化语言文字信息化研究成果转化,鼓励战略急需、产业紧缺、民生期盼的数字化语言服务示范应用 [6] - 加快布局支持一批新型语言文字交叉领域科研机构,重点建设多语言智能化科技创新中心和实验室,并支持相关前沿领域的学术研讨和竞赛活动 [6]
三部门推进语言文字信息化发展 教育部:已布局新型国家语料库建设
中国经营报·2025-04-01 05:08