数字中文建设
搜索文档
夯实语言治理的基础工程
新浪财经· 2026-01-11 02:28
作者:王春辉(首都师范大学国际文化学院教授) 语言文字是人类交流的工具、文明传承的载体、国家统一的基石。语言治理深刻影响着中华民族的凝聚 力、文化的连续性以及社会的发展进程。中国历史上有一些可以称之为"基础工程"的语言治理举措,它 们以不同的方式,共同推动了中华文明的形成、发展与传承。 1.秦朝"书同文" 秦朝的"书同文"政策,是中国历史上首次大规模、规划性的文字统一行动,为中华文明的统一与传承奠 定了基础。 在秦始皇统一六国之前,战国时期列国割据,文字异形。秦始皇在完成统一大业后,面临巩固中央集 权、实现国家长治久安的迫切需求,因此,"书同文"成为国家治理的关键一步。在丞相李斯的建议下, 秦始皇以秦国的小篆为标准文字,废除六国文字中的异体字,并颁布了《仓颉篇》《爰历篇》《博学 篇》等字书作为全国文字的范本,在全国范围内推行。这一举措,不仅是技术层面的文字规范化,更是 国家顶层规划语言文字的首次大规模实践。 "书同文"对中华文明产生了极其深远的影响。首先,它极大地便利了中央政府的政令传达和国家治理, 强化了国家对广大疆域的有效统治。其次,它使得不同地域的人们能够共享相同的文献、思想和文化, 促进了各地文化的融 ...
方正电子AI造字:持续引领汉字数字化进程
全景网· 2025-09-29 19:59
数字中文建设行业趋势 - 基于数字中文的新技术、新产品、新业态已深入到社会方方面面,涵盖智能教育平台、实时翻译技术、面向老年群体的智能辅助设备以及古籍数字化整理等领域 [1] - 方正电子作为行业参与者,始终致力于以科技赋能文化发展,大力推进AI技术在字库、媒体出版、学术期刊等领域的应用 [1] AI造字技术核心能力 - 方正电子利用自主研发的AI辅助造字技术,完成了对王献之小楷《洛神赋》仅存十三行约二百五十字的数字化呈现 [2] - 在还原过程中,字体设计师借助AI技术对底本文件进行增强处理,逐字勾勒矢量化字形,并对残缺字形的比例、结构、走势进行精准填补及修正 [3] - 通过“AI+书法补字”技术,利用AI大模型对复刻字进行字形风格抓取,快速生成其余汉字,目前AI生成的字形已能基本满足常规书法字库的使用需求 [4] 中华精品字库工程项目 - 中华精品字库工程是中华优秀传统文化传承发展工程支持项目,由中国文联、国家语委共同指导,旨在将历代书法名家代表作品开发成电脑字库 [5] - 方正电子负责该工程的字库开发工作,每款字体的开发需历经收集字稿、字稿扫描、字形选择、精细设计、补字创写、字形检查、专家审核、封装成库8个严谨步骤 [6] - 在开发过程中,公司在书法家仿写的2000个汉字基础上进行风格抓取,快速生成其余汉字,并由设计师逐字精细调整,同时运用AI技术高效实现碑帖切字识别 [7] 技术创新与研发背景 - AI辅助造字技术由北京大学王选计算机研究所牵头,方正电子参与攻关,已历经十余年持续研发,并曾荣获北京市技术发明奖二等奖 [5] - 该技术率先突破中国文字的字体智能计算核心方法与自动生成关键技术,针对碑帖、古籍、手写稿等不同来源字稿,研发了字形精准定位、自动识别等技术,显著提升字稿字形轮廓的保真度与生成效率 [5][7]
三部门推进语言文字信息化发展 教育部:已布局新型国家语料库建设
中国经营报· 2025-04-01 05:08
政策发布与核心目标 - 教育部联合国家语委、中央网信办印发《关于加强数字中文建设推进语言文字信息化发展的意见》,旨在抢抓大语言模型机遇,推进语言文字与信息技术深度融合,释放数据要素价值 [1] - 政策核心目标是全方位释放语言文字在经济社会发展中的数据要素价值,以数字化手段构建新型中文服务体系 [1] - 政策设定了“两步走”发展目标:第一步到2027年,为强基示范阶段,重点增强规范标准、前沿技术、语言资源等基础支撑能力;第二步面向2035年,为深化赋能阶段,目标是使中文在全球数字空间及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,使我国语言文字信息化整体水平位居世界前列 [2] 重点任务部署 - 部署了三大任务:一是创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工五项前沿技术,服务AI技术创新并夯实国家关键语料基础设施 [3] - 二是系统建设语言文字规范标准、资源服务、人才培养、协同创新和安全治理五大保障体系,提升基础能力 [3] - 三是统筹实施数字中文服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步五大赋能行动,推进技术与关键领域深度融合 [3] 基础设施建设与资源布局 - 将加快建设国家语言文字大数据中心、国家关键语料库和国家语言资源信息库 [4] - 教育部已启动布局新型国家语料库建设,以突破传统语料库单一文本模式和领域应用壁垒,核心服务于大模型训练及性能评测,具备新质态、多模态、多语言、大规模、全域性等特性 [5] - 新型国家语料库建设包括两方面:加强制度供给研制规范,以及开发建设“中华文脉新型语料库”和“中华大阅读体系语料库” [6] - 目前,教育部、国家语委已支持建设了30余项关键领域的语料库,并计划在关键学科、重点行业等领域分批建设国家关键语料库 [6] 标准化与技术创新支持 - 将统筹推进语言文字基础性标准和信息化标准一体建设,重点推进语料库、数据标注、数据评价等规范标准的制修订,并推进大语言模型等基础术语规范化 [6] - 坚持试点先行,支持面向重点行业、战略区域和关键学科等的垂直领域大语言模型建设与应用 [6] - 强化语言文字信息化研究成果转化,鼓励战略急需、产业紧缺、民生期盼的数字化语言服务示范应用 [6] - 加快布局支持一批新型语言文字交叉领域科研机构,重点建设多语言智能化科技创新中心和实验室,并支持相关前沿领域的学术研讨和竞赛活动 [6]