教育部、国家语委已经支持布局五个领域的大语言模型建设项目
新京报·2025-03-31 20:58

新型国家语料库建设的战略背景与目标 - 教育部与国家语委已支持布局五个领域的自主安全可控大语言模型建设项目 以服务大语言模型及生成式人工智能等技术前沿创新 [1][2] - 当前以深度求索(DeepSeek)等为代表的人工智能技术取得突破性进展 在此背景下建设新型国家语料库具有重要性、必要性和紧要性 [1] - 总体目标是突破传统语料库单一文本模式和领域应用壁垒 以新质态、多模态、多语言、大规模、全域性为突出特性 为通用及细分领域多场景应用提供规范、可信、高质量的语言文化语料资源 [2] 现有语料库的不足与新型语料库的定位 - 现有许多语料库仍处于单一文本模式和领域应用阶段 在建设理念、技术方法、规模、数据多样性、时效性及与人工智能结合的大规模应用方面存在不足 难以满足多元化、动态化及智能化的语言数据需求 [1] - 新型国家语料库将作为语料基础设施新基建 服务于大语言模型及生成式人工智能等技术前沿创新应用的制高点 [2] - 新型语料库建设将围绕大模型训练及性能评测、智能计算为核心展开 [2] 具体建设规划与时间表 - 教育部已于2025年启动布局新型国家语料库建设工作 [3] - 根据《关于加强数字中文建设推进语言文字信息化发展的意见》 到2027年将初步建成国家关键语料库和国家战略语言资源信息库 [2] - 建设将分两步走:一是加强制度供给并研制语料库建设规范;二是示范引导 先行开发建设"中华文脉新型语料库"和"中华大阅读体系语料库" 以打造标杆 [3] 示范项目与未来扩展 - 首批示范项目包括"中华文脉新型语料库"和"中华大阅读体系语料库" [1][3] - "中华文脉新型语料库"瞄准智慧教师应用 "中华大阅读体系语料库"瞄准智慧学伴应用 [3] - 在示范库基础上 将探索建设系列教育、语言文化国家新型语料库群 以服务教育强国和文化强国建设 [3] 支撑体系与后续步骤 - 下一步将根据需求稳步扩大自主安全可控大语言模型建设项目的范围并提升建设成效 [2] - 将夯实"机制、标准、人才"三个基础:建立健全语料共建共享新机制 研制语言资源、数据、基础语料及大语言模型的技术和管理标准 依托高校及研究机构培养高素质的跨学科人才 [3]

教育部、国家语委已经支持布局五个领域的大语言模型建设项目 - Reportify