磐医知识图谱
搜索文档
大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合)
人民网· 2025-12-25 06:33
中文数据在大模型训练中的重要性 - 国内多数大模型训练使用的中文数据占比已超过60%,部分模型达到80% [1] - 中文数据占比提升有助于用户理解模型输出,并保障和提升大模型研发能力 [2] - 提高中文数据占比有助于掌握大模型发展主动权,在数据安全和技术自主上迈出关键步伐 [2] 中文数据对模型性能与文化理解的影响 - 中文数据中独有的文化习惯、隐喻表达、政策术语在英文数据中难以体现,提升其比重可增强大模型对中华文化及中国场景的理解能力 [3] - 中文数据承载数千年文化积累,占比高的模型能更好讲解文言文虚词用法、诗词平仄规律等,推动中华文化数字化传播 [3] - 若中文数据占比低,模型易受数据授权限制、更新延迟影响,且在理解中文特有思维方式时可能出现偏差 [2][3] 中文高质量数据的定义与供给现状 - 高质量数据需经过事实核查、专业审核,语义准确且来源可追溯,区别于易出现错误的普通网络文本 [4] - 政策支持如《“数据要素×”三年行动计划》提出打造高质量训练数据集,国家数据局布局建设数据标注基地 [5] - 技术进步降低开发难度,例如某中文语义标注系统可自动区分“打”的含义,让标注效率提升3倍且成本降低 [5] - 行业共识推动中文数据从“辅助补充”变为“核心资源”,例如中国移动已建成覆盖超30个行业、超3500TB的通用高质量数据集 [5] 中文数据资源消耗与开发现状 - 2024年初我国日均Token消耗量为1000亿,截至2024年9月底已突破40万亿,显示中文数据资源快速积累和价值释放 [6] - 现有中文数据中重复内容多、高质量数据少,尤其在医疗、工业等垂直领域高质量数据稀缺 [7] - 不同机构数据因隐私安全等合规要求难以跨域流通,导致重复标注,浪费资源且无法形成规模效应 [7] 增强中文数据开发与供给的建议 - 应加快研究制定中文数据分级标准,以释放供给活力 [7] - 可推广应用新一代标注技术,在原始数据不出域且保证隐私安全的条件下完成跨机构协同标注,整合多机构力量 [7] - 需专项采集垂直场景中文数据,例如在元宇宙等新兴场景中,中文数据使用量仅为英文的1/5,而中医、非遗等传统场景数字化程度低 [8] 文化与科技融合的产业应用 - 通过“文化IP+科技体验”重塑文旅产业生态,结合线上数字平台与线下沉浸场景 [9] - “文化创作+人工智能”拓展产业融合场景,AI技术与影视、文博等领域深度融合,催生出AI短剧、博物馆数字文创等新产品 [9] - “特色文化+数字技术”助力乡村全面振兴,将地标农产品、乡村非遗技艺融入内容创作,提升特色文化产品创意能力和表现力 [9]
中文高质量数据集加速建设 大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合)
人民日报· 2025-12-25 06:04
中文数据在大模型发展中的核心地位与意义 - 中文数据是人工智能大模型理解中文语言习惯、文化内涵和思维方式的关键“知识教材”,其占比提升有助于模型输出更符合中文用户习惯的结果并提升研发能力 [2] - 目前国内多数模型训练使用的中文数据占比已超过60%,部分模型达到80% [1] - 中文数据占比提高有助于降低“数据依赖”风险,过去模型面临英文数据占全球互联网比例高、前沿科技论文及文化典籍多以英文呈现的挑战 [2] - 提高中文数据占比是保障数据安全、技术自主的关键步伐,有利于掌握大模型发展主动权,避免受“数据授权限制”和“更新延迟”影响 [2] 中文高质量数据的价值与供给现状 - 中文高质量数据需经过事实核查与专业审核,语义准确且来源可追溯,区别于易出现事实错误的普通网络文本 [4] - 高质量数据供给能力增强得益于政策支持、技术突破和行业共识三大因素合力助推 [4] - 政策层面,《“数据要素×”三年行动计划(2024—2026年)》提出打造高质量训练数据集,国家数据局布局建设数据标注基地 [5] - 技术层面,中文数据因歧义多、语境依赖强,早期标注成本是英文数据的1.8至2.5倍,技术进步如“中文语义标注系统”已使标注效率提升3倍并降低成本 [5] - 行业层面,垂直场景对“中文适配”需求升温,推动中文数据从“辅助补充”变为“核心资源”,例如中国移动已建成覆盖超30个行业、超3500TB的通用高质量数据集 [5] - 中文数据资源快速积累,日均Token消耗量从2024年初的1000亿增长至当年9月底的突破40万亿 [6] 中文数据在文化理解与传承中的独特作用 - 中文数据中独有的文化习惯、隐喻表达和政策术语在英文数据中难以体现,提升其比重可增强大模型对中华文化及中国场景的理解能力,例如准确推理中医的“上火”“湿气”等概念 [3] - 中文数据承载数千年文化积累,占比高的模型能更好讲解“文言文虚词用法”“诗词平仄规律”,结合《论语》《孟子》等典籍案例,推动中华文化数字化传播与生动教育 [3] 增强中文数据开发与供给的路径 - 建设标准:现有中文数据重复内容多、高质量少,尤其在医疗、工业等垂直领域稀缺,需加快研究制定中文数据分级标准以释放供给活力 [7] - 强化技术:面临数据孤岛和合规难题,可推广应用新一代标注技术,在原始数据不出域且保证隐私安全的条件下完成跨机构协同标注,整合力量避免重复劳动 [7] - 补充场景:产业体系完备需要更多细分场景数据,例如元宇宙场景中中文数据使用量仅为英文的1/5,中医、非遗等传统场景数字化程度低,需政产学研用协同专项采集以激活产业应用 [8] 文化与科技融合的产业应用前景 - “文化IP+科技体验”通过线上数字平台与线下沉浸场景结合,重塑文旅产业生态,打造数字文旅空间和“旅游+智能体”新应用 [9] - “文化创作+人工智能”推动AI技术与影视、文博等领域深度融合,催生AI短剧、博物馆数字文创等新产品,丰富文化表达与消费新场景 [9] - “特色文化+数字技术”将地标农产品、乡村非遗技艺融入微短剧等内容创作,提升特色文化产品创意与表现力,为乡村全面振兴注入新动能 [9]