Workflow
国内多数AI模型训练使用的中文数据占比已超60%
新华社·2025-08-21 15:13

中文数据在AI大模型训练中的关键作用 - 国内AI模型训练使用的中文数据占比超过60% 部分模型达到80% [1] - 中文高质量数据开发和供给能力持续增强 推动人工智能模型性能快速提升 [1] - 高质量数据集建设是人工智能发展的核心要素 在推动"人工智能+"过程中发挥关键作用 [1] 人工智能数据消耗与基础设施发展 - 日均Token消耗量从2024年初1000亿增长至2024年6月底30万亿 一年半时间增长300多倍 [1] - 截至2024年6月底 建设高质量数据集超过3.5万个 总体量超过400PB [1] - 400PB数据总量相当于中国国家图书馆数字资源总量的140倍 [1] 数据交易市场与未来发展方向 - 截至2024年6月底 各地高质量数据集累计交易额近40亿元 [2] - 数据交易机构挂牌的高质量数据集总规模达246PB [2] - 体系化布局推进高质量数据集建设 重点发展具身智能、低空经济、生物制造等领域数据高地 [2]