报告行业投资评级 - 投资评级:看好,维持 [6] 报告的核心观点 - 截至三季度末,我国已建成高质量数据集总量突破500PB,为人工智能模型性能提升和创新加速提供了有力支撑 [1][3] - 高质量数据集是驱动人工智能性能跃升的重要动力,其建设工作的重要性有望进一步提升 [10] - 在政策指引和市场需求驱动下,高质量数据集的流通有望推动形成商业化闭环,数据价值有望加速释放 [1][10] - 建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司 [1][10] 根据相关目录分别进行总结 事件描述与背景 - 2025年12月4日,据央视新闻报道,国家数据局数据显示,截至三季度末,我国已建成高质量数据集总量突破500PB [1][3] - 以DeepSeek、ChatGPT、Gemini、通义千问、豆包为代表的大语言模型引领人工智能产业快速发展,其预训练依赖海量数据 [10] - 未经筛选的低质量数据易导致“模型幻觉”,且预训练所需的可用数据资源即将用尽,对高质量数据集的需求缺口将继续增大 [10] 政策与建设进展 - 2025年8月,国家数据局发布《高质量数据集建设指引》,提出“1+1”参考路径,指导推进高质量数据集建设 [10] - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设 [10] - 部署了140项先行先试任务,初步实现了“人工智能+”到哪里,高质量数据集建设和应用就到哪里的氛围 [10] - 在2025年科创大会上,国家数据局局长刘烈宏指出需培育“为高质量数据付费”的意识,为数据要素市场化配置改革注入新动力 [10] 行业影响与投资建议 - 高质量数据集的流通有望推动形成商业化闭环,在大模型加速落地过程中,数据的价值或将进一步被挖掘 [1][10] - 只有当企业、政府与个人普遍认可并愿意为可信、合规、精准的数据支付合理对价时,才能有效激励数据供给侧的专业化与规范化,推动数据要素价值充分释放 [10] - 建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司 [1][10]
高质量数据集突破 500PB,数据要素赋能人工智能发展
长江证券·2025-12-07 19:06