政府工作报告,为什么点名“高质量数据集”
第一财经·2026-03-07 20:02

政府工作报告与政策导向 - 2026年政府工作报告提出要打造智能经济新形态,深化数据资源开发利用,健全数据要素基础制度,并首次点名“建设高质量数据集”[3][5] - 报告要求深化拓展“人工智能+”,促进新一代智能终端和智能体加快推广,推动重点行业人工智能商业化规模化应用[4] - 国家发展改革委主任表示,“十五五”末人工智能相关产业规模将增长到10万亿元以上[4] 数据在AI发展中的核心地位与挑战 - 数据是人工智能发展不可或缺的燃料,与算力、算法并列为AI进步的三个维度[6] - 高质量数据对模型表现至关重要,而人工智能从生成式AI向物理AI进化,训练物理AI所需的强交互数据在互联网上难以找到,问题变得更为突出和严峻[3][7] - 在智能驾驶领域,核心问题已从数据量转变为数据价值密度,随着智驾能力提升,只有危险工况或奇怪场景的数据才更有价值[7] - 具身智能(如人形机器人)落地关键瓶颈之一是数据,其所需的高质量、强交互数据比智能驾驶更加复杂和难以获取[8][9] 高质量数据的来源与瓶颈 - 生成式AI快速发展几乎耗尽了公共领域的数据,而制药、服装、医院等垂直领域的私域数据尚未被充分挖掘和激活[10] - 合成数据(通过生成模型、仿真等方式产生)被视为2026年AI数据集的核心突破方向,但其质量是关键,通常难以达到真实数据的质量[11] - 在物理AI领域,真实交互数据是基础,合成数据用于扩展覆盖范围、增强长尾样本,但目前具身智能尚缺乏0-1阶段的数据积累,合成数据难以发挥最大功效[11] - 获取0-1阶段交互数据的方式(如遥操真机采集)成本很高,行业正通过建设创新中心等方式寻求解决基础数据获取问题[12] 数据标准化与行业现状 - 当前数据标准体系不完善,即使在智驾领域,不同厂商在数据格式、语义定义、标注体系和质量要求上存在较大差异,导致数据复用和共享成本很高[13] - 行业期待2026年在数据标准化方面取得进展,以促进数据共享[13]

政府工作报告,为什么点名“高质量数据集” - Reportify