数字化转型梯队划分 - 互联网、金融、商贸流通等行业处于第一梯队,数字化转型深度和广度不断拓展,垂直大模型和智能体等数据系统应用广泛替代面向流程和业务的信息化系统 [1] - 气象、时空、医疗、交通等行业处于第二梯队,数据采集汇聚规模大质量高,人工智能垂直大模型和智能体应用增多 [2] - 政务服务、社会管理、高端制造业处于第三梯队,数据资源采集汇聚增强但加工处理滞后,数据应用处于初级阶段 [1] - 中小企业和农业处于第四梯队,处于信息化初级阶段,信息系统未建设应用,数据资源未得到充分重视和应用 [1] 数据要素市场化难题 - 数据具有多环节性和低成本易复制性特点,导致确权困难或确权成本很高 [2] - 数据存在阿罗信息悖论效应特征,导致难以实现场内规模交易 [2] - 数据价值不确定性特征导致价值易变,难以定价 [2] 人工智能数据产业链 - 下游是垂域大模型在千行百业的应用 [3] - 中下游是在基础大模型上加上大规模行业高质量数据集训练调优的垂域大模型 [3] - 中上游是加工海量数据资源生产的规模化、标准化、体系化高质量数据集 [3] - 上游是各行各业的数据资源供给 [3] - 整条数据产业链需要在数据基础设施中实现 [3] 人工智能发展关键因素 - DeepSeek等企业实现MOE等关键技术突破,采取模型开源策略,实现"算力平权"和"算法平权" [4] - 高质量数据集成为决定大模型质量的关键因素,供给规模和质量决定行业渗透速度和应用水平 [4] - 在同等计算资源下,高质量数据集规模比算法模型规模更重要 [4] - 医疗数据集中含有0.001%错误信息就可能导致模型输出不准确医学答案 [4] - 垂域大模型能力决定企业核心竞争力,训练推理高度依赖高质量数据集供给 [4] 数据资源流通现状 - 全球数据资源中20%是公域可流通数据,80%是私域不可流通数据 [5] - 公域数据中仅4%是互联网可流通格式化数据,16%多模态数据不能直接流通 [5] - 预计2028年互联网上流通数据将全部耗尽 [5] - 需建设数据流通利用基础设施促进私域数据安全高效流通 [5] 数博会平台价值 - 数博会是全球首个以大数据为主题的博览会,我国数据领域两大国家级平台之一 [5] - 聚焦大数据、人工智能、云计算等前沿技术,提供行业风向标 [5] - 聚集华为、腾讯、蚂蚁等科技企业,搭建校企合作平台促进产教融合 [6] - 2025数博会通过"数字人才培养"活动探讨产学研用协同育人模式 [6] - 促进跨区域跨领域协同创新,如深圳大数据研究院与香港中文大学合作开展人工智能研究 [6] 数博会未来发展方向 - 更加重视面向人工智能应用的高质量数据集建设,建议设立人工智能+专场和高质量数据集建设专场 [6] - 更加重视传统产业数字化转型,建议设立传统产业数字化转型专场梯度开展IT、BI、AI应用 [7] - 更加重视数据要素普惠化应用,建议设立国家数据基础设施建设专场建设全国一体化数据基础设施 [7] 贵州数据发展定位 - 希望贵州打造成为全国乃至全球的"两地四区" [8] - "两地"指数据技术策源地和数据制度新高地 [8] - "四区"指数据应用引领区、数据安全先行区、数据资源汇聚区和数据流通示范区 [8]
数博对话|北京交通大学教授张向宏:高质量数据集是决定大模型质量的关键因素
环球网·2025-08-19 16:02