Workflow
高质量数据集
icon
搜索文档
数据标准“加速跑” 30余项数据领域国家标准将在2026年推出
证券日报网· 2026-01-08 11:57
国家数据标准化建设加速推进 - 2026年有望迎来关键突破 国家数据局计划在2026年推出30余项数据领域国家标准 并在智能体 具身智能等前沿方向以及公共数据 高质量数据集等急需领域加快布局标准 [1] - 标准化工作采用“顶层规划+试点验证”模式 2024年发布的《国家数据标准体系建设指南》构建了覆盖数据全生命周期的标准体系框架 目标是在2026年底基本建成国家数据标准体系 [1] - 全国数据标准化技术委员会于2024年10月成立 标志着数据标准化进程不断加速 [1] 高质量数据集标准建设取得进展 - 全国数据标准化技术委员会推动研制了《高质量数据集建设指南》等系列标准 并于2025年8月29日以技术文件形式发布 采用“数据+模型”相结合的方式推进建设及评测 [2] - “十四五”期间 我国研制并发布数据领域国家标准超过120项 在人工智能应用 新型基础设施 数据交易流通等重点方向实现广泛应用 [2] 数据基础设施标准体系的重要性 - 国家数据基础设施是数据基础制度和先进技术落地的重要载体 是构建全国一体化数据市场 保障数据安全高效流动的重要支撑 [2] - 构建数据基础设施标准体系 可以为建设高效流通的利用设施 高效调度的算力设施 高速互联的网络设施 安全可靠的安全保障设施提供建设引领和支撑 [2] 标准化旨在破解数据要素市场化配置难题 - 标准化工作旨在破解数据要素市场化配置中的矛盾冲突 例如公共数据 企业数据 个人数据的权属界定长期缺乏统一规范 导致数据产品交易成本居高不下 [3] - 2025年施行的《公共数据资源登记管理暂行办法》规范了公共数据资源登记 但跨部门数据调用仍需人工审核 公共数据标准有望细化分级分类规则 明晰操作规范 为数据价格形成机制提供量化参考 [3] 数据标准细化将引发产业链连锁效应 - 在技术层面 跨区域算力调度有望摆脱协议不兼容困境 推动隐私计算 区块链等基础设施企业迎来发展黄金期 [3] - 在应用层面 垂直行业将加速标准化改造进程 例如政务 交通 医疗数据接口实现互通 提升城市治理响应速度 催生大量新的应用需求 [3] 标准化推动构建新数字经济范式 - 通过标准化破除数据流通的制度性壁垒 通过场景化验证推动标准迭代升级 将构建起“数据驱动 场景赋能 生态共建”的新数字经济范式 [4] - 当智能体的数据协议成为全球通用准则 当公共数据资产估值模型被国际市场认可 中国数字经济将实现从规模扩张向价值创造的转变 [4]
国家数据局:拓展适应AI发展的高质量数据集流通交易方式
南方都市报· 2025-12-29 19:13
为进一步明晰数据流通服务机构功能定位,加快繁荣数据市场,国家数据局研究起草了《关于培育数据 流通服务机构 加快推进数据要素市场化价值化的意见(征求意见稿)》。在功能定位上,《意见》征 求意见稿提出,引导数据交易所(中心)强化综合服务功能、推动数据流通服务平台企业专业化发展、 支持数据商加大数据产品和服务开发力度。 其中明确,支持数据商通过自采销售、购买转售等方式,积极拓展数据获取渠道,深入行业、结合场景 需求开发数据产品,提供数据采集、加工处理、流通交易等灵活多样的服务,探索开发高质量数据集、 数据即服务等流通交易新模式。支持符合条件的数据商参与公共数据资源开发利用,提升公共数据产品 化服务化开发能力。 在提升服务能力方面,《意见》拟提出,拓展适应人工智能发展的高质量数据集流通交易方式。支持各 类数据流通服务机构协同产业链链主企业等主体,面向服务人工智能发展建设高质量数据集。支持各类 数据流通服务机构加强与人工智能企业等合作,依托数据基础设施提供数据汇聚、治理、模型训练等服 务。 为强化实施保障,《意见》拟要求,加强数据交易所(中心)管理,统筹优化布局,严控数量,适时开 展整合优化。建立跨部门协同监管机制,数 ...
“十五五”数据资源开发利用系列解读五 多向发力 推动付费数据市场建设
人民网· 2025-12-24 22:59
文章核心观点 - 国家政策正大力推动数据要素市场建设,培育“为数据付费买单”的市场意识,以打通数据价值转化堵点[1] - 高质量数据集是AI大模型发展的生命线,而完善的高质量数据付费机制是其流通和价值释放的关键[1] - 当前高质量数据付费市场存在结构性矛盾,但技术、制度和商业模式的演进正推动其呈现积极发展态势[2][4][5][6] - 未来需从强化高质量数据供给、加快数据交易所枢纽建设、构建良好市场环境三方面发力,以促进高质量数据付费市场的形成[7][8][9] 高质量数据付费市场现状与矛盾 - **供给端矛盾**:传统数据企业产品多基于公开数据,市场对其投入成本存疑且权属界定不清易引发权益争议,同时数据产品的创新性劳动与技术投入未获市场广泛认可[2] - **需求端矛盾**:大量中小企业受限于技术与应用能力难以有效参与,企业用数场景集中于金融、医疗等少数行业,且数字化转型短期难显收益导致付费意愿普遍较低[2] - **公开交易市场功能缺失**:数据交易所处于起步阶段,可交易数据产品占比少、增量供给不足,未形成价格发现机制[3] - **市场交易困境**:因信息不对称及“关键少数”买方议价能力强,供需双方易陷入“囚徒困境”,且规范化交易多嵌入信息化项目,制约了付费机制与意识的形成[3] 推动市场发展的积极态势 - **技术演进驱动需求**:AI大模型技术加速社会智能化转型,企业正积极开展AI部署与研发[4] - **技术平权降低门槛**:如DeepSeek等大模型的成功研发,降低了企业应用AI技术的能力门槛与成本,推动“技术平权”[4] - **数据需求质变与量增**:AI普及应用提升对数据数量与质量的需求,且AI模型发展从“重训练”转向“重推理”,对数据质量的要求更甚于数据量,对数据量级的追求将呈指数级增长[4] - **制度供给加强**:国家数据局接连发布《关于加快公共数据资源开发利用的意见》《关于促进企业数据资源开发利用的意见》《关于促进数据产业高质量发展的指导意见》和《关于促进数据标注产业高质量发展的实施意见》等顶层规划文件[5][6] - **商业模式创新探索**:各地数据集团与数据交易所正积极探索,通过公共数据授权运营平台加快高质量公共数据流通,并通过提供产权登记、合规、价值和安全等专业服务,将企业独自承担的成本转为平台整合的公共成本,增加交易可信度以消除付费顾虑[6] 未来市场建设的发力方向 - **强化高质量多元数据供给**:需强化高质量公共数据、企业数据(尤其是大型国央企及互联网平台数据)的供给,推动数据融合应用,企业往往愿意为此类数据买单[7] - **加快数据交易所主枢纽建设**:数据交易所通过标准化规则、体系化服务、便捷化平台,以智能化供需匹配促进高质量数据全国流通,并为中小企业提供低成本、高质量的“数据原料”,通过市场活动激发社会用数活力,形成价值创造正向循环[8] - **构建良好数据市场环境**:需通过确立价格发现、产权登记、安全可信等机制消除信息不对称[9] - **价格发现**:需构建“价值共生”的多元定价模式,超越传统成本定价法,转向场景化价值评估定价,并探索以AI服务定价锚定数据价值的方法[9] - **产权登记**:需明晰登记的是持有权、使用权与经营权等何种权利,以保障各经营主体的数据权益[9] - **安全可信**:通过可信数据空间构建身份可认、使用可控、过程可溯、效果可验的数据可信流通环境[9]
苏数科携手国数院 共建高质量数据集实验室
苏州日报· 2025-12-24 06:19
合作签约与实验室建立 - 苏州数智科技集团有限公司与国家数据发展研究院正式签署合作协议,联合共建"高质量数据集实验室(工业制造领域)",共同打造行业高质量数据集先行试点 [1] - 合作将依托国家数研院在数据集质量评测领域的技术积淀、标准体系与资源优势,结合苏数科在数据产业发展中的实践积累 [1] 实验室核心职能与目标 - 国家数研院将以联合实验室为载体,完善并输出数据集质量评测标准、方法、工具等核心技术成果,巩固其在全国高质量数据集评测领域的引领地位 [1] - 实验室将基于"数据质量静态检测+基准模型动态验证"评测体系及已发布的评测平台,率先聚焦工业制造领域,开展高质量数据集的建设指导与评测实践 [1] - 实验室将重点研究建立工业制造领域的行业基准评测数据集和行业基准模型,通过系统化评测沉淀典型案例,开发行业数据测试算子,推动评测平台与体系的迭代升级 [1] 前瞻性研究与标准制定 - 双方将依托实验室合作开展跨模态数据融合、数据价值测度等前瞻性研究 [1] - 双方将共同研制覆盖高质量数据集全生命周期的相关标准,重点推进数据集质量评测等关键环节标准在工业制造场景的产业化应用 [1] 产业协同与生态构建 - 实验室建成后将强化与苏州承担建设的国家人工智能应用中试基地(制造领域)的协同联动,发挥资源对接与成果转化功能,搭建国家战略与地方产业的桥梁 [2] - 实验室将为"人工智能+"行动计划在工业制造领域的落地实施提供高质量数据支撑 [2] - 实验室将通过举办主题沙龙、联合创新大赛、共建产业联盟等形式,凝聚共识,攻关高质量数据集在质量评测、评估定价、交易流通等领域的关键难题 [2] - 实验室旨在培育优质数据技术成果,锻造专业人才队伍,协同构建共融共生的产业生态,为高质量数据集赋能人工智能产业发展筑牢根基 [2]
中科数字生态创新(云南)中心在昆揭牌
新浪财经· 2025-12-24 06:11
公司动态与战略 - 中科数字生态创新(云南)中心在昆明高新区正式揭牌启动运营 [1] - 公司紧密围绕国家“数字中国”战略与云南省“数字政府”建设部署 [1] - 公司致力于在云南开展创新业务统筹、产业资源整合与品牌生态共建 [1] - 公司将积极探索“北上广深研发+云南加工”的跨区域协同模式 [2] - 公司致力于建设支撑人工智能产业可持续发展的可靠“数据粮仓” [2] - 公司将深化产教融合,开发适配产业的实训系统,着力培养高素质技术技能人才 [2] - 公司将利用昆明在跨境数据等方面的独特政策与区位优势,促进数据要素安全高效流通 [2] 行业现状与挑战 - 数据标注是人工智能大模型迭代的关键基石 [1] - 数据标注产业快速成长,但仍面临技术能力与市场需求脱节、行业标准不完善等挑战 [1] - 行业同时孕育着巨大升级空间与发展潜力 [1] 产业发展方向与建议 - 专家建议探索本地化发展路径,构建“数据标注为基础、AI模型为引擎、跨境场景为出口”的特色产业闭环 [1] - 专家建议推动产业从劳动密集型向高附加值“AI增强型”智慧化转型 [1] - 公司计划推动数据标注产业规范化、规模化发展 [2] - 公司计划培育本土数字经济新增长点 [2]
高质量数据集突破 500PB,数据要素赋能人工智能发展
长江证券· 2025-12-07 19:06
报告行业投资评级 - 投资评级:看好,维持 [6] 报告的核心观点 - 截至三季度末,我国已建成高质量数据集总量突破500PB,为人工智能模型性能提升和创新加速提供了有力支撑 [1][3] - 高质量数据集是驱动人工智能性能跃升的重要动力,其建设工作的重要性有望进一步提升 [10] - 在政策指引和市场需求驱动下,高质量数据集的流通有望推动形成商业化闭环,数据价值有望加速释放 [1][10] - 建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司 [1][10] 根据相关目录分别进行总结 事件描述与背景 - 2025年12月4日,据央视新闻报道,国家数据局数据显示,截至三季度末,我国已建成高质量数据集总量突破500PB [1][3] - 以DeepSeek、ChatGPT、Gemini、通义千问、豆包为代表的大语言模型引领人工智能产业快速发展,其预训练依赖海量数据 [10] - 未经筛选的低质量数据易导致“模型幻觉”,且预训练所需的可用数据资源即将用尽,对高质量数据集的需求缺口将继续增大 [10] 政策与建设进展 - 2025年8月,国家数据局发布《高质量数据集建设指引》,提出“1+1”参考路径,指导推进高质量数据集建设 [10] - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设 [10] - 部署了140项先行先试任务,初步实现了“人工智能+”到哪里,高质量数据集建设和应用就到哪里的氛围 [10] - 在2025年科创大会上,国家数据局局长刘烈宏指出需培育“为高质量数据付费”的意识,为数据要素市场化配置改革注入新动力 [10] 行业影响与投资建议 - 高质量数据集的流通有望推动形成商业化闭环,在大模型加速落地过程中,数据的价值或将进一步被挖掘 [1][10] - 只有当企业、政府与个人普遍认可并愿意为可信、合规、精准的数据支付合理对价时,才能有效激励数据供给侧的专业化与规范化,推动数据要素价值充分释放 [10] - 建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司 [1][10]
我国已建成高质量数据集总量超500PB 有望成为撬动经济增长新引擎
证券日报网· 2025-12-05 20:03
国家高质量数据集建设进展与政策推动 - 国家数据局公布数据显示,我国已建成高质量数据集总量超500PB [1] - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向推动各行业高质量数据集建设 [1] - 国家数据局在2025年2月召开建设工作启动会,6月征集典型案例,8月发布《高质量数据集建设指引》,9月公布104个典型案例名单 [1][2] 高质量数据集对人工智能与产业发展的价值 - 高质量数据集是训练和优化人工智能模型的基础,其丰富性、准确性和多样性直接决定了模型的性能上限 [2] - 高质量数据集的丰富和完善将优化人工智能算法,提升性能,吸引更多企业和开发者参与,形成技术生态良性循环 [2] - 高质量数据集的建设将催生数据标注、清洗、管理等数据服务产业的发展机遇 [2] 高质量数据集在各行业的具体应用与经济效益 - 在电子商务领域,基于用户行为数据的高质量数据集能帮助企业实现精准营销,提高用户转化率和购买力,增加销售额和利润 [3] - 在制造业,高质量数据集的应用能实现生产智能化和自动化,提高产品质量与生产效率,降低生产成本,增强市场竞争力 [3] - 典型案例显示,如节能光伏一体化综合能源高质量数据集建设,能将系统从“经验驱动”升级为“数据驱动、全局最优”的智能体 [2] 高质量数据集的宏观战略意义 - 发展高质量数据集是驱动人工智能技术跨越式发展、催化产业迭代升级与结构转型、强化社会治理效能、赋能科学研究革新的核心 [3] - 高质量数据集的打造有望成为撬动经济增长的新引擎,对技术生态、宏观经济、社会文化等维度产生深刻广泛影响 [3]
一图读懂︱《关于推动“人工智能+民航”高质量发展的实施意见》
中国民航网· 2025-12-04 20:15
核心观点 - 中国民用航空局发布实施意见,旨在通过系统性推动人工智能与民航业深度融合,以创新驱动和场景赋能,全面提升行业的安全、运行、出行、物流、监管及规划建设水平,目标是到2027年形成一批示范应用,到2030年使人工智能成为推动民航高质量发展的强劲引擎 [1][4] 发展目标 - **2027年目标**:人工智能与民航各领域融合发展率先实现,核心支撑要素建设初见成效,形成一批示范场景、智能化产品与应用 [4] - **2030年目标**:人工智能与民航各领域广泛深度融合,治理体系和安全保障体系逐步完善,有效促进行业提升,成为推动民航高质量发展的强劲引擎 [4] 创新赋能场景 - **人工智能+安全**:应用于机场运行与空防安全、空管风险预警与应急响应、飞行安全与机务维修、通用航空与低空安全保障,旨在提升安全风险的主动感知、精准预警与快速处置能力 [5] - **人工智能+运行**:应用于航司航班编排与运行调度、空管管制指挥与容流调控、机场航班保障与资源分配、多主体运行协同,旨在构建“全域感知、协同决策、智能优化”的智慧运行体系 [5] - **人工智能+出行**:应用于个性化旅客服务、旅客便捷出行服务、智能客服,旨在提升旅客出行体验与智能服务生态 [6] - **人工智能+物流**:应用于物流信息数字化集成、航空物流高效运营、物流保障少人化与无人化,旨在促进航空物流降本提质增效 [6] - **人工智能+监管**:应用于安全监管、市场监管、数字政务,旨在提升行业监管的主动感知、精准识别与风险防控能力 [7] - **人工智能+规划建设**:应用于民航基础设施规划、民航基础设施建设智能化,旨在提高民航规划建设智能决策、精准管控、动态优化能力 [7] 强化要素供给 - **高质量数据集建设**:推进航空公司、机场、空管、监管等数据集建设和高效共享 [8][9],构建全生命周期高质量数据集建设标准,强化数据清洗、标注和质量评估 [10][11],并聚焦重点业务场景构建行业大模型所需语料库和知识库 [12][13] - **基础设施平台构筑**:统筹推进民航算力基础设施建设,鼓励联合构建行业人工智能算力支撑体系,促进各单位算力资源的协同共享与高效利用 [14],同时加强信息基础设施高效建设与安全运行,强化主动网络安全防护及信息系统智能配控、自动化运维等能力 [15],并推进数据流通利用基础设施建设,建设行业及分领域大数据中心,研究构建行业可信数据空间 [17] - **行业模型算法研究**:推进适配行业特点的民航大模型研发,加强通用大模型与民航业务深度融合以构建决策智能体 [18],突破一批面向垂直场景、具备行业知识嵌入、可解释性高的专用智能算法 [18],并建立健全模型算法的安全性、可靠性评估与共享机制,搭建共享生态 [18] 强化融合创新 - **行业融合**:构建资源共用、协同联动、共创共享的民航人工智能融合创新生态,涉及航空公司、机场、空管、服务保障、科研院所等多主体 [18][19] - **产业融合**:构建技术互通、数据互信、流程互嵌、生态互促的协同体系,推动民航与数字产业、制造产业融合 [19] 保障措施 - 为确保目标实现,提出了组织保障、安全保障、人才保障、政策保障、示范引领五项保障措施 [19]
超500PB!
中国能源报· 2025-12-04 12:33
高质量数据集建设现状 - 截至三季度末,我国已建成高质量数据集总量超过500PB [1] - 高质量数据集赋能人工智能模型性能提升和创新加速 [1] 政策与行业推动举措 - 国家数据局联合26个部委共同制定以场景应用为导向的政策文件,推动各行业高质量数据集建设 [1] - 部署140项先行先试任务,初步实现人工智能应用与高质量数据集建设同步推进的良好氛围 [1] 市场发展与投资意识 - 全社会需要加大数据领域投入,培育为高质量数据付费的意识 [1] - 为数据要素市场化配置改革注入新动力 [1]
国家数据局:我国已建成高质量数据集总量超500PB
央视新闻· 2025-12-04 11:06
行业政策与战略方向 - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设[1] - 部署了140项先行先试任务,初步形成人工智能应用与高质量数据集建设同步推进的良好氛围[1] - 全社会需要加大数据领域投入,培育为高质量数据付费的意识,为数据要素市场化配置改革注入新动力[1] 行业发展现状与规模 - 截至三季度末,中国已建成高质量数据集总量超500PB[1] - 高质量数据集正赋能人工智能模型性能不断提升,并推动创新持续加速[1] - 高质量数据集被定义为数智创新的关键资源[1]