高质量数据集
搜索文档
未来产业:数据要素和交易
2025-11-07 09:28
行业与公司 * 行业为数据要素与人工智能产业 公司提及海能生等数据标注龙头企业[1][9] 核心观点与论据 * 数据要素是人工智能产业发展的三大关键要素之一 是重要的战略资源和底层基础设施[2] * 国家高度重视数据要素 自2022年12月起出台多项纲领性政策文件 并于2023年初成立国家数据局进行专门管理[1][2][4][5] * 建设全国统一大市场是核心目标 数据资源的流通、交易和确权是其重要组成部分[1][2] * 数据标注行业发展迅速 国家已统筹建设七大高质量数据标注基地 数据集总规模达29TB 带动相关产值超过83亿元[1][6] * 人工智能应用规模快速增长 2025年初至6月底 我国日均Token消耗量从约1,000亿增长至超过30万亿 增长超过300倍[1][8] * 大模型训练中中文数据占比超过60% 部分模型达到80% 高质量中文数据集开发空间巨大[1][9] * 2025年10月政策文件指出工业制造、现代农业等9个领域的数据要素典型应用场景 各行业对数据要素有强烈需求[1][10] * 公共数据的开发利用至关重要 能提高社会治理效率 需通过合理机制打通公安、医疗、运营商、金融等不同部门的数据[1][10][12] 其他重要内容 * 数据要素产业投资热点方向包括数交所、人工智能及医保、交通、能源等具体应用场景探索[8] * 在人工智能时代 模型调用的Token数是衡量应用受欢迎程度和市场潜力的重要指标[1][8] * 北京、上海、天津等城市在试点数据作价入股模式 将高质量数据集折算成股权投入企业 上半年数据集相关交易额接近40亿元[8] * 算力基础设施建设与数据密切相关 国家推进数据中心建设和分布式计算技术发展[9] * 广东、上海、福建、浙江等省份有望在数字经济发展中领先 地方国有企业和掌握高质量数据资源的龙头公司将形成协同优势[3][11] * 上市公司积极参与数据要素应用探索[3][11]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 16:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]
全国高质量数据集和数据标注产业供需对接大会在宁举行
南京日报· 2025-11-06 11:33
大会概况与核心成果 - 大会于11月5日在南京举行,主题为“推进高质量数据集建设,淬炼人工智能数据燃料”,是国内首个聚焦高质量数据集与数据标注全链条的全国性对接平台 [1] - 大会吸引全国超过500家企业参与,现场达成合作90余项,累计交易金额突破9亿元人民币 [1] - 现场启动“数智未来”高质量数据集开发者创新大赛,并正式发布高质量数据集建设公共赋能平台,提供一站式数据服务 [2] 参与方与行业覆盖 - 京东科技、阿里云、华为云、出门问问、企查查、澳鹏中国、上海库帕斯、江苏省人民医院及江苏省数据交易所等9家代表企业分享了在电商、云计算、医疗、金融、工业等领域的落地实践 [2] - 大会设置主会场及医疗健康、智慧能源、工业制造、交通运输、文化旅游五大行业供需对接专场,覆盖大模型训练和行业智能化转型的数据需求 [1] - 国家数据发展研究院院长胡坚波、中国电子技术标准化研究院副院长范科峰等权威机构负责人分享了高质量数据集的建设路径、标准与评测规范 [2] 产业发展模式与地方实践 - 多个省市结合本地产业特色,在能源、交通、文旅等领域开展差异化探索,形成“国家引导、地方实践、企业主导”的高质量数据集建设新路径 [2] - 南京市将高质量数据集建设作为核心抓手,在国家数据局发布的16个高质量数据集建设行业领域已实现全覆盖,初步形成“政策引领、创新驱动、产业集聚、应用丰富、开放合作”的发展格局 [3] - 高质量数据集的建设正从顶层设计加速走向产业实践的“深水区”,一批跨行业的合作成果集中亮相 [2]
现场撮合交易额超9亿元!全国首场高质量数据集和数据标注产业供需对接大会在宁举办
扬子晚报网· 2025-11-05 21:41
大会概况与核心成果 - 2025全国高质量数据集和数据标注产业供需对接大会在南京成功召开 吸引全国超过500家企业参与 现场达成合作90余项 累计交易金额突破9亿元人民币[1] - 大会主题为推进高质量数据集建设 淬炼人工智能数据燃料 设置主会场及医疗健康 智慧能源 工业制造 交通运输 文化旅游五大行业供需对接专场[1] - 京东科技 阿里云 华为云等9家代表企业分享了高质量数据集在电商 云计算 医疗 金融 工业等领域的落地实践[1] 产业共识与发展趋势 - 企业普遍认为构建标准化 规模化 可信化的数据供应链已成为推动大模型商业化应用与行业智能化的关键[1] - AI产业已从模型竞争步入数据竞争时代 高质量 场景化数据是制约AI规模化应用的最关键瓶颈 尤其在农业 工业等复杂物理世界领域[4] - 高质量数据集将真正成为人工智能时代的新石油 为数字中国建设注入强劲动能[4] 平台建设与生态发展 - 高质量数据集建设公共赋能平台正式发布 提供数据集全生命周期服务及多模态数据标注能力 保障数据清洗及全链路安全[2] - 大会现场成功启动数智未来高质量数据集开发者创新大赛 旨在为高质量数据产业发展选拔顶尖技术人才[2] - 一批跨行业的高质量数据集与数据标注合作成果集中亮相 标志着高质量数据集建设正从顶层设计加速走向产业实践的深水区[2] 区域产业布局与企业动态 - 南京已集聚超3000家数据企业 形成完整产业链 江苏国际数据港构建起可用不可见 可控可计量的数据流通机制 为能源企业提供跨境数据支持[3] - 国机集团二级总部国机数科落户徐庄高新区 投资30亿元人民币推进农机云和机械装备行业云两朵国家行业公有云建设[4] - 国机数科通过人工智能技术带动中国机械装备产品出海 助力北斗定位系统走出去 拓展海外粮源[4]
人工智能高质量数据集生态发展大会在重庆永川举行
新华网· 2025-09-29 16:41
大会概况 - 人工智能高质量数据集生态发展大会于9月28日在重庆永川举行 主题为构建高质量数据集 赋能AI新发展 [1] - 大会通过政策宣介 案例分享 揭牌签约 产业对话等形式推动人工智能数据基础设施建设 深化区域数据要素协同创新 [1] - 大会是永川区推动数据要素市场化配置改革和人工智能产业发展的重要举措 [7] 合作与基地建设 - 重庆市大数据应用发展管理局与永川区政府签署协议 共同建设重庆市数据集建设应用基地 [3] - 重庆市大数据局支持永川区企业参与重庆城市可信数据空间的数据集建设 并指导构建数据标注标准规范及质量控制体系 [3] - 西部数据标注研究院和西部数据集生产基地在大会上同步揭牌成立 [3] 机构职能与规划 - 西部数据标注研究院由中国信息协会与永川区政府共同发起 定位为数字技术共享平台 产业孵化平台及生态构建平台 [4] - 研究院将开展人工智能 高质量数据集等领域的技术科研创新 标准制定 质量评测 并培养复合型数据标注人才 [4] - 西部数据集生产基地由中国信息协会与永川区政府共建 旨在推动数据集生产类企业落地 促成数据要素汇集 打造辐射全国的数据产业 [4] 产业生态与合作 - 永川区与中国移动 中国电信等12家企业签署合作项目 与会代表围绕高质量数据集建设等话题进行深入交流 [6] - 永川区将数据标注产业作为推动数字经济和实体经济深度融合的重要抓手 积极探索数据标注+场景应用流通模式 [6] - 永川区目前园区已集聚数据标注类企业18家 建成标注坐席1.2万席 2024年相关业务营收达13.76亿元 是西南地区重要的数据标注产业基地 [6] 未来发展目标 - 永川区以建设数据要素产业聚集强区为目标 全力推进建设数据标注产业园等四大行动 [7] - 永川区力争到2027年成为成渝地区双城经济圈数据要素流通枢纽节点和数据标注服务基地 [7]
国家数据局:加快行业高质量数据集建设
中国证券报· 2025-09-22 04:17
核心观点 - 国家数据局局长强调数据是制造业高质量发展的基础资源和创新引擎,需加大投入和开发利用 [1] - 高质量数据集被喻为决定人工智能在制造业应用成效的“高标号燃油” [1] - 目标是形成数据供得出、流得动、用得好、保安全的良好局面 [2] 数据资源战略定位 - 数据作为关键生产要素贯穿制造业研发设计、生产制造、经营管理、市场营销、客户服务全流程 [1] - 制造业企业需像重视技术研发和设备更新一样重视数据资源开发利用 [1][2] - 企业尤其是数智化能力强的龙头企业需靠创新驱动和数据驱动来发展,防范“内卷式”竞争 [2] 数据领域投入与建设 - 需在数据采、存、算、管、用全过程增加投入力度 [2] - 需加快行业高质量数据集建设以赋能“人工智能+”在行业和企业的落地 [1][2] - 需加力投资数据产业,积极培育数据资源、技术、服务、应用、安全、基础设施等各类型数据企业 [2] 数据市场生态培育 - 需培育为优质数据付费的市场意识,形成“为高质量数据付费”的共识 [2] - 需让数据在流动中使用、在使用中增值 [2] - 高质量数据集在很大程度上决定着人工智能技术在制造业应用中能否跑得稳、跑得远、跑出效益 [1]
国家数据局:加快行业 高质量数据集建设
中国证券报· 2025-09-22 04:15
数据资源在制造业的战略定位 - 数据成为制造业高质量发展的基础资源和创新引擎,作为关键生产要素贯穿于研发设计、生产制造、经营管理、市场营销、客户服务等全流程 [1] - 高质量数据集是数智化转型的新型燃料,在很大程度上决定着人工智能技术在制造业应用中能否跑得稳、跑得远、跑出效益 [1] 对制造业企业的具体行动建议 - 制造业企业要像重视技术研发、设备更新一样重视数据资源的开发利用,在数据采、存、算、管、用全过程增加投入力度 [2] - 加快行业高质量数据集建设,赋能"人工智能+"在行业、在企业得到落地 [2] - 企业尤其是数智化能力强的龙头企业,要靠创新驱动和数据驱动来发展,共同防范和破除"内卷式"竞争 [2] 数据产业的投资与市场培育 - 要加力投资数据产业,积极培育数据资源、技术、服务、应用、安全、基础设施等各类型数据企业 [2] - 培育为优质数据付费的市场意识,形成"为高质量数据付费"的共识,让数据在流动中使用、在使用中增值 [2] - 目标是形成数据供得出、流得动、用得好、保安全的良好局面 [2]
加快推动高质量数据集建设 助力构建开放共赢的数据生态
证券日报网· 2025-09-16 20:18
国家高质量数据集建设先行先试工作启动 - 国家数据局组织开展高质量数据集建设先行先试工作 确定140个先行先试工作单位 围绕试技术、试支撑、试标准、试机制等四项重点任务 [1] - 先行先试工作覆盖全国25个省份 支撑18个重点领域包括科学研究、工业制造、金融服务、医疗卫生等 以及低空经济、智能驾驶等创新领域 [1] - 国家数据局将加强对先行先试工作指导 定期监测项目进展和成效 开展技术交流及主题研讨活动 [1] 高质量数据集发展现状与市场意义 - 2024年我国高质量数据集数量同比增长27.4% 数据质量是人工智能从"可用"向"好用"跨越的关键瓶颈 [2] - 通过"场景驱动+示范先行"策略推动跨部门跨行业数据协同 培育"为优质数据买单"的市场环境 推动数据从"资源"向"资产"转化 [2] - 数据合成、隐私计算等关键技术突破将推动高质量数据集生产规模化 助力构建开放共赢的数据生态 [2] 金融领域高质量数据集应用案例 - 证通股份申报《资本市场融资企业高质量数据集建设》 恒生电子申报《面向金融行业大模型的多模态高质量数据集建设》 [2] - 高质量数据集整合企业研发投入、专利数据、供应链关系等多维度信息 构建动态化企业画像 降低信息不对称问题 [3] - 投资者和金融机构通过数据集精准识别企业技术领先性与商业化潜力 提升对轻资产、高成长性企业的风险评估能力 [3] 高质量数据集的监管与技术创新价值 - 为监管机构提供穿透式监管工具 通过整合企业交易数据、关联方信息、资金流向等实时识别违规操作 提升监管效率 [3] - 隐私计算技术确保数据"可用不可见" 平衡数据共享与隐私保护的需求 [3] - 推动金融业态从"经验驱动"向"数据驱动"深度变革 为构建高效、安全、创新的现代金融体系提供关键支撑 [3]
广东电网:“数字匠芯”筑就AI高质量数据基石
中国电力报· 2025-09-16 15:36
核心观点 - 广东电网构建的高质量数据集获评国家数据局典型案例 标志着公司在人工智能数据工程领域的前瞻布局落地见效 [1] - 通过高标准数据处理与标注体系为人工智能工程注入精准可靠数据 为设备赋智 企业赋值 产业赋能提供全新范本 [1] - 将150万条多模态电力安全数据转化为可复用 可迭代 可赋能的数字资产 推动安全监管算法从单一场景识别向多维度风险预判升级 [4] - 高质量数据集入选国家级典型案例 为人工智能与实体经济深度融合提供可复制 可推广的电力范本 [5] 人工智能数据工程建设 - 搭建高标准高精度数据处理与标注体系 形成产业化样本标注体系 如同智能化数据工厂对海量电力现场图片 视频 声纹波形进行精细化加工标注 [2] - 高质量数据集为AI在电力行业深度应用奠定坚实数字基石 此前产出的数据集为AI模型进化提供核心燃料 [2] - 成熟体系能高效批量生成教材 让AI学得更快更准 保障数据精准 助力模型在安全生产风险预警中发挥大作用 [2] 实际应用成效 - 在广州电缆隧道智能巡检中 AI模型依托高质量数据集能瞬间识别工作人员作业风险 准确率与效率远超人工 [3] - 基于算法识别的高频违规行为数据 团队反向优化作业流程规范 全年减少同类违规事件32% 实现数据 算法 业务的价值闭环 [4] - AI算法在安全监管中实现看得见 辨得准 预警快 探索出数据驱动业务优化的新路径 [4] 行业价值与推广意义 - 电力数据凭借实时性 连续性 高价值性的独特优势 成为破解行业发展难题 培育新质生产力的关键抓手 [4] - 数据集打破传统数据分散存储 价值沉睡的壁垒 实现电力作业安全数据标准化采集 精细化标注 体系化应用 [4] - 从现场数据采集标准化到标准质控体系化 再到数据 算法 应用闭环化 每个环节紧扣行业实际需求 有效避免技术空转 [5] - 案例证明只有立足行业场景 聚焦实际需求构建的数据体系 才能让AI真正扎下根 结出果 为多领域AI应用提供有益借鉴 [5]
2025年中国数据要素行业发展研究报告
艾瑞咨询· 2025-09-14 08:07
核心观点 - 数据作为第五生产要素具有非竞争、可复制、无限增长特性 其价值挖掘需依赖政策框架与市场化体系 通过政产联动推动数据要素市场发展[1] - 国内数据要素市场预计以20.26%复合增长率增长 2028年突破3000亿元 其中数据处理环节规模达1440亿元[6] - 数据价值链流通涵盖合规确权、登记、评估、入表、交易、资本化及通证化七个环节 形成完整价值释放体系[11][13][16][19][21][23][25] 行业现状 - 政策指导与产业建设共同推动数据要素市场体系完善 行业向更高价值政产联动迈进[2] - 数字经济规模从2017年27.2万亿增长至2023年53.9万亿 复合增长率12.07% 2024年核心产业增加值达13.49万亿元 占GDP10%[6] 政策体系 - 数据二十条政策明确三大数据源分类分级确权制度 划分数据资源持有权、加工使用权与产品经营权[11] - 建立1+3政策体系推动公共数据资源管理 通过国家公共数据资源登记平台实现全国一体化登记[13] 市场规模 - 数据要素市场复合增长率20.26% 2025年达2000亿元 2028年突破3000亿元[6] - 金融业占比约三分之一 互联网产业占比20% 通讯、制造、政务、医疗、交通等行业持续提升规模[28] 价值链流通-合规确权 - 数据要素权属体系建设是价值链流通前提 数据二十条政策完善确权制度但实践仍存在公共数据开放不足、企业流通受阻等问题[11] 价值链流通-数据登记 - 数据资源由行政事业单位登记 数据产品及资产由交易机构登记 公共数据通过国家平台实现全国互联互通[13] 价值链流通-价值评估 - 2019年发布数据资产评估指引开启计量时代 2024年6月发布公共数据价值评价标准填补领域空白[16] - 数据价值易变性导致评估复杂 需阶段性评估调整 市场公允价值评估依赖信息透明度与专家主观判断[17] 价值链流通-资产入表 - 2024年会计处理暂行规定实施 数据资源以无形资产等形式入表 改善企业资产负债结构[19] - 上市企业数据入表数量提升 主要应用于对外服务、内部降本增效及AI开发 但交易流通活跃度不足[19] 价值链流通-资产交易 - 数据交易呈现内冷外热模式 场外交易占主导 政策调整为场内场外协调发展[21] - 五大头部交易所在交易规模、标准制定等领域发挥主导作用 但场外交易面临安全与合规问题[21] 价值链流通-资本化应用 - 数据资本化优化企业融资渠道 特别服务科技企业 实现科技-产业-金融循环[23] - 金融杠杆同步扩大数据价值属性与市场风险 需动态评估把控风险[23] 价值链流通-资产通证化 - RWA将实物资产转化为数字资产 RDA通过四大创新模式将数据转化为金资产[25] - DCB体系以交易底链、资产链与价值链组合保障通证化安全推进[25] 产业实践-金融业 - 多元数据融合提升风控、营销、投资业务表现 金融机构技术输出助力中小企业转型[30] - 金融数据要素规模以19.06%复合增长 2028年突破1000亿元 五大数交所上架2060款金融数据产品[31] 产业实践-工业制造业 - 可信数据空间与高质量数据集推动产业由规模红利向数据红利转型[34] - 工业数据要素规模以24.22%复合增长 从2025年157亿元增长至2028年302亿元[34] 产业实践-医疗健康业 - 医疗数据推动三医产业协同发展 提升资源配置与服务效率[36] - 医疗数据要素规模以23.69%复合增长 2028年突破250亿元 需关注个人数据安全合规[36] 行业趋势-高质量数据集 - 高质量数据集为AI产业提供关键要素 2025年行动方案将其作为重点布局对象[39] - 截至2025年上半年建设数据集524个 规模超29PB 服务163个大模型[39] 行业趋势-可信数据空间 - 可信数据空间实现数据可用不可见下的价值共创 2025年出台发展行动计划[42] - 首批试点63个项目涵盖13城市、22行业、28企业 2028年计划建设超100个可信数据空间[42]