高质量数据集

搜索文档
今年底数据流通节点城市将扩大到50个左右
中国证券报· 2025-08-15 04:16
数字基础设施建设成就 - 截至2025年6月底5G基站总数达455万个较2020年增长5倍千兆宽带用户达2.26亿户增长34倍算力总规模全球第二 [2] - 已建成25个城市节点布局16个省区市数据基础设施架构7月底完成互联互通预计年底节点城市扩至50个覆盖80%省区市 [3] - 数据基础设施建设吸引超2000家主体接入支撑政务治理金融风控等上百场景应用上架近万个数据产品 [3] 数据要素市场化改革 - 国家数据局推出公共数据资源开发利用等21项政策2024年将推出数据产权等10多项制度 [1] - 高质量数据集累计交易额近40亿元交易机构挂牌数据集总规模达246PB上海天津安徽试点"数据语料作价入股"模式 [4] - 已布局成都沈阳合肥等7个数据标注基地推动数据标注产业发展 [4] 数字技术创新与产业突破 - 集成电路形成设计制造封装测试材料装备完整产业链国产操作系统加速崛起 [2] - 截至2024年底软件收入规模较2020年增长80%规模以上电子信息制造业增加值增长超70% [2] - 数字经济带动新增超100个新型职业创造新就业机会 [2] 高质量数据集发展 - 已建设高质量数据集超3.5万个总体量超400PB相当于中国国家图书馆数字资源总量140倍 [3] - 将重点打造具身智能低空经济生物制造等领域数据高地培育"为优质数据买单"市场共识 [4] 数据流通与应用生态 - 制定《国家数据基础设施建设指引》明确"三统一"互联互通要求提出匿名化处理等9项技术规范 [2] - "十五五"期间聚焦高质量标准构建大规模设施部署市场化生态运营打造世界领先数据基础设施 [3]
上海布局、各方协同,这场论坛力促大模型“落地生花”
国际金融报· 2025-07-27 23:33
上海市人工智能发展规划 - 上海市正深化人工智能全产业链布局 构建智能算力资源统筹调度服务平台 2025年底智算供给能力将超10万P [1] - 上海市形成"4个基础模型+N个垂域模型"发展路线 以及"一东一西、一软一硬"差异化发展布局 [1] - 下一步将通过构建高质量语料供给体系 加大重点垂直领域应用 创新应用生态构建等举措加快建设人工智能"上海高地" [1] 中国电子人工智能布局 - 中国电子建立了完整集成电路产业链 构建以飞腾、麒麟、达梦、中国电子云、中国长城为代表的全栈信创底座 [1] - 积极落实"数据要素×"行动 在数据资源利用与价值激活上进行诸多探索 [1] - 中国电子云自主研发CECSTACK专属云平台 为人工智能应用发展提供高效算力支撑 打造全链路AI解决方案 [2] 人工智能技术挑战与突破 - 我国人工智能产业在芯片、算力、数据、生态等领域面临挑战 [2] - 需聚焦研制低成本个人用推理机与提高国产智算系统可用性 如KTransformers系统通过以存换算方式降低AI使用门槛 [2] - 国产智算操作系统需构建类CUDA系统 同时做好并行系统、编程框架等10个关键软件 充分释放国产硬件算力 [2] 数据要素发展现状 - 高质量数据集具备高技术含量、高知识密度、高价值应用的"三高"特征 [3] - 高质量数据集建设面临目标定位模糊、实施路径碎片化、技术底座薄弱三大难题 [3] - 新一代数据标注和合成数据为突破"数据墙"提供解决思路 [3] 中国电子云产品与服务 - 发布中国电子云·新星全链路AI解决方案 打造"3+3+N"产品服务体系 [3] - 提供多模态数据治理平台、模型开发平台、应用开发平台3大核心产品 [3] - 构建AI战略咨询、交付、课程3大服务体系 提供多个行业通用应用 [3] 行业合作与倡议 - 中国电子云与中国长城、沐曦股份签署三方战略合作 [4] - 与中国信通院人工智能研究所等多家机构签署合作协议 [4] - 联合多家机构发起《加速中国自主人工智能高质量发展及产业落地倡议》 从技术研判、算力生态、数据集建设等五个方面推进 [6]
院士郑纬民:中国不仅要构建类CUDA系统,同时也要做好10个关键软件
观察者网· 2025-07-26 22:48
人工智能产业发展战略 - 上海市正深化人工智能全产业链布局 构建全市智能算力资源统筹调度服务平台 2025年底智算供给能力将超10万P [1] - 上海市形成"4个基础模型+N个垂域模型"发展路线 打造"一东一西 一软一硬"差异化布局 [1] - 上海将通过构建高质量语料供给体系 加大重点垂直领域应用 创新应用生态构建等措施加快建设人工智能"上海高地" [1] 人工智能技术挑战与突破 - 我国人工智能产业在芯片 算力 数据 生态等领域面临挑战 需聚焦低成本个人用推理机研制和国产智算系统可用性提升 [3] - KTransformers系统通过以存换算方式降低AI使用门槛 国产智算系统需构建类CUDA系统并完善10个关键软件 [3] - 企业应用AI需找准核心问题 用好高质量数据 微调基础大模型 [3] 数据要素发展现状 - 高质量数据集具备高技术含量 高知识密度 高价值应用的"三高"特征 是AI发展核心驱动力 [5] - 高质量数据集建设面临目标定位模糊 实施路径碎片化 技术底座薄弱三大难题 [5] - 国家部委和地方政府推动"人工智能+数据要素"政策协同 新一代数据标注和合成数据为突破"数据墙"提供新思路 [5] 企业人工智能布局 - 中国电子建立完整集成电路产业链 构建以飞腾 麒麟 达梦 中国电子云 中国长城为代表的全栈信创底座 [7] - 中国电子云自主研发CECSTACK专属云平台 提供通算 智算 超算一体化服务 打造全链路AI解决方案 [7] - 中国电子云将在政务 医疗 金融等关键行业打造行业大模型 推动"人工智能+"行动落地 [7]
华为云、美的、网易…“大厂”为啥把算力“大本营”选在这儿
金融时报· 2025-07-26 16:49
人工智能+行动推进 - 政府工作报告提出持续推进"人工智能+"行动,强调将数字技术与制造优势、市场优势结合,支持大模型广泛应用 [1] - 高质量数据集分为通识类、行业通识类、行业专识类三类,国家数据局将全面加速高质量数据集建设和应用落地 [1] - 国家数据局开展生态培育专项行动,包括典型案例征集、技术交流活动、供需对接平台建设等措施 [2] 高质量数据集建设 - 国家数据局指导合肥、成都等7个城市建设数据标注基地,截至上半年建设数据集524个,规模超过29PB,服务大模型163个 [2] - 数据决定人工智能上限,算力决定下限,贵州推进"东数西算"战略,转向"存算一体、智算优先" [2] - 华为云全球最大智算中心、腾讯、网易、美的的算力基地均落户贵州 [2] 贵州算力基础设施建设 - 贵州省在建和投运的重点数据中心48个,其中大型数据中心28个,存储能力达25EB(相当于50亿部高清电影) [3] - 贵州省智算规模达85EFLOPS,智算占比超98%,出省带宽超6万Gbps,建成全球首条400G算力通道 [3] - 贵州为全球50多个国家和地区、20多万用户提供云渲染算力服务,如《哪吒2》渲染工作 [3] - 华为云在贵州建设第三个大型园区,重点推进"东数西算"南部大通道建设,优化"贵州算力券"政策 [3]
2025数博会下月在贵阳举行 国家数据局:将开展高质量数据集和数据标注交流活动,并发布一批典型案例
每日经济新闻· 2025-07-22 15:27
2025中国国际大数据产业博览会 - 2025数博会由国家数据局主办、贵州省人民政府承办,将于8月28日至30日在贵阳举行,主题为"数聚产业动能智启发展新篇",聚焦数据要素与AI技术融合创新[1] - 数博会自2015年举办以来已成为我国数据领域展示成果、促进开放合作的重要平台,本届将推动数据资源高效开发利用,为产业转型注入新动力[1] 贵州省人工智能产业发展 - 贵州正加速推进AI大模型与行业场景融合,已在24个重点产业打造近100个大模型应用场景,依托华为、DeepSeek等基础大模型构建"AI+行业"生态[2] - 典型案例包括遵义铝业通过AI优化生产工艺参数实现年省1700万度电,以及旅游智能助手"黄小西"提升服务体验[2] - 全省布局AI人才培养体系,高校设立68个相关专业,同时建设国家重点实验室、省人工智能实验室等研发平台[3] - 贵州抢抓低空经济、智能驾驶等新赛道,在电子信息制造、高端装备等领域引入AI动力引擎[3] 国家数据局高质量数据集建设 - 国家数据局强调高质量、多模态、精标注数据是AI发展的关键动力,中国AI成果与数据创新实践密不可分[4] - 按通识、行业通识和专识分类推进高质量数据集规范建设,构建"部门协同、央地联动"机制加速应用落地[5] - 已指导合肥、成都等7个城市建设数据标注基地,截至上半年累计建设数据集524个(规模超29PB),服务163个大模型[5] - 开展生态培育专项行动,挖掘医疗、工业、交通等领域标杆案例,搭建供需对接平台促进数据要素市场化[5] 未来发展规划 - 国家数据局将打造"数据标注+数据集+模型+应用场景+价值化"闭环生态,推进数据要素改革与"人工智能+"行动协同[6] - 计划在数博会期间举办数据集交流活动、供需对接会,并发布高质量数据集典型案例[6]
海天瑞声20250625
2025-06-26 22:09
纪要涉及的公司和行业 - 公司:海天瑞声、Scale AI、中国移动 - 行业:数据标注产业 纪要提到的核心观点和论据 海天瑞声 - **业务模式**:分为定制服务、标准化产品和与训练数据相关的应用服务三类[3] - **业绩波动因素**:2022 年业绩快速增长得益于下游车厂对自动驾驶视觉数据需求增长;2023 年收入下滑受数据出境法规阶段性影响[4] - **2023 年业绩表现**:整体业绩同比回暖,归母净利润扭亏为盈,毛利率因企业多模态数据投入和独特数据集采购需求提升[6] - **海外市场拓展**:2023 年拓展部分智能终端领域头部海外客户;2024 年境外收入预计同比增长近 90%,超 1 亿元;新加坡控股公司实现订单和产能覆盖[5][14][15] - **政企合作进展**:与中国移动联合发布解决方案,共同拓展政府客户;参与东盟语料库建设及可信数据空间构建;与多地成立合资公司拓展下游应用开发[5][16] - **AI 应用落地**:积累大量标准化产品,拓展相关业务;与中国移动联合发布解决方案,预计项目体量显著增长[17] - **营收增长预期**:预计今年整体营收增长超 40%,达约 3 亿多元;智能语音、自然语言处理和计算机视觉业务预计高速增长,后两者增速超 50%[18] 数据标注产业 - **政策支持与市场增长**:预计到 2027 年复合增长率超 20%;七个试点城市发展相关企业,带动产值超 83 亿元;政策持续关注[2][7] - **数据需求增长与规划**:大模型驱动数据需求从通用知识向专业知识延伸;国家数据局规划建设三类高质量数据集[2][7] - **市场规模与竞争格局**:2025 年市场规模有望突破 100 亿元,增速超 30%;2023 年需求方自建团队占 60%,品牌数据服务商占 35%,市场集中度提升[2][8] - **第三方品牌服务商需求**:大模型对垂直、专业、深度数据挖掘需求增加,第三方品牌服务商需求增长,头部份额将提升[9] Scale AI - **业务模式**:为 AI 和机器学习提供数据标注和管理服务,涵盖数据标注、管理、评估、自动化平台及数据生成服务[10] - **客户群体与营收**:客户包括自动驾驶、金融、政府等;与头部 AI 公司合作;2023 年营收近 9 亿美元,预计 2024 年超 20 亿美元[11] - **融资情况**:2024 年 6 月获 Meta 投资,投后估值约 290 亿美元,Meta 以 14.3 亿美元获 49%股权[10] - **与国防部合作**:2020 年获 9100 万美元订单,2022 年获 2.49 亿美元新合同,业务拓展至数据处理和应用开发,2023 年提供算法优化和模型部署服务[12] - **标注方式平衡**:海外设外包人工标注团队,提升自动化标注水平,大模型后期微调及专业领域仍需人工标注[13] 其他重要但是可能被忽略的内容 - 海天瑞声定制服务知识产权不归公司所有,不能重复销售;标准化产品可重复销售[3] - 海天瑞声作为中国移动参股方,参与国家数据局主持的数据标注领域民营经济座谈会[16]
建设高质量数据集,让人工智能更聪明(新视点)
人民日报· 2025-05-21 05:51
高质量数据集的定义与重要性 - 高质量数据集是高价值、高密度、标准化的数据,类似于石油经过炼化后成为汽油的过程,原始数据需经过处理才能提升大模型的学习能力和场景适应能力[1] - 数据集的质效提升是人工智能赋能实体经济的"催化剂",高质量数据集影响人工智能的"智商"[1][3] - 深度求索系列模型训练大量使用高质量推理数据集,凸显其重要性[1] 政策与行业行动 - 国家数据局等17部门联合印发《"数据要素×"三年行动计划(2024—2026年)》,提出推动行业共性数据资源库建设,打造高质量人工智能大模型训练数据集[1] - 国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖电网调度、核电设备健康诊断、金融大模型等领域[1] - 《高质量数据集建设指南(征求意见稿)》发布,提出分三类建设高质量数据集:通识数据集、行业通识数据集、行业专识数据集[3] 行业现状与挑战 - 基础模型开源态势下,数据要素价值凸显,成为人工智能竞争的核心领域[2] - 行业大模型对数据需求多样,不同行业部门对模型场景数据的需求各不相同,增加数据处理和管理的复杂度[2] - 构建和采买数据缺乏统一衡量标准,数据完整性和准确性参差不齐,影响大模型训练效果和预测准确性[2] 未来发展方向 - 国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究[3] - 促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基[3]
激活海量“沉睡数据” 2030年我国数据产业规模将达7.5万亿元
央视新闻· 2025-05-18 09:17
数据产业规模与增长 - 我国数据产业规模预计2030年达7.5万亿元 年均增长率超20% [1] - 2024年我国数据生产总量达41.06泽字节 同比增长25% [1] - 当前数据领域相关企业超19万家 数据产业规模超2万亿元 [1] 数据基础设施与政策 - 国家谋划构建横向联通、纵向贯通的数据基础设施体系 2029年基本建成主体结构 [3] - 公共数据开放共享成为数据要素市场化突破口 地市级以上平台数量增长7.5% 开放数据量增长7.1% [5] - 加快打通公共数据共享开放壁垒 推动公共数据与企业数据深度融合 [6] 高质量数据集与人工智能 - 高质量数据集数量同比增长27.4% 支撑人工智能训练和应用 [15] - 数据标注产业产值突破80亿元 进入规模化、规范化发展阶段 [14] - 构建335个高质量数据集 标注总规模达1.7万亿TB 支撑121个国产大模型研发 [17] 数据要素市场化实践 - 温州构建数据安全与合规体系 形成数据交易生态圈 开发469款数据产品 [7][9] - 大模型数据集构建包含采集、清洗、标注、评估等环节 需针对性技术研发 [9] - 非文本数据如图像、视频将成为大模型学习重要来源 [11] 数据标注与清洗技术 - 数据标注通过贴标签教会AI认知世界 未经标注数据如同乱码教材 [11] - 数据清洗剔除重复修正错误 混乱数据直接影响AI训练效果 [11] - 数据覆盖广泛场景并专业标注后 AI模型才能突破实验室精度实现产业落地 [13] 行业发展挑战 - 面临数据存量小产量低、质量良莠不齐、缺乏高价值数据引领、利用效率低等问题 [17] - 需加强数据源头管控 确保来源可靠性和完整性 推动安全评估能力建设 [19]
计算机点评报告:数据价值转化加速,高质量数据集赋能AI
中邮证券· 2025-05-07 14:23
行业投资评级 - 强于大市(维持) [1] 核心观点 - 数字中国峰会召开,高质量数据集赋能AI,多地市提出建设高质量数据集,特定垂直行业“场景数据集”有望赋能大模型、AI agent发展 [4][5] - 国家数据局发布70个重点建设的公共数据“跑起来”示范场景,旨在打通公共数据供给 - 流通 - 利用链条,形成可复制推广模式和应用 [6] - 全国首单数 据资产证券化项目在深交所获批,开创数据资产在资本市场作为独立基础资产融资先河,打通数据要素与资本市场价值转化通道 [7] - 国家数据发展研究院揭牌,地方层面辽宁数智集团成立、上海成立数据发展管理工作领导小组,组织架构逐步完善,数据要素市场化提速 [8][9] 行业基本情况 - 收盘点位4675.66,52周最高5440.49,52周最低2805.53 [1] 行业相对指数表现 - 2024年5月至2025年5月计算机相对沪深300指数表现:2024年5月 - 24%,2024年7月 - 17%,2024年9月 - 10%,2024年12月 - 3%,2025年2月4%,2025年5月11% [3] 产业链相关个股 - 高质量数据集相关个股:海天瑞声、三维天地、上海钢联、中远海科、信息发展等 [10] - 公共数据运营相关个股:深桑达、云赛智联、国新健康、山大地纬、久远银海、新点软件、普元信息等 [10] 重点公司盈利预测与投资评级 |代码|简称|投资评级|收盘价(元)|总市值(亿元)|EPS(元)(2025E)|EPS(元)(2026E)|PE(倍)(2025E)|PE(倍)(2026E)| | --- | --- | --- | --- | --- | --- | --- | --- | --- | |688787.SH|海天瑞声|未评级|97.78|58.99|-|-|-|-| |301159.SZ|三维天地|买入|28.88|22.34|2.30|-|19.50|-| |300226.SZ|上海钢联|买入|20.76|66.17|1.33|-|18.06|-| |002401.SZ|中远海科|未评级|14.20|52.78|-|-|-|-| |300469.SZ|信息发展|未评级|33.29|82.64|-|-|-|-| |000032.SZ|深桑达|未评级|22.63|257.52|0.39|0.48|58.43|47.04| |600602.SH|云赛智联|买入|23.48|321.13|0.20|0.24|72.47|59.11| |000503.SZ|国新健康|未评级|10.49|102.94|-|-|-|-| |688579.SH|山大地纬|买入|9.55|38.20|0.62|-|22.11|-| |002777.SZ|久远银海|未评级|17.70|72.26|0.35|0.48|51.26|36.94| |688232.SH|新点软件|买入|33.00|108.9|2.41|-|16.03|-| |6881118.SH|普元信息|买入|23.39|21.48|0.85|-|33.35|-| [12]