高质量数据集
搜索文档
江苏发布首批高质量数据集重点领域建设清单
新华日报· 2025-09-02 07:24
高质量数据集建设清单 - 江苏发布首批高质量数据集重点领域建设清单 涉及工业制造 交通运输 医疗健康等16个重点领域以及通用大模型 数据跨境等其他领域 [1] - 通过搭建高质量数据集"创新场景" 助力人工智能大模型技术创新 场景应用和产业生态繁荣 [1] 医疗健康领域应用 - 卫生健康信息数据集综合医疗门诊 住院 检验检查 影像 药品及耗材使用 健康档案管理等医疗和公共卫生功能于一体 [1] - 该数据集为卫生健康分析及决策支持 疾病监测及预防控制 临床辅助决策支持 公共卫生应急响应 医疗质量监控提供智慧支撑 [1] 人力资源领域应用 - 人力资源社会保障行业数据集汇集个人社保缴纳信息 企业社保缴纳信息 职业资格证书信息 劳动仲裁信息 劳动监察信息 [1] - 数据集赋能公共服务精准惠民和信用评价体系建设 [1]
江苏发布高质量数据集重点领域建设清单
新华日报· 2025-09-02 06:36
核心观点 - 江苏省发布高质量数据集重点领域首批建设清单 覆盖16个重点领域及其他创新领域 旨在通过搭建高质量数据集"创新场景" 助力人工智能大模型技术创新 场景应用和产业生态繁荣 [1] 重点领域覆盖 - 清单涉及工业制造 交通运输 医疗健康 科学研究 金融服务 文化旅游 城市治理 人力资源 绿色低碳 农业农村 智慧能源 教育教学 商务领域 应急管理 气象服务 公共安全等16个重点领域 [1] - 除16个重点领域外 还涵盖通用大模型 数据跨境 政务服务等其他领域的高质量数据集 [1] 具体应用场景 - 医疗健康领域的"卫生健康信息数据集"综合医疗门诊 住院 检验检查 影像 药品及耗材使用 健康档案管理 慢性病管理 老年保健等医疗和公共卫生功能 为卫生健康分析及决策支持 疾病监测及预防控制 临床辅助决策支持 公共卫生应急响应 医疗质量监控提供智慧支撑 [1] - "人力资源社会保障行业数据集"汇集个人社保缴纳信息 企业社保缴纳信息 职业资格证书信息 劳动仲裁信息 劳动监察信息 赋能公共服务精准惠民和信用评价 [1]
专题发布数据基础设施建设成果、入选高质量数据集典型案例
南京日报· 2025-09-01 10:18
数博会概况 - 2025中国国际大数据产业博览会于8月30日在贵阳落幕 主题为"数聚产业动能 智启发展新篇" 设置六大主题展馆和五大核心板块 吸引375家中外企业参展并举办26场交流活动[1] 数据基础设施建设成果 - 国家数据局专题发布南京与大连市数据基础设施互联互通成果 实现全国首例2笔双向跨域数据交易 验证数据基础设施互联互通及跨域互操作的可行性和便捷性[2] - 南京—大连数据流通交易全程通过国家数据流通基础设施完成 是国内城市间首例跨域数据产品可信流通 为数据要素安全可信流通提供示范样板[2] - 国家数据局将在全国范围内组织推广应用跨域数据交易模式[3] 高质量数据集典型案例 - 国家数据局发布首批104个高质量数据集典型案例名单 覆盖农业 医疗 通信等领域[4] - 南京莱斯信息"公共信用档案高质量数据集"入选 累计归集数据超800亿条 覆盖1.8亿社会法人和8亿自然人 年增量稳定在20亿条以上 对接47个部委和31个省级单位[5] - 南京南自信息"中国华电发电智能巡检与安全管控高质量数据集"入选 覆盖风电 光伏 水电 火电全发电类型 构建视觉和声纹数据集标准体系[6] 产业基地建设与合作 - "中国高质量数据集产业基地(南京)"正式揭牌 聚焦高质量数据集关键技术攻关和标准体系构建 重点围绕工业制造 交通 医疗领域开展数据标注实践[7] - 电信AI公司 南京电信 南京大数据集团 玄武高新集团签署战略合作协议 将打通数据价值转化全链条 吸引产业链上下游企业参与[7] - 基地计划建设本地特色AI数据集 培养行业数据标注人才 引育科技型数据标注企业 构建创新要素聚集的产业新格局[7]
我省4项目入选国家高质量数据集典型案例
新华日报· 2025-08-31 07:21
国家数据局高质量数据集典型案例 - 国家数据局在2024年8月28日至30日中国国际大数据产业博览会上发布首批104个高质量数据集典型案例名单 [1] - 江苏省有4个案例入选典型案例名单 包括中国移动研发大模型数据集 公共信用档案数据集 发电智能巡检与安全管控数据集 以及节能光伏一体化综合能源数据集 [1] 入选案例数据规模与应用领域 - 中国移动研发大模型高质量数据集总数据量超10TB 覆盖8类17个技术类中文语料数据集 可复用于工业 金融 交通等垂直领域行业大模型质量提升与评估 [1] - 公共信用档案高质量数据集已对接47个部委和31个省级单位及兵团 截至2024年6月累计归集数据超800亿条 广泛应用于政务服务和社会治理领域 [1] - 中国华电发电智能巡检与安全管控高质量数据集构建覆盖风电 光伏 水电 火电全发电类型的智能巡检与安全管控视觉数据集 [1] - 节能光伏一体化综合能源高质量数据集为行业客户提供一体化绿色低碳运营场景和交付服务能力 [1]
实探数博会:数据赋能千行百业
中国证券报· 2025-08-29 04:16
数字经济规模与增长 - 预测2025年底数字经济增加值达49万亿元 占GDP比重35% [1] - 数字经济核心产业增加值占GDP比重提前完成"十四五"规划目标 [1] - 2024年贵州省数字产业规模2500多亿元 同比增长18.3% [3] 产业活动与参与度 - 数博会举办26场交流活动和34场系列特色活动 [1] - 1.6万余名嘉宾注册参会 375家中外企业参展 [1] 数据要素基础设施 - 截至6月底建设高质量数据集超过400PB [3] - 全国智算总规模78万PFlops 位居世界第二 [3] - 八大国家枢纽节点集聚60%以上新增算力 智算规模62万PFlops占全国总量80% [3] - 西部地区数据中心建设运营成本为东部的50%至70% [3] 企业技术应用案例 - 中科星图展示低空经济全链条产品体系 包括GEOVIS iFlight低空智航应用平台 [1][2] - 平台基于星图云及星图低空云提供航摄采集 智能巡检 物流配送等标准化服务 [2] - 万联易达利用生态系统交易 物流 金融服务信息沉淀数据支撑产业互联网大模型建设 [2] - 产业互联网大模型提供产业知识问答 数据问答等服务帮助企业提高效率降低成本 [2] 数据要素市场发展 - 高质量大规模数据成为推动人工智能+行动的有力支撑 [3] - 数据要素流通交易需从供给侧和需求侧同时拉动 供需匹配促进市场有效运行 [4] - 国家数据局部署数据产业集聚区建设试点 加快形成产业生态和规模优势 [4] 数据集建设挑战与建议 - 专业高质量数据集厂商规模较小 自动化智能化生产水平有待提升 [4] - 建议通过发放语料券补贴高质量数据集供给端 需求端和交易端 [4] - 培养各方为高质量数据集付费习惯 推动高质量数据集构建 [4]
2025数博会:高质量数据集的建设非常重要
中国新闻网· 2025-08-28 22:04
高质量数据集建设进展 - 2025年上半年中国各地建设高质量数据集超过3.5万个 总体量超300PB[2] - 全国高质量数据集累计交易额达40亿元 交易机构挂牌3364个数据集 总规模达246PB[2] - 贵州省培育数据商超200家 在重点领域发布900余个高质量数据集[3] 政策与产业协同发展 - 国家数据局发挥链主单位作用 加快打造重点领域及新兴领域数据高地[2] - 贵州推动算力数据应用产业协同 重点发展智算产业/数据产业/人工智能产业/电子信息产业四类产业[3] - 国家数据局指导启动高质量数据集领航计划 推动数据要素生态建设与高质量数据集供给[5] 数据要素价值认知 - 数据作为人工智能三大要素之一 高质量数据集对模型性能提升具有关键作用[1][6] - 人工智能模型训练推动数据交易需求上升 各方普遍认可数据资源重要性并加大投入[2] - 数据集是决定大模型性能安全的关键 需要以敬畏之心对待数据质量与安全风险[6] 数字经济宏观趋势 - 数据要素作为新兴生产要素 正以前所未有的深度和广度重构生产力与产业变革[2] - 全球数字经济浪潮奔涌向前 高质量数据集建设为培育新质生产力奠定基础[2][5]
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
齐鲁晚报网· 2025-08-25 16:39
语料库建设的必要性 - 高质量数据集是人工智能大模型训练的基础性关键资源 在算法趋同和算力普惠背景下成为核心竞争力[1] - 2025年2月27个国家部委代表参加高质量数据集建设工作启动会 推动"人工智能+"行动[2] - 国务院办公厅2025年1月提出建设文化领域人工智能高质量数据集 支持文化领域大模型建设[2] - 山东省2025年6月政策明确支持建设文化领域人工智能高质量数据集和语料库[2] 主流文化语料库特点 - 依托人民网 大众报业集团等权威媒体资源及省内文化单位 高校优质私域文化资源构建[3] - 通过标准化分类系统和专业标注平台解决格式不统一 质量不齐等问题[3] - 一期已上线5万对问答语料和2000万篇基础语料[4] - 重点打造孔子学术研究 孔子画像等多个高质量数据集[4][9] 技术平台与数据处理 - 自主研发山东文化数据标注平台 提供数据采集 清洗 预标注 标注 增强 审核全链路服务[7] - 支持问答 图片 视频 音频 文件 图谱等多类型数据标注[7] - 采用AI增强功能实现问题泛化和答案多样性 如"孔子出生地"可扩展多种问法[15] - 平台支持自动去重 智能筛选低质量样本 提升处理效能[12] - 配备AI识别映射关系体系 可自动识别历史名人家庭 朋友 事业等关系网络[12] 具体应用案例 - 孔子研究高质量数据集归集数千篇专业文献与著作 20余名专家深度文本挖掘[9] - 从5000多张图片资料中标注上千张孔子画像 详细标注创作年代 背景用途 风格材质等信息[9] - 数据处理完毕后支持一键发布至目标大模型 实现模型能力即时更新与增强[15] 发展战略与行业影响 - 山东省计划2027年底前建设5个成效明显 特色鲜明的数据标注基地[6] - 平台面向全社会免费开放 推动语料资源开源共享[15] - 公司将推出山东文化数据交易平台 提供文化数据集交易服务[15] - 项目助力区域及垂类产业数字经济高质量发展[2]
世界500强CIO齐聚第八届南方信息大会丨汉数创始人陈开冉受邀发表演讲
江南时报· 2025-08-19 17:11
行业活动 - 第八届南方信息大会在广州举办 汇聚AI领域顶尖学者 各行业头部企业CIO及全球领先大模型厂商 包括南航 华为 阿里 字节 美的 西门子等世界500强公司CIO [1] - 大会探讨AI时代CIO的挑战与机遇 主论坛议程包含大模型时代的高质量数据云 工业AI应用 AI赋能数字化底座 人工智能在生命科学应用等主题演讲 [2] 公司技术观点 - 高质量数据集是AI产业落地的核心 被比喻为"高标号汽油" 直接决定AI模型性能与应用效果 [3] - 人工智能已从以模型为中心转向以数据为中心 高质量标注数据是释放AI价值的关键 决定大模型应用效果与产业落地能力 [4] - 高质量数据集解决大模型两大核心痛点:解决幻觉问题 以权威数据筑牢模型可信度 减少无中生有错误 [5] 突破专业壁垒 让大模型从通才进阶专才 通过注入行业专识数据理解产业细节 [6] 产品解决方案 - 旷湖数据云平台具备五大核心能力:输入输出标准 数据质量高 适配大模型调用 高并发高性能 计费方式灵活 [7] - 平台数据覆盖18大垂直领域 包括3.8亿+企业 25万+楼宇 30亿+商品数据 实现多源异构数据的高可信融合 [8] - 创新三段式数据对接模式:创建数据对接器 筛选数据范围 选择数据字段 大幅降低企业数据获取门槛 [10] - 提供MCP服务市场 精选100+服务 涵盖企业风险监测 经营动态分析 信息洞察 电商运营数据等12个类别 [11][12] - 已与字节 阿里 百度等头部大模型厂商深度合作 上架火山引擎 百度千帆 阿里百炼 Github等知名平台 [12] 发展战略 - 通过高质量数据集助力行业大模型解决幻觉问题 在专业应用场景中给出满意答案 [14] - 积极拥抱各大模型生态 降低数据调用门槛 更好适配大模型应用场景 [14] - 持续拓展数据覆盖广度与深度 构建开放共赢的数据生态 驱动产业生产力发展 [14]
今年底数据流通节点城市将扩大到50个左右
中国证券报· 2025-08-15 04:16
数字基础设施建设成就 - 截至2025年6月底5G基站总数达455万个较2020年增长5倍千兆宽带用户达2.26亿户增长34倍算力总规模全球第二 [2] - 已建成25个城市节点布局16个省区市数据基础设施架构7月底完成互联互通预计年底节点城市扩至50个覆盖80%省区市 [3] - 数据基础设施建设吸引超2000家主体接入支撑政务治理金融风控等上百场景应用上架近万个数据产品 [3] 数据要素市场化改革 - 国家数据局推出公共数据资源开发利用等21项政策2024年将推出数据产权等10多项制度 [1] - 高质量数据集累计交易额近40亿元交易机构挂牌数据集总规模达246PB上海天津安徽试点"数据语料作价入股"模式 [4] - 已布局成都沈阳合肥等7个数据标注基地推动数据标注产业发展 [4] 数字技术创新与产业突破 - 集成电路形成设计制造封装测试材料装备完整产业链国产操作系统加速崛起 [2] - 截至2024年底软件收入规模较2020年增长80%规模以上电子信息制造业增加值增长超70% [2] - 数字经济带动新增超100个新型职业创造新就业机会 [2] 高质量数据集发展 - 已建设高质量数据集超3.5万个总体量超400PB相当于中国国家图书馆数字资源总量140倍 [3] - 将重点打造具身智能低空经济生物制造等领域数据高地培育"为优质数据买单"市场共识 [4] 数据流通与应用生态 - 制定《国家数据基础设施建设指引》明确"三统一"互联互通要求提出匿名化处理等9项技术规范 [2] - "十五五"期间聚焦高质量标准构建大规模设施部署市场化生态运营打造世界领先数据基础设施 [3]
国家数据局这场发布会,信息量很大!
人民网· 2025-08-14 21:12
国务院新闻办公室8月14日举行"高质量完成'十四五'规划"系列主题新闻发布会,介绍"十四五"时期数字 中国建设发展成就。 【截至6月底,日均Token消耗量已突破30万亿】 国家发展改革委党组成员、国家数据局局长刘烈宏在会上表示,作为人工智能发展的三大核心要素之 一,数据在推动"人工智能+"过程中发挥着关键作用,特别是高质量数据集的建设至关重要。 刘烈宏介绍,在人工智能时代,Token(词元)作为处理文本的最小数据单元,如同互联网时代大家所 说的"流量"。2024年初,我国日均Token的消耗量为1千亿,截至今年6月底,日均Token消耗量已经突破 30万亿,1年半时间增长了300多倍,这反映了我国人工智能应用规模的快速增长。 刘烈宏强调,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。我国是第一个把数据 作为生产要素的国家,多措并举促进数据资源的开发利用。"人工智能+"行动到哪里,高质量数据集的 建设和推广就要到哪里。我国大力推动高质量数据的供给,出台了高质量数据集建设相关文件,多部门 联合推动相关工作。 刘烈宏介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB ...