Workflow
高质量数据集
icon
搜索文档
多领域数据集填补空白 北京亦庄最高兑现200万元奖励
中国新闻网· 2026-01-22 23:38
高质量数据集作为人工智能应用升级的核心要素,不仅是训练大模型的精准样本,也是推动大模型从通 用型走向产业专用型的关键桥梁,加速人工智能与实体经济深度融合。当前,强化高质量数据供给已成 为全球AI竞争的战略共识。 2025年,北京亦庄发布"数据20条"政策,明确支持高质量数据集建设。近日,该政策首次集中兑现,以 场景为驱动,畅通数据供给,激励各领域企业破解数据瓶颈,助力全域人工智能之城建设。 此次获奖的20家企业的38个高质量数据集,覆盖具身智能、生物医药、工业制造、智能网联等重点产业 领域,引领关键领域数据供给实现首创、填补空白等突破性进展。 在具身智能领域,北京人形机器人创新中心有限公司(以下简称"北京人形")的"RoboMIND2.0数据集", 填补国内双足人形机器人开源数据空白,已支撑国内首个通过国标测试的跨本体具身VLA大模型的训 练和开源;星海图打造全球首个开放场景真机数据集,开源后双平台跃居全球机器人真机数据集下载量 首位。 在生物医药领域,麦克奥迪医疗采用"三甲医院病理专家诊断意见+AI制片质控+临床信息关联脱敏数 据"模式打造数字病理疑难病例数据集,相关数据并已获得北京数据交易所《数字资产登记 ...
北京亦庄打造“亦城数港”产业集聚标杆
中国经济网· 2026-01-22 13:48
北京亦庄激活数据要素价值政策与成果 - 北京经济技术开发区(北京亦庄)通过“真金白银”奖励激活数据要素价值,筑牢全域人工智能之城的“数据根基” [1] - 2025年发布“数据20条”政策支持高质量数据集建设,并于近期首次集中兑现 [1] - 政策以场景为驱动,旨在畅通数据供给,激励企业破解数据瓶颈 [1] 高质量数据集的核心价值与战略地位 - 高质量数据集是人工智能应用升级的核心要素,是训练大模型的精准样本和推动大模型从通用型走向产业专用型的关键桥梁 [1] - 强化高质量数据供给已成为全球AI竞争的战略共识 [1] - 高质量数据集兼具高价值应用、高知识密度、高技术含量“三高”特性,正成为数字经济时代的核心生产要素和推动产业升级的关键动能 [2] 获奖数据集的具体成果与突破 - 首次政策兑现共奖励20家企业的38个高质量数据集 [1] - 数据集覆盖具身智能、生物医药、工业制造、智能网联等重点产业领域 [1] - 成果引领关键领域数据供给实现首创、填补空白等突破性进展 [1] - 北京人形机器人创新中心有限公司的“RoboMIND2.0数据集”填补国内双足人形机器人开源数据空白,并支撑了国内首个通过国标测试的跨本体具身VLA大模型的训练和开源 [2] - 麦克奥迪(300341)医疗打造的数字病理疑难病例数据集,相关数据已获得北京数据交易所《数字资产登记凭证》 [2] - 北京蚂蚁工场构建国内首个覆盖“非标+标准件”全流程柔性制造的强合规数据集,填补“数据驱动智能制造闭环+大模型可持续训练”双重空白 [2] - 四维图新(002405)智驾公司的“基于4D时空障碍物检测的高质量自动驾驶数据集”,首创“4D时空+自动化闭环”模式 [2] 数据产业发展规划与资金支持 - 北京亦庄已获批国家数据产业集聚区试点,正打造“亦城数港”产业集聚标杆 [3] - 2026年将聚焦数据产业全链条关键环节,集中落地系列政策兑现举措,总规模超过2亿元 [3] - 资金支持涵盖数据流通基础设施建设运营、数据领域核心技术攻关、高质量数据集典型案例认定、智慧城市场景开放、数据要素流通券发放及数据要素市场示范奖励等核心领域 [3] - 通过梯度化、精准化资金支持体系,以奖促建,激活数据要素潜能,助力数据产业能级跃升与规模化发展 [3]
怎样的数据才算“高质量”?南京玄武:全国首笔具身智能数据集交易的背后
扬子晚报网· 2026-01-03 21:51
文章核心观点 - 人工智能产业正从“模型驱动”向“数据驱动”深度转型,高质量数据集已成为决定AI技术落地效能的关键稀缺资源和产业竞争焦点 [1] - 江苏省在数据要素市场化和高质量数据集建设方面走在前列,通过平台建设、生态培育和标准化工作,系统推动数据价值实现与产业转化 [6][10][11] 行业趋势与市场动态 - 高质量数据集具备“三高”特征:高价值应用、高知识密度与高技术含量,是AI模型迭代的核心燃料和与实体经济深度融合的基础支撑 [4] - 数据交易市场活跃,例如“具身智能数据集”在江苏省数据交易所完成交易,实现了全国该领域数交所交易的“零突破” [1] - 数据集的跨界价值凸显,例如儿童肠道菌群数据集被用于改良益生菌饮料,揭示了数据与产业场景深度融合创造价值的核心逻辑 [8] 公司案例与产品分析 - 箸境智能上架了包含约2.5万条结构化数据的“具身智能数据集”,涉及办公、商超、餐饮、家政四大场景 [3] - 单条数据时长约10秒,容量从几十兆到上百兆不等,包含视频、关节角度与力矩等信息,是可直接投入模型训练的高质量数据 [3] - 产品价值在于为买方提供经过深度清洗和严密标注的数据,省去了从零搭建采集环境和调试的漫长周期,降低了试错成本 [4] - 数据港和数交所提供的合规指引与配套服务,为企业扫清了交易障碍,提升了交易效率 [8] 地区发展与实践 - 江苏省作为数据要素资源大省,截至2025年10月底,在重点领域已形成高质量数据集321个,数据总规模超93PB(相当于9300万部2小时时长的电影) [6] - 南京市玄武区着力构建数据要素产业生态,落地运营江苏国际数据港、江苏省数据交易所、玄武大模型工厂等关键基础设施 [6] - 中国高质量数据集产业基地(南京)已在玄武区落地,通过“技术研发—基建支撑—资源整合—产业孵化”的协同模式,打通数据价值转化全链条 [8] - 江苏省计划从供需两侧同步发力,通过编制建设指南与产业图谱、加快数联网与可信数据空间试点、搭建公共服务平台等措施,夯实数据应用根基 [11] 标准化与顶层设计 - 标准化被视为高质量数据集建设的关键路径,其核心价值在于解决数据应用中的实际痛点,是衔接数据资源与实际应用的关键桥梁 [10] - 全国数标委已正式发布4项高质量数据集系列技术文件,包括建设指南、格式要求、分类指南、质量评测规范等 [10] - 国家按照“1+3+5+N”的思路推进高质量数据集基础设施化,即1个管理服务平台、3个层次、5类建设主体、N个典型应用场景 [11] - 南京市将举办“数智未来”高质量数据集开发者创新大赛,聚焦医疗健康、能源管输等五大专业赛道,以赛促建、以赛促用、以赛促生态 [13]
AI演进新阶段:智能体崛起呼唤高质量数据供给
中国新闻网· 2025-12-07 10:37
行业政策与战略方向 - 国家数据局表示将引领开放协同,鼓励各类主体打破壁垒合作,构建全国一体化数据要素市场,营造更加开放的产业生态 [1] - 广东省作为国家数字经济创新发展试验区,在推动数据要素市场化配置方面走在前列,将继续加大政策供给和要素保障,为企业营造良好营商环境 [1] - 国家数据发展研究院提出构建高质量数据集管理服务平台的新思路,以推进数据集基础设施化,赋能经济社会发展 [2] 技术发展与市场趋势 - 人工智能技术从基础大模型、垂类大模型发展到智能体,技术飞速发展,对数据的需求不断更新迭代 [1] - AI智能体正成为释放数据价值的关键载体,而高质量数据集是其能力跃升的基石 [2] - 人机交互正迎来颠覆性变革,用户入口面临全新重塑 [2] 产业实践与成果 - 中国电信发布星辰智能体服务平台1.0,以“星小辰”智能体为统一入口,实现跨终端、跨场景的智能服务 [1] - “星小辰”智能体支持用户通过自然语言完成复杂任务,如行程规划、家庭安防、通信办理等 [2] - 截至9月底,全国已建设高质量数据集总体量超500PB [2] 当前挑战与未来重点 - 高质量数据集建设面临应用导向不明确、标准规范不统一等挑战 [2] - 未来将从社会、行业、生态三个层面推进数据集基础设施化,开展批量的高质量数据集建设 [2]
前瞻全球产业早报:我国信息通信领域首个国家重大科技基础设施正式投入运行
前瞻网· 2025-12-05 22:52
宏观经济与政策展望 - 中央经济工作会议临近,市场关注明年政策走向,宏观经济增长的“质”的要求比硬性增长目标更重要 [2] - 明年政策重点看点包括居民消费、稳消费政策的持续性以及对民营经济的支持 [2] - 明年大概率延续宽松的财政和货币政策组合,以稳住和巩固经济复苏动能 [2] 科技创新与数字基建 - 我国信息通信领域首个国家重大科技基础设施“未来网络试验设施”通过国家验收并正式投入运行,标志着我国网络技术创新与试验验证能力迈入国际先进行列 [2] - 截至三季度末,我国已建成高质量数据集总量超500PB,赋能人工智能模型性能提升与创新加速 [3] - 国家数据局联合26个部委推动高质量数据集建设,部署了140项先行先试任务,旨在营造“人工智能+”与高质量数据集建设应用同步的良好氛围 [3] 人工智能与前沿技术 - 小米集团在AI大模型和应用方面的进展远超预期,公司已在前几个季度开始压强式投入 [6] - 商汤科技联合创始人王晓刚出任大晓机器人董事长,该公司将于12月18日发布产品阵列及国内开源商业应用“开悟”世界模型3.0 [6] - OpenAI将收购AI模型训练监控与调试工具公司Neptune,双方近期合作开发了能比对数千次实验、分析指标的工具 [8] - 三星电子成立“Samsung Research Nova AI研究所”,并任命常务李康旭为首任负责人 [11] - Anthropic与Snowflake达成2亿美元多年期协议,将在Snowflake平台上提供Claude大模型,旨在将AI智能体部署到全球大型企业中 [12] - AI记忆公司穗升科技完成数百万美元天使轮融资,由红杉中国种子基金领投 [13] 卫星互联网与航天 - 上海7家卫星互联网创新载体被授牌,涉及卫星研发、空间技术、研究院所及通信服务等领域 [4] - 日本栗田工业与太空初创公司ispace达成协议,将合作开展月球水资源开发相关的战略规划与技术验证,寻求建立可持续的月球水资源基础设施 [10] 新能源与高端制造 - 宁德时代发布“船-岸-云”一体化解决方案,截至2025年11月,近900艘船舶已搭载其船舶动力产品 [5] - 国内低空安全解决方案提供商杰能科世完成数千万元新一轮融资,投资方包括杭实集团旗下公司等 [13] 消费电子与硬件 - 字节跳动豆包手机首批备货约3万台已售罄,项目方未追加物料投入,短期内市场流通量固定 [5] - 字节跳动与中兴通讯的第二代产品已启动研发,预计于2026年底出货 [5] - 苹果顶级设计主管艾伦·戴伊将加盟Meta,出任新设计工作室首席设计官,核心任务是用AI重构Meta头显、智能眼镜等设备的软硬件及交互体验 [9][10] 企业战略与资本市场 - 湖北省国资委表示,“十五五”期间将深入推进闲置资产盘活利用,探索开展不同层级企业专业化整合,以提升国有资本运营效率 [5] - 东方甄选正招聘北京首家旗舰店店长,该店位于中关村,面积约400平方米,涵盖商品零售及简餐饮品区,标志着其线下门店扩张计划启动 [6] - 证监会同意深圳市恒运昌真空技术股份有限公司在科创板IPO注册 [14] - 深圳基本半导体股份有限公司向港交所提交上市申请书 [14] 国际贸易与产业动态 - 由于半导体、汽车和船舶等出口强劲,韩国2025年全年出口有望首次超过7000亿美元,创历史新高;前11个月出口已达6402亿美元,超过2022年全年6287亿美元的纪录 [7] - 诺和诺德计划本月在印度推出糖尿病特效药Ozempic,旨在加强市场立足点并在仿制药推出廉价版本前抢占市场 [13]
全国已建设高质量数据集总体量超500PB
新华社· 2025-12-04 22:24
国家数据局推动高质量数据集建设进展 - 截至9月底,全国已建设高质量数据集总体量超500PB [1] - 国家数据局联合多部门制定政策文件,以场景应用为导向推动各行业领域高质量数据集建设 [1] - 部署了140项先行先试任务,初步实现“人工智能+”到哪里,高质量数据集建设和应用就到哪里的氛围 [1] 数据标注产业发展现状 - 截至9月底,我国7个数据标注基地引进和培育标注企业362家 [1] - 数据标注从业人员达8.5万人,带动数据标注相关产值163亿元 [1] 人工智能算力消耗情况 - 我国日均Token消耗量已突破40万亿 [1] - 与2024年初相比,日均Token消耗量增长了约400倍 [1]
刘烈宏出席“2025科创大会”并致辞
证券时报网· 2025-12-03 12:45
数据要素与人工智能融合 - 推动数据要素与人工智能深度融合是促进数智创新的核心 [1] - 数据基础设施是解决数据流通中“安全、合规、高效”三角难题的关键载体 [1] - 高质量数据集是数智创新的关键资源 [1] 数据要素市场化配置改革 - 国家数据局将推动数据要素赋能人工智能发展作为重点工作 [1] - 通过定政策、促供给、建标准、强技术、育生态加快高质量数据集建设 [1] - 呼吁全社会加大数据领域投入,培育“为高质量数据付费”的市场意识 [1] 人才队伍建设与学科发展 - 人才队伍建设是数智创新的关键支撑 [1] - 联合有关部门印发《关于加强数据要素学科专业建设和数字人才队伍建设的意见》 [1] - 通过规划和试点“双轮驱动”,加快构建数字人才自主培养新生态 [1]
2025全球数商大会全链路数据治理赋能高质量数据集建设分论坛举行
第一财经· 2025-11-27 15:25
论坛概况 - 2025全球数商大会期间举办“全链路数据治理赋能高质量数据集建设”分论坛 [1] - 论坛由普元信息技术股份有限公司与中国信息通信研究院华东分院联合主办,并获得多个行业协会支持 [1] - 论坛汇聚政、产、学、研、用各领域专家,并发布新产品及成立生态联盟 [1] 政策与行业支持 - 上海市数据局及工业互联网协会等多位领导认为高质量数据集是发展新质生产力的核心要素 [3] - 政府主管部门高度肯定公司在联合产业力量、推动数据要素价值释放方面的努力 [3] 学术与标准指引 - 中国信通院权威解读《人工智能高质量数据集建设指南》,为行业提供体系化建设框架 [6] - 上海交通大学教授探讨以数智化治理技术构筑面向世界模型的高质量数据 [8] 公司解决方案 - 公司提出高质量数据集构建是系统工程,核心优势是提供从战略咨询、平台工具到数据开发治理运营一体化的“全链路”治理能力 [10] - 数据治理被视为一项知识工程工作,需将散乱数据“原矿”通过主数据等减熵方式系统性地“炼制”成驱动AI的高质量数据集 [12] 产品发布 - 公司发布“易数”AI原生数据资产平台新版本,深度融合AI能力支持双向赋能的智能飞轮建设 [12] - 产品旨在帮助企业构建AI的数据工厂、提供敏捷数据洞察,提升构建和管理高质量数据集的效率 [12] - 未来产品将通过三层能力支撑企业数据智能体的进化 [12] 生态建设与行业实践 - 公司发起成立“AI核心数据集生态联盟”并启动“灯塔计划”以推动产业协同 [14] - 能源、航天、AI等多个前沿领域专家分享高质量数据集建设实践,包括上海核工程研究设计院、中国航天科技集团、合合信息、国家人形机器人创新中心及百度智能云 [17] - 论坛标志着公司在推动数据要素价值释放、赋能企业智能化转型中迈出坚实一步 [17]
共创自然资源数据应用新生态 自然资源行业高质量数据集建设与创新应用论坛成功举办
搜狐网· 2025-11-12 15:39
论坛背景与主旨 - 第二届中国测绘地理信息大会期间成功举办“自然资源行业高质量数据集建设与创新应用论坛” [1] - 论坛由自然资源部多个司局及中心指导,多家行业机构和企业联合承办,旨在汇聚行业智慧,共商数据建设标准,共享创新应用成果 [1] - 论坛吸引来自政府、企业、科研院所的众多专家与业内人士,成为大会期间焦点活动 [1] 行业挑战与发展路径 - 自然资源数据是国家治理现代化的重要基石,但其应用面临多源数据融合壁垒和标准体系待完善等挑战 [4] - 行业呼吁通过强化标准引领、深化技术融合、共建应用生态三大路径,构建精准感知、智能决策的自然资源治理新格局 [4] - 在大模型进入以数据为中心的时代,数据质量直接决定模型能力的上限,需从制度设计、技术攻关与生态培育等多方面合力推进 [4] 高质量数据集建设框架 - 高质量数据集是全球人工智能竞争的战略焦点,其建设闭环体系包括数据精炼场、用数实验室、价值运营中心,最终形成大模型开放数字生态和行业大模型标准体系 [7] - 基于高质量数据集构建自然资源知识库,可实现领域知识的外部增强,显著提高行业大模型的专业能力 [7] - 建设高质量数据集需遵循聚数汇流、筑基提质、助智增效的实践路径,为产业升级注入新动能 [7][8] 细分领域创新应用 - 海洋领域通过多源采集、数字技术、合规流通、创新应用四大方向构建人工智能驱动的海洋环境融合高质量数据集,推动海洋产业数智化转型 [9] - 地理空间智能迈向以大模型为核心的智能体系,高质量、多维度、可拓展的时空数据集是其持续创新的关键基础 [9] - 构建城市基础模型可实现对城市系统动态变化的深度理解,为智慧国土空间规划提供核心技术支撑 [9] - 林业高质量数据集赋能林草行业大模型,推动行业迈向数字化、智能化与绿色化转型 [9] 企业实践与行业价值 - 行业高质量数据集是破解通用大模型行业应用困境的核心基石,企业实践展示了从业务分析、数据集建设、模型训练到智能应用集成的全流程建设路径 [10] - 建成后的数据集能以多种形式赋能自然资源全业务应用,挖掘传统信息化难以发现的管理风险 [10] - 高质量数据集建设标志着行业在数据要素化、智能化应用方面迈出坚实一步,将为自然资源事业高质量发展注入强劲而持久的智慧动能 [11]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 16:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]