Workflow
高质量数据集
icon
搜索文档
共创自然资源数据应用新生态 自然资源行业高质量数据集建设与创新应用论坛成功举办
搜狐网· 2025-11-12 15:39
论坛背景与主旨 - 第二届中国测绘地理信息大会期间成功举办“自然资源行业高质量数据集建设与创新应用论坛” [1] - 论坛由自然资源部多个司局及中心指导,多家行业机构和企业联合承办,旨在汇聚行业智慧,共商数据建设标准,共享创新应用成果 [1] - 论坛吸引来自政府、企业、科研院所的众多专家与业内人士,成为大会期间焦点活动 [1] 行业挑战与发展路径 - 自然资源数据是国家治理现代化的重要基石,但其应用面临多源数据融合壁垒和标准体系待完善等挑战 [4] - 行业呼吁通过强化标准引领、深化技术融合、共建应用生态三大路径,构建精准感知、智能决策的自然资源治理新格局 [4] - 在大模型进入以数据为中心的时代,数据质量直接决定模型能力的上限,需从制度设计、技术攻关与生态培育等多方面合力推进 [4] 高质量数据集建设框架 - 高质量数据集是全球人工智能竞争的战略焦点,其建设闭环体系包括数据精炼场、用数实验室、价值运营中心,最终形成大模型开放数字生态和行业大模型标准体系 [7] - 基于高质量数据集构建自然资源知识库,可实现领域知识的外部增强,显著提高行业大模型的专业能力 [7] - 建设高质量数据集需遵循聚数汇流、筑基提质、助智增效的实践路径,为产业升级注入新动能 [7][8] 细分领域创新应用 - 海洋领域通过多源采集、数字技术、合规流通、创新应用四大方向构建人工智能驱动的海洋环境融合高质量数据集,推动海洋产业数智化转型 [9] - 地理空间智能迈向以大模型为核心的智能体系,高质量、多维度、可拓展的时空数据集是其持续创新的关键基础 [9] - 构建城市基础模型可实现对城市系统动态变化的深度理解,为智慧国土空间规划提供核心技术支撑 [9] - 林业高质量数据集赋能林草行业大模型,推动行业迈向数字化、智能化与绿色化转型 [9] 企业实践与行业价值 - 行业高质量数据集是破解通用大模型行业应用困境的核心基石,企业实践展示了从业务分析、数据集建设、模型训练到智能应用集成的全流程建设路径 [10] - 建成后的数据集能以多种形式赋能自然资源全业务应用,挖掘传统信息化难以发现的管理风险 [10] - 高质量数据集建设标志着行业在数据要素化、智能化应用方面迈出坚实一步,将为自然资源事业高质量发展注入强劲而持久的智慧动能 [11]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 16:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]
人工智能高质量数据集生态发展大会在重庆永川举行
新华网· 2025-09-29 16:41
大会概况 - 人工智能高质量数据集生态发展大会于9月28日在重庆永川举行 主题为构建高质量数据集 赋能AI新发展 [1] - 大会通过政策宣介 案例分享 揭牌签约 产业对话等形式推动人工智能数据基础设施建设 深化区域数据要素协同创新 [1] - 大会是永川区推动数据要素市场化配置改革和人工智能产业发展的重要举措 [7] 合作与基地建设 - 重庆市大数据应用发展管理局与永川区政府签署协议 共同建设重庆市数据集建设应用基地 [3] - 重庆市大数据局支持永川区企业参与重庆城市可信数据空间的数据集建设 并指导构建数据标注标准规范及质量控制体系 [3] - 西部数据标注研究院和西部数据集生产基地在大会上同步揭牌成立 [3] 机构职能与规划 - 西部数据标注研究院由中国信息协会与永川区政府共同发起 定位为数字技术共享平台 产业孵化平台及生态构建平台 [4] - 研究院将开展人工智能 高质量数据集等领域的技术科研创新 标准制定 质量评测 并培养复合型数据标注人才 [4] - 西部数据集生产基地由中国信息协会与永川区政府共建 旨在推动数据集生产类企业落地 促成数据要素汇集 打造辐射全国的数据产业 [4] 产业生态与合作 - 永川区与中国移动 中国电信等12家企业签署合作项目 与会代表围绕高质量数据集建设等话题进行深入交流 [6] - 永川区将数据标注产业作为推动数字经济和实体经济深度融合的重要抓手 积极探索数据标注+场景应用流通模式 [6] - 永川区目前园区已集聚数据标注类企业18家 建成标注坐席1.2万席 2024年相关业务营收达13.76亿元 是西南地区重要的数据标注产业基地 [6] 未来发展目标 - 永川区以建设数据要素产业聚集强区为目标 全力推进建设数据标注产业园等四大行动 [7] - 永川区力争到2027年成为成渝地区双城经济圈数据要素流通枢纽节点和数据标注服务基地 [7]
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙
量子位· 2025-09-26 10:08
公司数据资源 - 拥有超过10万亿tokens的通用大模型语料数据及覆盖14个关键行业的专业数据集 总存储量达350TB [1] - 数据经过精心标注和优化 包含多模态内容 可直接用于行业应用 [3] - 高质量数据集通过采集 加工等处理流程 能直接用于AI模型开发训练 提升模型性能 [4] 技术平台架构 - 星辰MaaS平台作为核心 构建"数据-模型-服务"完整闭环 包含四大核心组件 [7] - 数据工具链覆盖"采-存-算-管"链路 支持文本 图片 音视频等多类型数据统一接入与处理 [18] - 模型工具链覆盖"标-训-推-评"链路 支持40多种标注任务 通过AI预标注使效率提升5倍以上 [18] - 智能体作为执行中枢 灵活调度资源并自主完成复杂任务 实现决策智能化与行为自动化 [7] 模型体系与能力 - 建立"三全"星辰大模型体系:全模态 全尺寸 全国产 [8] - 成功研发万亿参数大模型 采用全国产万卡集群和国产深度学习框架训练 [9] - 语音大模型精准识别60种方言 语义大模型参数规模庞大 视觉模型鉴伪技术达国际领先水平 [39] - 完成中央网信办"境内深度合成服务算法备案"和"生成式人工智能服务"双备案 [39] 行业应用案例 - 在纺织行业实现AI验布 瑕疵检测准确率从50%提升至95%以上 生产效率提升50% [9] - 服务物流集团 纳管超500P国产化算力卡 构建多个物流行业高质量数据集 [29] - 在医疗领域与北京三甲医院合作构建医疗质量管理数据集 推动医院运行管理智能化升级 [36] - 在农业领域为雄安新区打造"雄小农"应用 帮助当地农民实现超过15%的增收 [37] - 在政务服务领域基于1200万条工单记录建成520万条高质量语料 支撑25个智能应用场景 [38] 生态建设与产业赋能 - 支撑成都 沈阳等多个国家级数据标注基地建设 扮演产业生态规划者 产能运营者和新职业培育者角色 [34] - 在成都联合打造"蓉数公园・新津数据要素服务站" 引入数十家标注企业及教研机构 [34] - 建立培训认证体系 规模化培养数据标注师 AI训练师等数字化人才 [35] - 形成"政府引导+央企主导+生态协同"可复制模式 构建完整生态链 [35] 战略定位与发展愿景 - 基于国家战略 市场需求 运营商优势禀赋和使命责任四个层面重仓投入数据基础设施建设 [14] - 承载成为国家战略科技力量和领先的通用人工智能服务提供商的愿景 [42] - 持续发力技术领先 应用普惠 生态开放和人才培养四大方向 [43] - 日增数据量达1.6PB 基础数据集超10万亿tokens 服务超10亿公众客户和上千万政企客户 [16]
浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
中国经营报· 2025-09-21 22:52
文章核心观点 - 当前大语言模型存在“幻觉”输出问题,其根源在于训练数据质量低下,高质量数据集是AI可信发展的基石 [1][2] - AI发展正从以模型为中心转向以数据为中心,两种范式相互补充,高质量数据对模型训练、推理和验证有关键作用 [2][3] - 提示词工程是提升AI模型效能的关键,能显著提高专业领域应用效率,并生成新的高质量交互数据反哺模型迭代 [4] - 政策层面强调以应用为导向加强高质量数据集建设,产业数智化需以实体经济需求为牵引实现高质量发展 [5] 大语言模型的数据挑战 - 大语言模型训练数据多源自互联网,质量参差不齐,生成内容依赖“概率性匹配”而非“事实性判断”,导致“幻觉现象” [2] - 研究显示,当训练数据集中仅含0.01%的虚假文本时,模型输出的有害内容会增加11.2% [2] - 高质量数据供给不足,尤其是专业领域数据的缺失,是导致模型产生“幻觉”的核心痛点 [2] 高质量数据集的分类与作用 - 高质量数据集分为通识数据集、行业通识数据集和行业专识数据集,是支撑通用大模型和行业模型落地应用的基础 [2] - 行业通识数据集包含需要专业背景理解的行业通用知识,如医疗健康领域的个人属性、健康状况、医疗应用等数据 [3] - 行业专识数据集包含需要较深专业背景理解的特定业务场景专业知识,如医疗病理数据需临床专家标注以确保准确 [3] 提示词工程的价值 - 提示词工程核心是通过精准设计提示语引导大语言模型生成有用内容,优秀工程师需具备专业知识、行业洞察和创意设计能力 [4] - 在工业、医疗、法律等领域,专业提示词工程师能让AI模型效率提升30%以上,例如通过设计精准提示提高医疗AI辅助诊断准确率 [4] - 提示词工程是人与AI的协同对话,此过程产生的新高质量交互数据可反哺数据集迭代,形成“数据→提示词→新数据→更优模型”的闭环 [4] 政策与产业发展方向 - 政策要求以应用为导向持续加强人工智能高质量数据集建设,支持数据标注、数据合成等技术,培育数据处理和服务产业 [5] - 产业数智化需推动以实体经济需求为牵引的高质量发展,加快形成与新质生产力相适应的数智化生产关系 [5]
OpenAI:预计今年ChatGPT收入近100亿美元|首席资讯日报
首席商业评论· 2025-09-07 12:09
辛巴调查传闻 - 辛选集团创始人辛巴被报道遭相关部门带走调查并前往香港 但集团相关人士回应称消息不属实 [2] 文化传播与国际合作 - 中国影片《南京照相馆》于9月5日在英国两大主流院线"电影世界公司"和"奥迪恩"上映 影片被英国发行方欧洲时报英国分社评论为超越单一文化圈层 成为不同背景群体对战争记忆和历史真相的共同对话 [3] AI计算与技术创新 - 中科曙光协同AI芯片、AI整机、大模型等20多家产业链上下游企业 在2025世界智能产业博览会上发布国内首个AI计算开放架构 推出AI超集群系统 单机柜支持96加速卡、百P级AI算力 最大可实现百万卡大规模扩展 [4] - 依托国家先进计算产业创新中心启动"AI计算开放架构联合实验室"建设 [4] 资本市场与监管动态 - 十四届全国政协经济委员会副主任易会满因涉嫌严重违纪违法接受中央纪委国家监委纪律审查和监察调查 [5] - 易会满2019年1月至2024年2月执掌中国证监会5年 任期内A股20次跌破3000点(收盘价) [6] 科技行业动态 - 美国总统特朗普在白宫宴请科技巨头 扎克伯格忘关麦向其道歉 坦言未准备好回答在美国投入资金的具体数字问题 [7] - 2025可信数据空间高质量数据集生态大会发布首批85个高质量数据集建设清单 涉及汽车领域新能源汽车动力电池安全测评、智能驾驶算法研发等数据集 以及低空经济领域天目星座全球大气海洋遥感、低空城市安全巡检卫士等数据集 [8] - 小米集团公关部总经理王化回应"30万小时手机测试" 称是千台测试机累计时长 为行业标准说法 [9] - OpenAI预计2030年收入将比此前预测高出约15% 今年预计通过ChatGPT实现近100亿美元收入 总营收达130亿美元 今年预计消耗超过80亿美元 比此前预测高出约15亿美元 [10] 企业并购与投资 - 美国医疗健康投资公司Patient Square Capital正考虑收购医疗保健公司PREMIER [11] 加密货币与金融 - 特朗普家族发行加密货币敛财50亿美元 美国民主党参议员伊丽莎白·沃伦指责其未能兑现降低通胀承诺 家族财富因此增加数十亿美元 [11] 个人财富与体育 - 巴西亿万富豪将全部遗产赠予足球巨星内马尔 遗产价值超过10亿美元 内马尔团队回应称尚未收到正式通知 [12] 网络平台与内容监管 - 反诈老陈回应快手账号被封 原因为"攻击、抹黑其他主播" 表示不后悔也不怕 以后还继续喊话 [13]
首批85个高质量数据集建设清单发布
证券时报网· 2025-09-06 10:48
大会核心事件 - 2025可信数据空间高质量数据集生态大会于9月5日在重庆开幕 [1] - 大会发布首批85个高质量数据集建设清单 [1] - 启动2025高质量数据集建设先行先试工作(重庆)与可信数据空间国家创新发展试点(重庆)项目 [1] 高质量数据集建设重点领域 - 汽车领域将加快建设新能源汽车动力电池安全测评、智能驾驶算法研发等数据集 [1] - 汽车领域数据集旨在为万亿级产业集群提供数据支持 [1] - 低空经济领域将加快建设天目星座全球大气海洋遥感、低空城市安全巡检卫士等数据集 [1] - 低空经济领域数据集旨在构建空间感知能力,赋能城市高效化、精细化、智能化治理 [1]
时代风口 数据质变 引领智能文明新跃迁
证券时报· 2025-09-05 05:58
行业规模与交易现状 - 高质量数据集总量超过400PB 累计交易额接近40亿元[1] 技术演进与发展范式 - AI发展从粗放式数据投喂转向高质量数据集驱动 标志着从蛮荒阶段进入精耕细作阶段[1] - 高质量数据与AI形成"双轮驱动"共生关系 优质数据滋养AI进化 智能化AI反哺数据价值挖掘[1] 文化价值与社会治理 - 高质量数据集融入中华优秀传统文化 在数据底层注入文明价值观以消除文化偏见[2] - 深圳在征信和气象领域实践数据质量与社会治理深度结合[2] 潜在挑战与结构性风险 - 高质量数据可能加剧数字鸿沟 拥有优质数据的机构将垄断AI红利[2] - 数据分级分类与安全防护不到位时 高质量数据可能成为系统性风险放大器[2] 未来发展方向 - 需建立数据质量国家标准 推动跨域数据融合打破数据孤岛[3] - 在数据注智过程中嵌入人文精神 避免AI沦为纯功利工具[3]
时代风口 | 数据质变引领智能文明新跃迁
证券时报· 2025-09-05 02:53
行业规模与交易数据 - 高质量数据集总量超400PB 累计交易额近40亿元[1] 技术演进趋势 - AI发展范式从粗放式数据投喂转向高质量数据集驱动的精耕模式[1] - 数据与AI形成"双轮驱动"的共生关系 优质数据滋养AI进化 智能化AI反哺数据价值挖掘[1] - 高质量数据集建设标志着从"海量"到"高质"的产业变革 体现数字文明从量扩张转向质淬炼的必然路径[1] 文化价值与应用实践 - 高质量数据集作为数字时代"文化基因库" 需融入中华优秀传统文化价值观[2] - 深圳在征信和气象领域实现数据质量与社会治理深度结合的实践雏形[2] - 西方早期互联网数据存在文化偏见 当前建设注重用数据编码华夏智慧[2] 潜在挑战 - 高质量数据可能加剧数字鸿沟 拥有优质数据的机构将垄断AI红利[2] - 数据分级分类与安全防护不到位时 高质量数据可能成为系统性风险放大器[2] - 需通过数据政策兼顾效率与公平 避免优质数据成为少数主体私产[2] 未来发展路径 - 需建立数据质量国家标准体系 推动跨域数据融合打破数据孤岛[3] - 在数据注智过程中嵌入人文精神 避免AI沦为纯功利工具[3] - 推动数据有质有魂有温度 成为驱动人类进步的硬通货[3]
高质量数据集和AI共振 成为数据流通“硬通货”
中国新闻网· 2025-09-02 22:32
高质量数据集政策支持 - 国家多部门2024年12月印发指导意见 首次明确支持企业开发高质量数据集并发展数据即服务等新业态 [2] - 《高质量数据集建设指引》指出数据需求从量级积累转向量质并重 因应大模型参数规模指数级增长和多模态能力拓展 [2] 高质量数据集发展现状 - 截至2025年6月全国建设高质量数据集超3.5万个 总量超400PB [2] - 数据交易机构挂牌高质量数据集3364个 累计交易额近40亿元 规模达246PB [2] - 中国信通院院长指出全球大量私域数据释放是构成高质量数据集的重要方向 [2] 高质量数据集与AI发展关系 - 高质量数据集成为数据流通硬通货 因AI大模型训练需海量数据而面临数据短缺或依赖合成数据 [3] - 人工智能大模型与高质量数据集形成相辅相成双轮驱动格局 [3] - 数据建设质量和安全是大模型发展生命线 需完善分级分类安全制度并强化全流程技术防护 [3] 高质量数据集应用实践 - 深圳市通过公共数据资源授权运营和可信数据空间建设 支持公共与企业数据融合应用 [3] - 在征信金融、气象、商保理赔等领域开展试点并取得较好成效 [3]