文章核心观点 - 人工智能产业正从“模型驱动”向“数据驱动”深度转型,高质量数据集已成为决定AI技术落地效能的关键稀缺资源和产业竞争焦点 [1] - 江苏省在数据要素市场化和高质量数据集建设方面走在前列,通过平台建设、生态培育和标准化工作,系统推动数据价值实现与产业转化 [6][10][11] 行业趋势与市场动态 - 高质量数据集具备“三高”特征:高价值应用、高知识密度与高技术含量,是AI模型迭代的核心燃料和与实体经济深度融合的基础支撑 [4] - 数据交易市场活跃,例如“具身智能数据集”在江苏省数据交易所完成交易,实现了全国该领域数交所交易的“零突破” [1] - 数据集的跨界价值凸显,例如儿童肠道菌群数据集被用于改良益生菌饮料,揭示了数据与产业场景深度融合创造价值的核心逻辑 [8] 公司案例与产品分析 - 箸境智能上架了包含约2.5万条结构化数据的“具身智能数据集”,涉及办公、商超、餐饮、家政四大场景 [3] - 单条数据时长约10秒,容量从几十兆到上百兆不等,包含视频、关节角度与力矩等信息,是可直接投入模型训练的高质量数据 [3] - 产品价值在于为买方提供经过深度清洗和严密标注的数据,省去了从零搭建采集环境和调试的漫长周期,降低了试错成本 [4] - 数据港和数交所提供的合规指引与配套服务,为企业扫清了交易障碍,提升了交易效率 [8] 地区发展与实践 - 江苏省作为数据要素资源大省,截至2025年10月底,在重点领域已形成高质量数据集321个,数据总规模超93PB(相当于9300万部2小时时长的电影) [6] - 南京市玄武区着力构建数据要素产业生态,落地运营江苏国际数据港、江苏省数据交易所、玄武大模型工厂等关键基础设施 [6] - 中国高质量数据集产业基地(南京)已在玄武区落地,通过“技术研发—基建支撑—资源整合—产业孵化”的协同模式,打通数据价值转化全链条 [8] - 江苏省计划从供需两侧同步发力,通过编制建设指南与产业图谱、加快数联网与可信数据空间试点、搭建公共服务平台等措施,夯实数据应用根基 [11] 标准化与顶层设计 - 标准化被视为高质量数据集建设的关键路径,其核心价值在于解决数据应用中的实际痛点,是衔接数据资源与实际应用的关键桥梁 [10] - 全国数标委已正式发布4项高质量数据集系列技术文件,包括建设指南、格式要求、分类指南、质量评测规范等 [10] - 国家按照“1+3+5+N”的思路推进高质量数据集基础设施化,即1个管理服务平台、3个层次、5类建设主体、N个典型应用场景 [11] - 南京市将举办“数智未来”高质量数据集开发者创新大赛,聚焦医疗健康、能源管输等五大专业赛道,以赛促建、以赛促用、以赛促生态 [13]
怎样的数据才算“高质量”?南京玄武:全国首笔具身智能数据集交易的背后
扬子晚报网·2026-01-03 21:51