高质量数据集
搜索文档
“十五五”规划纲要计算机行业解读:智能经济启航,AI Agent主导未来五年AI叙事
中国银河证券· 2026-03-15 11:24
行业投资评级 - 计算机行业评级为“推荐”,维持评级 [4] 报告核心观点 - 人工智能在“十五五”规划中的战略地位全面升级,其作为关键词出现频次达30次,远高于“十四五”规划的6次,将成为我国经济升级的核心增长引擎 [6] - 智能经济开启,“AI Agent”(智能体)的全面爆发将成为未来五年AI叙事的主导和战略落地的关键产业形态,投资主线将围绕“高价值AI智能体爆发增长带来的价值裂变”展开 [6] - AI Agent的规模化渗透将驱动算力、算法、数据三大AI要素的价值链全面重构,并推动AI商业模式从成本中心转向利润中心 [10][13][38] 根据目录分别总结 一、“十五五”是智能经济全面启航的关键五年 - “十五五”规划中“人工智能”提及频次(30次)远超“数字经济”(7次),标志着国家数智化战略重心从以“数字化”连接为特征的“数字经济”阶段,进入以“智能化”价值创造为内核的“智能经济”新阶段 [8][9] - 规划首次提出“智能原生”,意味着AI有望从提升全要素生产率(A)的技术因素,升级为可与资本(K)、劳动(L)协同甚至主导组合的独立生产要素,即迈向Y = F(K, L, AI)的新生产函数 [11] - 在AI作为新生产要素的范式下,算力、算法、数据三大基础要素的价值链将被重构:算力追求绿色集约与算电协同;算法追求垂直场景的性价比与效果分成;数据追求高质量资产化与可信流通 [13][14][15][16] 二、十五五展望:AI Agent主导未来五年AI叙事 - **智能体驱动Token消耗超高速爆发**:以OpenClaw为代表的高价值AI Agent正推动AI从对话工具向自主执行代理升级 [17][22] 据IDC预测,全球活跃Agent数量将从2025年的约2860万攀升至2030年的22.16亿,年复合增长率139% [24] 伴随任务复杂度提升,年度Token消耗将从2025年的0.0005 PetaTokens暴增至2030年的152,667 PetaTokens,年复合增长率高达3418% [6][24] 报告测算,2026年全球(不含中国)AI Agent应用每日消耗的Token总量增速将达到22倍 [36][37] - **AI Agent从成本中心转向利润中心**:AI商业模式正从订阅制、调用制向“结果分成制”演进 [39] Agent可根据为客户节省的成本或创造的新增收益抽成,其收入公式包含“结果分成×任务价值×网络节点”的乘法效应,推动收入曲线从线性增长向指数增长跃迁 [42][45] - **Agent产业分工裂变**:大模型厂商主导平台层,构建AI Agent生态,提供MaaS(模型即服务)及AaaS(智能体即服务) [46] 应用层中,企业级智能体的落地将优先集中在企业服务(OA/ERP/CRM)、金融/财务/风控、营销/电商等领域 [51][52] 深耕垂直领域的SaaS服务商在部署企业级智能体方面具有先发优势,有望迎来弯道超车机遇 [51] 三、十五五期间AI要素将全面升级 - **智能算力与算电协同**:AI驱动中国智能算力爆发,预计到2028年智能算力占比将提升至95%以上 [53][58] AI算力需求爆发推动用电量激增,中国信通院预测,在高情景下2030年我国算力中心用电或超过7000亿千瓦时,占全社会用电量5.3% [6][62] “算电协同”已上升为国家战略,推动数据中心向极致能效(PUE)、绿电直供方向演进 [62][66] 液冷技术因散热效率高,未来有望成为AI服务器标配,IDC预计2022-2027年中国液冷服务器市场年复合增长率将达54.7% [68][75] - **国内外大模型对比与国产模型优势**:国外头部模型在通用智能、复杂推理和编程方面仍具领先优势 [78][81] 但国产大模型(如GLM-5、Kimi K2.5、Qwen3.5等)已跻身第一梯队,并在成本效率上建立压倒性优势 [79][91] 2026年2月,在海外开发者为主的OpenRouter平台上,中国AI模型调用量三周大涨127%,首次超越美国,且周调用量前五的模型中四款来自中国厂商 [6][92] - **高质量数据集需求爆发**:数据要素顶层设计不断完善,“十五五”规划强调统筹推进高质量数据资源供给 [6][93] 高质量数据集是AI时代的核心底座,可分为通识、行业通识和行业专识三大类,为模型训练、微调提供关键支撑 [96][99] 能够生产与治理高质量数据资产的服务商价值凸显 [16] 四、投资建议 - 报告建议围绕AI原生上下游核心赛道,关注四类投资机会 [102] 1. **AI原生应用公司**:关注可实现规模化收入的通用AI Agent,以及AI Agent与垂直行业Know-How深度融合的机会 [6][102] 2. **端侧AI上游“铲子型”公司**:关注服务于AI眼镜、人形机器人、自动驾驶汽车等载体的算法及产业链卡位公司 [6][102] 3. **国产算力链替代机遇**:关注供需剪刀差下的国产算力产业链机会 [6][102] 4. **算电协同基础设施**:关注绿电IDC、虚拟电网等相关领域 [6][102] - 个股层面建议关注地平线机器人-W、晶泰控股、美图、金山办公、恒生电子、中科创达、海光信息、中科曙光、拓尔思、同花顺等公司 [6][102]
政府工作报告,为什么点名“高质量数据集”
第一财经· 2026-03-07 20:02
政府工作报告与政策导向 - 2026年政府工作报告提出要打造智能经济新形态,深化数据资源开发利用,健全数据要素基础制度,并首次点名“建设高质量数据集”[3][5] - 报告要求深化拓展“人工智能+”,促进新一代智能终端和智能体加快推广,推动重点行业人工智能商业化规模化应用[4] - 国家发展改革委主任表示,“十五五”末人工智能相关产业规模将增长到10万亿元以上[4] 数据在AI发展中的核心地位与挑战 - 数据是人工智能发展不可或缺的燃料,与算力、算法并列为AI进步的三个维度[6] - 高质量数据对模型表现至关重要,而人工智能从生成式AI向物理AI进化,训练物理AI所需的强交互数据在互联网上难以找到,问题变得更为突出和严峻[3][7] - 在智能驾驶领域,核心问题已从数据量转变为数据价值密度,随着智驾能力提升,只有危险工况或奇怪场景的数据才更有价值[7] - 具身智能(如人形机器人)落地关键瓶颈之一是数据,其所需的高质量、强交互数据比智能驾驶更加复杂和难以获取[8][9] 高质量数据的来源与瓶颈 - 生成式AI快速发展几乎耗尽了公共领域的数据,而制药、服装、医院等垂直领域的私域数据尚未被充分挖掘和激活[10] - 合成数据(通过生成模型、仿真等方式产生)被视为2026年AI数据集的核心突破方向,但其质量是关键,通常难以达到真实数据的质量[11] - 在物理AI领域,真实交互数据是基础,合成数据用于扩展覆盖范围、增强长尾样本,但目前具身智能尚缺乏0-1阶段的数据积累,合成数据难以发挥最大功效[11] - 获取0-1阶段交互数据的方式(如遥操真机采集)成本很高,行业正通过建设创新中心等方式寻求解决基础数据获取问题[12] 数据标准化与行业现状 - 当前数据标准体系不完善,即使在智驾领域,不同厂商在数据格式、语义定义、标注体系和质量要求上存在较大差异,导致数据复用和共享成本很高[13] - 行业期待2026年在数据标准化方面取得进展,以促进数据共享[13]
GEO时代 AI友好型内容生态构建指南
搜狐财经· 2026-01-29 15:04
文章核心观点 - 生成式引擎优化(GEO)是企业在大模型时代的核心战略,企业需将构建AI友好型内容生态提升为CEO直管的数字化战略核心,从传统的流量思维转向知识资本思维,以在AI主导的信息分发新格局中建立品牌可见度与话语权 [2][3][5] 理解AI的“认知”逻辑与GEO核心理念 - 生成式AI基于注意力机制处理信息,其过程包括语义解析与意图识别、知识检索与验证、答案生成与置信度评估,AI优先采用来源权威、逻辑严密、数据支撑充分的内容 [4] - GEO的核心理念是实现“从被AI发现到被AI信任再到被AI推荐”,这需要通过技术可发现性、语义理解和可信可推荐性三个层次来实现 [4] - 企业应用GEO原则效果显著,例如一家制造业企业将白皮书拆解为200多个FAQ单元后,6个月内AI引用率暴增480%,某工具站应用DSS原则后,3个月AI引用率提升35%,自然流量增长38% [5] 内容生态的战略转型与组织保障 - GEO应作为“一把手工程”,由CEO或CFO总负责,避免在部门资源竞争中被边缘化,领先企业可设立由CMO牵头的“AI内容战略委员会”并统筹全公司知识资产改造 [6] - 建议按年度营收的0.5%—1%划拨GEO专项基金,并重构KPI考核体系,关注“AI引用覆盖率”、“知识图谱完整度”等新指标 [6] - 企业需挖掘内部显性与隐性知识资产,并通过工具将其转化为流动资产,例如使用NLP工具批量生成FAQ单元,对视频资产进行AI转录形成多模态内容包 [6][7] 构建AI友好型内容生态的四大关键 - **关键一:结构化内容**:AI偏爱“零食化”知识单元,企业需将复杂信息拆解为独立、有标签的知识模块,采用描述性层级标题体系,并运用对比表格、有序列表、FAQ单元等格式,同时为每个模块添加Schema标记 [8][9] - **关键二:DSS原则构建“信任基建”**:DSS原则(语义深度-数据支持-权威来源)构成GEO时代的“信任三角”,通过提供深度分析、完整证据链和绑定权威来源来提升AI的置信度 [9][10] - **关键三:多模态优化**:GEO需覆盖全媒体形态,图像优化需使用清晰的替代文本、确保文字可被OCR识别并使用ImageObject schema;视频优化需提供精准字幕、完整文字稿、代表性缩略图及VideoObject标记;音频内容需转录并提取核心观点制成“知识卡片” [11] - **关键四:构建企业知识图谱与高质量数据集**:最高级的GEO是构建企业专属知识图谱,通过实体识别与关系抽取、知识融合与消歧、图谱可视化与API开放三步,将分散内容连接成可被AI理解的语义网络,并可向百度、谷歌等平台直接提交结构化知识以缩短AI学习周期 [12] GEO的实施路径与效果评估 - 企业需建立PR主导的品牌调性审核机制,确保GEO内容价值观统一,并通过发布高质量结构化内容来应对AI回答中可能出现的品牌信息偏差 [13][14] - 建议采用“双周迭代”等敏捷机制,并运用A/B测试和反向优化来持续改进GEO策略 [14] - GEO需要新的效果评估指标体系,核心指标应包括AI可见度、答案份额、首位引用率、知识覆盖率等,辅助指标包括自然流量增长率、线索质量分与品牌信任指数 [15] - 持续优化需依靠三驾马车:建立包含热点响应、数据刷新和FAQ迭代的内容更新机制;进行包含API开放、实时同步和多模态处理的技术架构升级;开展包含GEO认证培训、激励机制和外部协作的组织能力建设 [16][17][18] 行业趋势与战略意义 - 据中国信通院预测,2026年AI搜索将占据搜索市场60%以上份额,时间窗口有限 [19] - GEO是企业在大模型时代生存与发展的核心能力,通过构建知识图谱和高质量数据集成为AI的“默认设置”,能够为企业建立真正的战略“护城河” [5][19]
2025年中国企业级AI应用行业研究报告
艾瑞咨询· 2026-01-28 08:07
企业级AI应用发展背景 - 政策强力牵引人工智能与实体经济深度融合,最高级别文件《国务院关于深入实施“人工智能+”行动的意见》将AI定位为新质生产力核心引擎,目标到2027年实现与六大重点领域广泛深度融合、新一代智能终端及智能体应用普及率超70%,2030年普及率超90% [6] - 高质量数据集成为AI发展核心支撑,相关政策首次明确其概念并作为AI与实体经济融合的核心载体,提出构建“平台+数据集+模型”一体化服务设施以降低应用门槛 [6] - 2025年能源、交通运输、医疗卫生等重点行业密集出台“人工智能+”落地政策,设定到2027年实现典型场景广泛覆盖与深度赋能的具体目标 [7][8][9] - 技术路线从模型中心转向Agent驱动,AI-Ready数据和AI Agents是当前发展最快的技术,标志着AI应用正从辅助工具向自主决策跃迁 [10] - 投融资热点从底层模型转向应用层,截至2025年12月15日,中国AI产业全年融资事件772起,其中AI应用层融资事件数量占比超50%,AI+医疗成为热门吸金赛道 [12] 行业现状与核心价值 - 企业级AI应用已从技术探索期全面转向规模化应用期,市场重心从可行性验证转向商业价值验证 [1][14] - 新一代AI应用在智能客服、知识库问答、内容生成等知识密集且交互开放的场景中率先取得规模化突破 [1][21] - 当前企业级AI应用核心价值聚焦三大方向:流程增效(直接降本、ROI明确)、知识增幅(激活企业知识资产、赋能高效决策)和价值创新(重塑产品与客户体验、探索新商业模式) [17] - 规模化落地面临三大瓶颈:数据基础薄弱与治理体系缺失、业务价值缺乏可量化度量体系、缺乏兼具技术与业务洞察的复合型人才 [23] 落地关键框架与载体 - 企业级AI应用成功落地依赖于构建系统性、端到端的能力,涵盖应用层、支撑层、基础设施层和组织层四个维度 [1][27] - AI Agent成为当前企业级AI应用落地的核心载体,其以大语言模型为核心推理引擎,结合外部工具调用,实现从思考到行动的跨越,成为将AI推理能力转化为业务流程实际操作能力的重要载体 [1][29] - 企业级Agent落地需构建“AI技术+软件工程+人工干预”三元支撑体系,通过将复杂流程切分为可验证的最小任务单元以保障可靠性,初期可优先选择价值明确的劳动密集型或效率瓶颈型场景 [31] - Agent能力正从紧耦合的Function Calling向模块化、可复用的Agent Skills演进,通过封装结构化指令和资源来提升处理复杂任务时的确定性与灵活性,使其更深入集成至企业核心流程 [37] 模型、数据与算力基础设施 - GenAI模型选择需以场景需求为导向,在多维度权衡模型效果、性能与成本,在保证效果和性能达标的基础上追求最优性价比,并考虑将GenAI与决策式AI结合以提升在严肃企业级场景的可用性 [39] - AI-Ready的高质量数据集是构建企业独特AI竞争力的关键,其特征为高价值应用、高知识密度和高技术含量,尤其来自企业内部、承载业务知识的数据 [41][42] - AI时代数据治理呈现从被动跟随到主动规划、静态管理到实时响应、单一结构化到多模态管控三大趋势,企业需重构数据管理体系,构建多模态、实时响应的Data+AI一体化平台 [45] - 需构建覆盖数据输入、处理、输出全生命周期的主动安全治理体系,以防范数据合规性缺失、污染、敏感信息残留等风险向模型层传导 [47] - AI算力芯片中GPU主导地位稳固,行业竞争焦点由单芯片算力转向超大规模集群的系统级效率,国内厂商在互联带宽、集群规模、推理优化等方面进行差异化突破 [50][51] - AI Infra(人工智能基础设施)通过软硬件一体化协同设计对资源进行系统级调优,将原始算力转化为模型性能与业务价值,在国产化背景下对提升国产算力可用性起到关键作用 [53] 组织转型与人才要求 - 企业管理层的投入深度与决心直接决定AI应用成败,在AI高绩效组织(AI为息税前利润贡献超5%)中,48%的高层管理者展现出对AI战略的强烈“主人翁”式承诺,是普通组织的三倍 [56] - 企业需从以技术为中心的“项目交付”转向以员工为中心的“价值运营”,通过建立心理接纳、优化场景体验和促进能力内化来提升用户采纳度,从而释放AI实际价值 [57][59] - 业务人员需向AI协作者转型,能够精准识别业务痛点并将其转化为AI可解的问题框架,并掌握与AI协作的新一代技能;技术团队需从后台支撑走向前台价值赋能,成为连接技术与业务价值的AI流程架构师 [60][62] - AI项目ROI评估面临间接收益难以量化、隐性成本易被低估等挑战,可考虑放弃追求单一精确数字,转而采用分层、动态的评估框架来审视企业整体AI投资的价值回报 [63] 产业格局与商业模式 - 企业级AI应用领域主要有应用软件、技术服务及解决方案、云服务和AI模型四类厂商,形成分层协作、动态竞合格局 [2][65] - 应用软件厂商依托行业或业务Know-how进行能力升级;技术服务与解决方案厂商以定制化服务和一体化交付能力撬动客户;云服务商以模型+平台拉动底层资源消耗;AI模型厂商则侧重提供模型私有化部署及定制化训练服务 [65][66] - 厂商主要成本集中在算力与研发,两者合计占比通常可达70%及以上,其次为数据准备成本 [67] - 收费模式以订阅制为主,效果付费模式目前仅在营销、运营等少数结果导向型场景中有所应用,其未来渗透率提升有赖于厂商与客户共同构建完善的价值评估体系 [67] 技术演进与未来趋势 - 大模型架构由单一的Transformer向多架构并行迭代演进,新型RNN(如Mamba-2)和CNN(如OverLoCK)架构有助于实现效率与性能的平衡,使企业能面向不同场景灵活搭建高效架构组合 [2][71] - AI有望深度介入并重构企业流程,驱动流程自动化从基于预设规则的静态自动化,迈向由AI驱动的动态自主化,未来AI可能具备自主启动、重构与编排流程的能力 [2][74] - AI在科研领域可形成技术底座、核心能力、科研流程、价值输出的闭环,通过虚拟实验降本、自动化分析提速、跨学科知识融合破界,帮助研发驱动型企业提升竞争力 [2][76][77] - 物理AI(物理交互型AI)正从数字AI的信息处理迈向与物理世界的交互,通过空间智能和世界模型连接数字智能与实体业务,形成更完整的感知-决策-行动一体化智能业务链 [2][79][81] - AI原生应用将向全新的流量入口、交互方式、应用架构和业务逻辑演变,以大语言模型+Agent为核心,通过自然语言和多模态交互提供高度个性化、目标导向的服务 [2][82]
多领域数据集填补空白 北京亦庄最高兑现200万元奖励
中国新闻网· 2026-01-22 23:38
文章核心观点 - 北京经济技术开发区通过“数据20条”政策及最高200万元的现金奖励,首次集中兑现并表彰了20家企业的38个高质量数据集,旨在激活数据要素价值,筑牢人工智能发展的数据根基,推动数据产业高质量发展[1] - 获奖数据集在具身智能、生物医药、工业制造、智能网联等多个重点产业领域实现了填补国内或全球数据空白的突破性进展[2] - 政策奖励资金被企业明确用于加码研发投入与生态共建,直接转化为产业发展动能,助推产业升级[3] - 北京亦庄已获批国家数据产业集聚区试点,正打造“亦城数港”产业集聚标杆,并计划在2026年投入总规模超过2亿元的资金,持续深化数据产业全链条支持[6] 政策背景与奖励机制 - 2025年,北京亦庄发布“数据20条”政策,明确支持高质量数据集建设,近日首次集中兑现[2] - 政策以场景为驱动,旨在畅通数据供给,激励企业破解数据瓶颈,助力全域人工智能之城建设[2] - 奖励最高额度为200万元人民币[1] - 2026年,北京亦庄将聚焦数据产业全链条关键环节,集中落地系列政策兑现举措,总资金规模超过2亿元[6] 具身智能领域数据集突破 - 北京人形机器人创新中心有限公司的“RoboMIND2.0数据集”填补了国内双足人形机器人开源数据空白,已支撑国内首个通过国标测试的跨本体具身VLA大模型的训练和开源[2] - 星海图打造了全球首个开放场景真机数据集,开源后双平台跃居全球机器人真机数据集下载量首位[2] - 行业现有数据仍不能满足人形机器人模型训练需求,企业计划利用奖励资金进一步扩大真实场景数据规模,推动机器人实际落地应用[4] 生物医药领域数据集突破 - 麦克奥迪医疗采用“三甲医院病理专家诊断意见+AI制片质控+临床信息关联脱敏数据”模式打造数字病理疑难病例数据集,相关数据已获得北京数据交易所《数字资产登记凭证》[3] - 药云构建了国内首个面向真实世界证据生成的垂直化、结构化、可监管医药融合数据集,已为生物医药企业提供服务[3] - 企业计划利用专项资金持续加大研发投入,推进数据开放上架与AI应用大模型的开发,该数据集有望成为区域医药健康与医疗AI产业的重要基础资源[4] 工业制造领域数据集突破 - 北京蚂蚁工场构建了国内首个覆盖“非标+标准件”全流程柔性制造的强合规数据集,填补了“数据驱动智能制造闭环+大模型可持续训练”双重空白[3] - 星龙数智首创钢铁行业全产业链高质量数据集建设与应用平台,助力钢铁企业生产协同效率提升超10%、能源消耗降低3%以上[3] - 企业计划将“数据集成果”升级成“数据能力供给”,做成通用接口,并探索受控开放、场景共建和联合验证,推动数据在产业链中流动[4] 智能网联领域数据集突破 - 四维图新智驾的“基于4D时空障碍物检测的高质量自动驾驶数据集”首创“4D时空+自动化闭环”模式,填补了中国特有的复杂交通场景数据空白[3] - 恺望数据集助力自动驾驶向无图模式加速转型[3] - 四维图新的数据集已赋能头部智驾企业,助力其大幅缩短研发周期、降低标注与挖掘成本,公司2024-2025年智驾新增定点约680万套,合作覆盖20余家主流车企[5] 企业资金用途与产业影响 - 获奖企业普遍将奖励资金直接投入研发升级与生态共建,视其为产业发展的催化剂[3] - 资金将用于弥补关键短板、深化技术迭代、加快与区域重点企业对接,以及提升数据集行业影响力[4][5] - 高质量数据集正成为数字经济时代的核心生产要素,通过填补数据空白、优化产业流程、推动技术创新与模式迭代,为全域人工智能之城建设注入数据动能[6] 区域产业发展规划与展望 - 北京经济技术开发区已获批国家数据产业集聚区试点,正打造“亦城数港”产业集聚标杆[6] - 未来将持续深度推进“数据二十条”,2026年的超2亿元资金将涵盖数据流通基础设施建设运营、核心技术攻关、高质量数据集认定、智慧城市场景开放、数据要素流通券发放及市场示范奖励等核心领域[6] - 企业期待更多同行参与高质量数据集建设,形成可复制、可推广的应用成果,并希望政策持续赋能,筑牢合规流通保障与优质营商环境[6]
北京亦庄打造“亦城数港”产业集聚标杆
中国经济网· 2026-01-22 13:48
北京亦庄激活数据要素价值政策与成果 - 北京经济技术开发区(北京亦庄)通过“真金白银”奖励激活数据要素价值,筑牢全域人工智能之城的“数据根基” [1] - 2025年发布“数据20条”政策支持高质量数据集建设,并于近期首次集中兑现 [1] - 政策以场景为驱动,旨在畅通数据供给,激励企业破解数据瓶颈 [1] 高质量数据集的核心价值与战略地位 - 高质量数据集是人工智能应用升级的核心要素,是训练大模型的精准样本和推动大模型从通用型走向产业专用型的关键桥梁 [1] - 强化高质量数据供给已成为全球AI竞争的战略共识 [1] - 高质量数据集兼具高价值应用、高知识密度、高技术含量“三高”特性,正成为数字经济时代的核心生产要素和推动产业升级的关键动能 [2] 获奖数据集的具体成果与突破 - 首次政策兑现共奖励20家企业的38个高质量数据集 [1] - 数据集覆盖具身智能、生物医药、工业制造、智能网联等重点产业领域 [1] - 成果引领关键领域数据供给实现首创、填补空白等突破性进展 [1] - 北京人形机器人创新中心有限公司的“RoboMIND2.0数据集”填补国内双足人形机器人开源数据空白,并支撑了国内首个通过国标测试的跨本体具身VLA大模型的训练和开源 [2] - 麦克奥迪(300341)医疗打造的数字病理疑难病例数据集,相关数据已获得北京数据交易所《数字资产登记凭证》 [2] - 北京蚂蚁工场构建国内首个覆盖“非标+标准件”全流程柔性制造的强合规数据集,填补“数据驱动智能制造闭环+大模型可持续训练”双重空白 [2] - 四维图新(002405)智驾公司的“基于4D时空障碍物检测的高质量自动驾驶数据集”,首创“4D时空+自动化闭环”模式 [2] 数据产业发展规划与资金支持 - 北京亦庄已获批国家数据产业集聚区试点,正打造“亦城数港”产业集聚标杆 [3] - 2026年将聚焦数据产业全链条关键环节,集中落地系列政策兑现举措,总规模超过2亿元 [3] - 资金支持涵盖数据流通基础设施建设运营、数据领域核心技术攻关、高质量数据集典型案例认定、智慧城市场景开放、数据要素流通券发放及数据要素市场示范奖励等核心领域 [3] - 通过梯度化、精准化资金支持体系,以奖促建,激活数据要素潜能,助力数据产业能级跃升与规模化发展 [3]
怎样的数据才算“高质量”?南京玄武:全国首笔具身智能数据集交易的背后
扬子晚报网· 2026-01-03 21:51
文章核心观点 - 人工智能产业正从“模型驱动”向“数据驱动”深度转型,高质量数据集已成为决定AI技术落地效能的关键稀缺资源和产业竞争焦点 [1] - 江苏省在数据要素市场化和高质量数据集建设方面走在前列,通过平台建设、生态培育和标准化工作,系统推动数据价值实现与产业转化 [6][10][11] 行业趋势与市场动态 - 高质量数据集具备“三高”特征:高价值应用、高知识密度与高技术含量,是AI模型迭代的核心燃料和与实体经济深度融合的基础支撑 [4] - 数据交易市场活跃,例如“具身智能数据集”在江苏省数据交易所完成交易,实现了全国该领域数交所交易的“零突破” [1] - 数据集的跨界价值凸显,例如儿童肠道菌群数据集被用于改良益生菌饮料,揭示了数据与产业场景深度融合创造价值的核心逻辑 [8] 公司案例与产品分析 - 箸境智能上架了包含约2.5万条结构化数据的“具身智能数据集”,涉及办公、商超、餐饮、家政四大场景 [3] - 单条数据时长约10秒,容量从几十兆到上百兆不等,包含视频、关节角度与力矩等信息,是可直接投入模型训练的高质量数据 [3] - 产品价值在于为买方提供经过深度清洗和严密标注的数据,省去了从零搭建采集环境和调试的漫长周期,降低了试错成本 [4] - 数据港和数交所提供的合规指引与配套服务,为企业扫清了交易障碍,提升了交易效率 [8] 地区发展与实践 - 江苏省作为数据要素资源大省,截至2025年10月底,在重点领域已形成高质量数据集321个,数据总规模超93PB(相当于9300万部2小时时长的电影) [6] - 南京市玄武区着力构建数据要素产业生态,落地运营江苏国际数据港、江苏省数据交易所、玄武大模型工厂等关键基础设施 [6] - 中国高质量数据集产业基地(南京)已在玄武区落地,通过“技术研发—基建支撑—资源整合—产业孵化”的协同模式,打通数据价值转化全链条 [8] - 江苏省计划从供需两侧同步发力,通过编制建设指南与产业图谱、加快数联网与可信数据空间试点、搭建公共服务平台等措施,夯实数据应用根基 [11] 标准化与顶层设计 - 标准化被视为高质量数据集建设的关键路径,其核心价值在于解决数据应用中的实际痛点,是衔接数据资源与实际应用的关键桥梁 [10] - 全国数标委已正式发布4项高质量数据集系列技术文件,包括建设指南、格式要求、分类指南、质量评测规范等 [10] - 国家按照“1+3+5+N”的思路推进高质量数据集基础设施化,即1个管理服务平台、3个层次、5类建设主体、N个典型应用场景 [11] - 南京市将举办“数智未来”高质量数据集开发者创新大赛,聚焦医疗健康、能源管输等五大专业赛道,以赛促建、以赛促用、以赛促生态 [13]
AI演进新阶段:智能体崛起呼唤高质量数据供给
中国新闻网· 2025-12-07 10:37
行业政策与战略方向 - 国家数据局表示将引领开放协同,鼓励各类主体打破壁垒合作,构建全国一体化数据要素市场,营造更加开放的产业生态 [1] - 广东省作为国家数字经济创新发展试验区,在推动数据要素市场化配置方面走在前列,将继续加大政策供给和要素保障,为企业营造良好营商环境 [1] - 国家数据发展研究院提出构建高质量数据集管理服务平台的新思路,以推进数据集基础设施化,赋能经济社会发展 [2] 技术发展与市场趋势 - 人工智能技术从基础大模型、垂类大模型发展到智能体,技术飞速发展,对数据的需求不断更新迭代 [1] - AI智能体正成为释放数据价值的关键载体,而高质量数据集是其能力跃升的基石 [2] - 人机交互正迎来颠覆性变革,用户入口面临全新重塑 [2] 产业实践与成果 - 中国电信发布星辰智能体服务平台1.0,以“星小辰”智能体为统一入口,实现跨终端、跨场景的智能服务 [1] - “星小辰”智能体支持用户通过自然语言完成复杂任务,如行程规划、家庭安防、通信办理等 [2] - 截至9月底,全国已建设高质量数据集总体量超500PB [2] 当前挑战与未来重点 - 高质量数据集建设面临应用导向不明确、标准规范不统一等挑战 [2] - 未来将从社会、行业、生态三个层面推进数据集基础设施化,开展批量的高质量数据集建设 [2]
前瞻全球产业早报:我国信息通信领域首个国家重大科技基础设施正式投入运行
前瞻网· 2025-12-05 22:52
宏观经济与政策展望 - 中央经济工作会议临近,市场关注明年政策走向,宏观经济增长的“质”的要求比硬性增长目标更重要 [2] - 明年政策重点看点包括居民消费、稳消费政策的持续性以及对民营经济的支持 [2] - 明年大概率延续宽松的财政和货币政策组合,以稳住和巩固经济复苏动能 [2] 科技创新与数字基建 - 我国信息通信领域首个国家重大科技基础设施“未来网络试验设施”通过国家验收并正式投入运行,标志着我国网络技术创新与试验验证能力迈入国际先进行列 [2] - 截至三季度末,我国已建成高质量数据集总量超500PB,赋能人工智能模型性能提升与创新加速 [3] - 国家数据局联合26个部委推动高质量数据集建设,部署了140项先行先试任务,旨在营造“人工智能+”与高质量数据集建设应用同步的良好氛围 [3] 人工智能与前沿技术 - 小米集团在AI大模型和应用方面的进展远超预期,公司已在前几个季度开始压强式投入 [6] - 商汤科技联合创始人王晓刚出任大晓机器人董事长,该公司将于12月18日发布产品阵列及国内开源商业应用“开悟”世界模型3.0 [6] - OpenAI将收购AI模型训练监控与调试工具公司Neptune,双方近期合作开发了能比对数千次实验、分析指标的工具 [8] - 三星电子成立“Samsung Research Nova AI研究所”,并任命常务李康旭为首任负责人 [11] - Anthropic与Snowflake达成2亿美元多年期协议,将在Snowflake平台上提供Claude大模型,旨在将AI智能体部署到全球大型企业中 [12] - AI记忆公司穗升科技完成数百万美元天使轮融资,由红杉中国种子基金领投 [13] 卫星互联网与航天 - 上海7家卫星互联网创新载体被授牌,涉及卫星研发、空间技术、研究院所及通信服务等领域 [4] - 日本栗田工业与太空初创公司ispace达成协议,将合作开展月球水资源开发相关的战略规划与技术验证,寻求建立可持续的月球水资源基础设施 [10] 新能源与高端制造 - 宁德时代发布“船-岸-云”一体化解决方案,截至2025年11月,近900艘船舶已搭载其船舶动力产品 [5] - 国内低空安全解决方案提供商杰能科世完成数千万元新一轮融资,投资方包括杭实集团旗下公司等 [13] 消费电子与硬件 - 字节跳动豆包手机首批备货约3万台已售罄,项目方未追加物料投入,短期内市场流通量固定 [5] - 字节跳动与中兴通讯的第二代产品已启动研发,预计于2026年底出货 [5] - 苹果顶级设计主管艾伦·戴伊将加盟Meta,出任新设计工作室首席设计官,核心任务是用AI重构Meta头显、智能眼镜等设备的软硬件及交互体验 [9][10] 企业战略与资本市场 - 湖北省国资委表示,“十五五”期间将深入推进闲置资产盘活利用,探索开展不同层级企业专业化整合,以提升国有资本运营效率 [5] - 东方甄选正招聘北京首家旗舰店店长,该店位于中关村,面积约400平方米,涵盖商品零售及简餐饮品区,标志着其线下门店扩张计划启动 [6] - 证监会同意深圳市恒运昌真空技术股份有限公司在科创板IPO注册 [14] - 深圳基本半导体股份有限公司向港交所提交上市申请书 [14] 国际贸易与产业动态 - 由于半导体、汽车和船舶等出口强劲,韩国2025年全年出口有望首次超过7000亿美元,创历史新高;前11个月出口已达6402亿美元,超过2022年全年6287亿美元的纪录 [7] - 诺和诺德计划本月在印度推出糖尿病特效药Ozempic,旨在加强市场立足点并在仿制药推出廉价版本前抢占市场 [13]
全国已建设高质量数据集总体量超500PB
新华社· 2025-12-04 22:24
国家数据局推动高质量数据集建设进展 - 截至9月底,全国已建设高质量数据集总体量超500PB [1] - 国家数据局联合多部门制定政策文件,以场景应用为导向推动各行业领域高质量数据集建设 [1] - 部署了140项先行先试任务,初步实现“人工智能+”到哪里,高质量数据集建设和应用就到哪里的氛围 [1] 数据标注产业发展现状 - 截至9月底,我国7个数据标注基地引进和培育标注企业362家 [1] - 数据标注从业人员达8.5万人,带动数据标注相关产值163亿元 [1] 人工智能算力消耗情况 - 我国日均Token消耗量已突破40万亿 [1] - 与2024年初相比,日均Token消耗量增长了约400倍 [1]