Workflow
从数据标注产业政策看数据产业发展趋势
数据创新中心·2025-01-15 15:03

纪要涉及的行业和公司 - 行业:数据标注产业、数据产业、AI 模型行业 [2][8][16] - 公司:海天公司、达梦数据、海量数据、太极股份、循环科技、金环科技 [11][17] 纪要提到的核心观点和论据 - 数据标注产业定义及政策目标:数据标注产业是对数据进行加工处理的新型产业,政策目标到 2027 年年均复合增速达 20%,显著提升专业化、智能化和科技创新能力,培育有影响力的标注企业 [2][4] - 数据需求分类及政策重点:数据需求分 C 端、B 端、公共数据和支撑大模型训练数据四类,政策重点关注公共和企业数据,可解决数据孤岛问题,建设高质量行业数据库,赋能 AI 应用 [2][5] - 供给侧支持方式:通过国家重点研发计划推动关键技术攻关,健全标准体系,支持上下游联合科研单位加快技术成果转化,打造繁荣产业生态系统 [2][6] - 数据标注政策对产业链影响:拉动整个数据产业链发展,推动公共与企业高价值数据开发,加速数据共享开放,带动配套工具平台发展,为二级市场带来投资机会 [2][7] - 数据产业政策影响:2023 年底以来政策密集出台,加速对数据产业支持,国产化和信创带来新机遇,AI 大模型场景化应用成重要方向,性价比是 AI 应用落地关键因素 [2][8] - 数据标注在 AI 中的作用:提升模型预测目标准确性,预训练阶段用无标注数据,微调阶段需高质量、场景化标注数据,大模型时代重要性凸显 [2][10] - 市场主要数据公司及发展状况:市场主要有专门数据标注厂商、数据库公司、配套数据平台和工具厂商三类,2023 年 CIA 服务市场规模约 45 亿元,海天卫生占龙头地位但行业分散,预计 2028 年市场规模增长至 170 亿元,品牌服务商市占率将提升 [11] - 数据标注行业未来趋势:多模态和行业化需求推动新需求出现,品牌服务商市占率将从 2023 年的 16 亿元增长至 2028 年的 70 亿元,增速超行业平均 [12] - AI 大模型时代数据使用变化:传统经济学时代训练用标注数据,大模型时代预训练用未标记多模态数据,微调用高质量、场景化标注数据,对人工智能技术要求更高 [13] - 语音和视觉领域数据需求变化:语音领域定制化数据需求增加,视觉领域大模型从识别转向理解和认证任务,带来新数据需求,多模态数据标注需求将稳定或快速增长 [14][15] - 数据资源服务在 AI 模型行业化落地中的作用:在 AI 模型行业化落地中起关键作用,2025 年 AI 应用需高质量运营数据支撑模型产品化调优,海外和国内市场均有体现 [16] - 合成数据对标注需求的影响:合成数据占比增加不会完全取代人工标注,未来 3 - 5 年数据标注产业预计显著扩展,合成数据与人工标注结合是发展核心动力 [19][20] 其他重要但可能被忽略的内容 - 海天公司优势:在行业化趋势中表现出色,有业绩兑现潜力;投入资源建设标注平台系统,在语音和支架领域突出;法律合规性好,能处理法律合规及桌面清洗问题;资源能力强,与版权方长期合作可带动业绩增长 [17] - 海天公司未来发展方向:海外业务扩展,三季度海外业务增速达 120%;与国内头部厂商合作获取新订单;关注政府及大型企业的数据要素项目 [18]