Workflow
摇钱树还是吞金兽? 大模型考验AI数据服务商
新华网·2025-08-12 13:47

行业需求与市场机遇 - 大模型训练对高质量数据需求呈现井喷状态 尤其垂直领域数据集需求激增[2] - AI预训练数据服务市场规模预计2027年达到160亿元 5年复合增长率28.9%[2] - 场景应用多元化推动深度信息加工需求 客户提出基于大模型能力的新型数据需求[3] - 头部数据服务商已与大模型公司及科研机构达成战略合作 包括海天瑞声与北京智源研究院合作 拓尔思为国家级实验室提供训练数据集[3] 成本结构变化 - 单条数据处理成本大幅上升 最高达到数百元人民币[1] - 成本增加主要来自算力与人力两方面投入:需租赁更多芯片显卡硬件 并雇佣高学历标注人员[5] - 数据标注员学历要求显著提升 头部厂商标注基地本科率达到100% 人力成本持续攀升[5] - 需搭建新数据预处理平台 涉及硬件设备投入与算法工程师人力配置[6] 企业资本运作 - 多家上市公司启动定向增发募集资金:海天瑞声拟募资7.9亿元 星环科技拟募资15.21亿元 拓尔思拟募资18.45亿元[6] - 海天瑞声10月调整定增方案 总募资额降至6.66亿元 其中垂直大模型研发项目投入缩水23.51% 训练数据集建设项目投入减少7.38%[8] 行业发展现状 - 行业处于早期发展阶段 大模型商业化应用尚需时间下沉 数据需求释放具有长期性[8] - 当前以通用大语言模型为主 垂直领域及多模态大模型数量较少 市场未大规模应用[7] - 科技巨头与专业数据服务商在多模态和合规化领域具备研发优势 可能形成技术壁垒[9] 企业战略布局 - 部分数据服务商从数据供应转向自建行业大模型 需要更大规模投资[6] - 长期数据积累形成竞争优势 例如晴数智慧拥有7年高采样率语音数据沉淀 支撑热门语音复刻应用[9] - 监管关注募资必要性 海天瑞声与星环科技均收到问询函 需说明业务前景与市场空间[7]