强化学习数据服务进展 - 强化学习环节数据需求攀升,标注任务向更多垂类拓展,如法律、金融、医疗 [3] - 强化学习标注的评价/评分指标更丰富,要求标注人员多维度评判和打分 [3] - 标注需求从单模态向多模态转变,23 年集中在文本类,今年向文本 - 视频、文本 - 图像等拓展 [3] 大模型标注方式 - 大模型标注任务集中在 SFT、RLHF 环节,标注方式为分类、改写、评分、创作等,均为强人工依赖型 [4] - 部分项目引入算法自动化预标注策略提升人工标注与校对效率 [4] 多模态发展的数据需求变化 - 大模型向多模态发展会产生新型数据需求,如文生图需映射文字语义与图片标签完成学习训练 [4] - 多模态发展凸显高质量多模态训练数据集持续学习的重要性,推动数据服务行业进入更大增量空间 [5] 合成数据技术看法 - 合成数据是人工智能行业发展到一定阶段的必然产物,可作为数据采集辅助方式,但有局限性 [5] - 合成数据质量和真实性无法替代真实场景数据,多数企业仍用真实场景数据训练模型,公司会关注其发展并调整业务布局 [5][6] 海天瑞声业务价值 - 海天瑞声可汇集不同版权方数据,针对客户需求提供不同版权数据 [6] - 可针对客户定制化需求对版权数据进行精细化清洗,帮助大模型节约训练算力和具备良好价值观 [6][7] 大模型预训练与传统数据需求区别 - 形态上基本一致,都是文本、语音和图像,但预训练数据在规模、质量、来源等方面与传统训练数据有差异 [7] - 规模上,预训练数据 token 量普遍在万亿量级,传统模型约 10 亿量级 [7] - 数据来源上,大模型数据来源更丰富,除传统定向采集外,还涉及版权数据、公共数据等 [7] - 数据处理核心技术有差异,大模型预训练数据更注重数据清洗工程化能力,对数据服务商要求更高 [8]
海天瑞声(688787) - 投资者关系活动记录表-(2024年5月31日)