海天瑞声(688787) - 投资者关系活动记录表-(2024年3月5日)
分组1:大模型文本数据需求变化 - 通用大语言模型初始训练因自身数据和网络爬取数据问题,下游客户倾向采购第三方数据 [3] - 大模型上线后追求性能等催生外采数据需求和强化学习文本标注需求 [3] - 大模型向垂向场景渗透带来海量垂向领域文本数据需求 [4] 分组2:公司收入结构及预期 - 语音收入占比较高,因语音更早商业化落地、数据获取难度高、公司语音积累深厚,覆盖超200种语种/方言,储备1041个高质量语音数据集 [4][5] - 随着市场端客户在自动驾驶、LLM等应用方向研发投入提升,公司视觉、NLP方向收入预期同步提升 [5] 分组3:强化学习标注类型 - 包括问题分类/打标签、对问题/回复进行改写、对大模型输出答案优劣排序/打分 [6] 分组4:2023年公司收入下滑原因 - 境外受部分客户裁员、业务调整及数据出境法规影响,收入同比大幅下滑 [6] - 境内因内外部环境复杂、客户研发投入谨慎、行业竞争加剧,收入同比下滑 [6] 分组5:公司标注方式 - 各类数据生产实现人机协同,先算法预标注,再人工精细化标注,如智能驾驶车道线标注任务 [7]