Workflow
海天瑞声(688787) - 北京海天瑞声科技股份有限公司投资者关系活动记录表-2023年12月11日
海天瑞声海天瑞声(SH:688787)2023-12-11 09:02

大模型数据需求差异 - 大模型预训练与传统训练数据形态一致,但在规模、质量、来源等方面有差异,预训练数据token量普遍在万亿量级,传统模型约10亿量级,且大模型数据来源更丰富 [3] - 数据处理核心技术有差异,大模型预训练数据更注重数据清洗工程化能力,对数据服务商要求更高 [3][4] 大模型发展带来的机遇与挑战 - 大模型预训练衍生新型数据需求,数据服务公司需设计执行海量数据清洗方案,能聚集版权数据并提供服务的服务商竞争力更高 [4][5] - 大模型完成预训练后需有监督微调及基于人类反馈的强化学习,数据处理人员需有更高认知和专业能力 [5] - 大模型时代数据服务模式从数据标注向获取高质量数据和更强处理能力转变,前瞻性布局的服务商优先获市场机会 [5] 大模型多模态发展影响 - 大模型向多模态发展产生更多新型数据需求,高质量多模态训练数据集学习训练重要性凸显,推动数据服务行业增量 [6] 公司定增项目 - 公司全栈自研的数据生产垂直大模型可辅助完成数据设计与处理规则,形成多项生成能力,服务数据生产垂直方向 [7] 公司与大数据交易所合作 - 公司在大数据交易所主要角色是数商,通过挂牌自有知识产权数据产品交易 [7] - 公司已与3家交易所建立联系,在2家完成数据产品挂牌上市,成为1家战略合作伙伴,未来将加强合作 [7][8] 智能驾驶行业竞争力 - 智能驾驶数据领域核心竞争力体现在平台能力、算法能力和数据安全能力 [8] - 平台能力是数据标注基石,功能覆盖丰富度是评价核心,能覆盖更多功能需求的服务商掌握主动权和议价权 [8] - 算法能力使平台智能化程度高,降低对人的依赖,提高生产效率和降低成本 [9] - 数据安全能力因智能驾驶数据涉及隐私,不具备该能力的供应商将被淘汰 [9] 公司智能驾驶业务 - 截至2023年6月底,公司已服务超70家智能驾驶领域客户,覆盖多种类型企业,目前持续拓展客户 [9]