Workflow
海天瑞声(688787)
icon
搜索文档
AI应用展望及海天瑞声
AIRPO· 2024-11-18 00:51
一、纪要涉及的公司 海天卫生,一家专注做人工智能训练数据的公司,2005年成立,是训练数据领域里唯一一家A股的上市公司[4]。 二、纪要提到的核心观点和论据 (一)公司业务发展情况 1. **客户覆盖广泛** - 数据服务已提供给全球超过1000家科技互联网公司、LT厂商等,像微软、谷歌、亚马逊、国内BAT字节等国内外头部科技公司都是其重要客户[4]。 - 业务线覆盖语音、视觉和文本等全类AI的数据需求,可服务智能手机、驾驶、医疗、教育、金融等绝大多数AI应用场景[4]。 2. **业务增长数据** - 今年前三季度收入同比增长了45%,订单数量增长超过50%[4]。 3. **业务增长的核心驱动因素** - **大模型带来的数据需求增加** - 从2014年开始,大模型一方面拓展基础能力,如减少幻觉、提升与用户交互体验,衍生出post training和强化学习阶段新的数据需求[5]。 - 大模型今年开始向更多场景和终端加速渗透和落地,带来更多终端场景下的数据需求,如今年年初开始收到全球几个头部LT厂商数千万量级订单,需求包括构建终端交互能力的语音数据和提升agent理解能力的文本数据等[5]。 - **AI参与者类型丰富和增加** - 这几年以运营商为代表的央国企开始加入AI布局,一方面是国家政策指导,另一方面央国企在发展行业和产业模型上有资源优势(算力和传统行业数据资源)[6]。 - 海天内部组建专门的BU拓展运营商为代表的央国体客户,目前已拿到几千万量级订单,预计明年转化为收入[6]。 (二)行业发展趋势及对公司数据业务的影响 1. **数据行业进入快速增长周期的支撑点** - **基础模型能力迭代** - 虽然AI应用爆发,但基础模型迭代需求仍大体量,占据模型公司很大研发投入比重,模型存在幻觉、视觉空间能力、语音交互、逻辑推理能力等问题需要迭代提升,这需要大量数据持续训练,海天在这方面投入较多精力,有专门产品研发部建设适用于不同训练阶段和场景的标准化数据助力模型基础能力提升[7]。 - **模型向更多行业和场景拓展** - 模型向更多行业和场景拓展带来很多数据需求,如海天接到娱乐类音乐游戏标注需求、教育领域全科CT标注需求、金融法律医疗行业数据需求也在快速增加,海天自身也在和模型公司及产业进行合作,如和智普、友谊安征宣武等医院合作探索医疗大模型建设[8]。 - **AI参与者不断丰富** - 除传统科技巨头、央国企外,未来随着AI在端测应用能力增强,终端(如VR眼镜、巨神智能等)会产生大量数据需求,且随着应用拓展,可能会有更多软件厂商加入AI转型[8]。 2. **模型迭代对公司数据服务的影响** - 不管模型如何迭代,走向应用会解锁更多场景,数据需求脱不开运行链和推理阶段需要越来越多垂直领域数据(如海天与智普合作挖掘医疗领域高质量数据),以及交互能力方向(如语音对话需求增加)的数据[16][17]。 (三)公司商业模式相关 1. **盈利模式** - **定制化服务与标准化产品收入比例** - 业务结构中定制化服务收入和标准化产品(license)收入大概各占一半[31]。 - **定价方式** - 语音方向按每小时语音收费,不同语种定价不同,如中文比西班牙语便宜,海天更愿意承接外语种业务,积累了全球范围内超过两百个语种方言[31][32]。 - 视觉方向以一张图片或一段视频长度收费,单帧标注颗粒度、承载内容多少影响收费,如自动驾驶方向复杂场景单帧可能卖到好几块甚至十几块,内容少信息量少的可能几毛钱[33]。 - 文本方向以一行或每十行收费,定价还受承接项目难度影响[33]。 - **平台授权相关** - 目前几乎没有把平台或平台授权作为盈利点,过往几年只有一两个项目以卖平台或平台授权方式给到自动驾驶类客户,原因是对数据安全合规性要求高[19][20]。 - 在海外提升定制化服务业务占比是内部重点想做的事之一,以今年前三季度数据为例,海外收入占全球收入一半,其中70%是标准化产品,30%是定制化服务,与Skill公司相比还有很大提升空间[36]。 - 在国内,与央国企和地方政府合作项目中,把数据能力物化到平台揉到项目合作中的可能性更大[39]。 2. **竞争优势(壁垒)** - **智能化标注能力** - 大模型范式下数据量需求提升,难度提升,要持续提升自动化标注能力,海天在研发投入上相比国内有竞争力,全公司全职员工两百三十多人,研发侧人员增长节奏符合需求增长但慢于数据需求本身增长[48]。 - **人机协作的数据处理模式** - 人机协作或人机偶合的数据处理模式在未来较长时间是主流逻辑,Skill AI也认同,在大模型技术三段论中,人的因素越来越重,需要各方向数据专家参与项目,且资源体系要全球化,因为客户是全球化的[49]。 - **语言能力** - 人机交互中语音交互重要性提升,应用端向更多语种和方言拓展时数据需求不停且量在增加[50]。 - **合规性** - 中国和美国数据监管节奏快,客户将数据合规任务落在海天身上,一些厂商已把合规要求提到招投标环节且一票否决,海天今年已接到国外一两个硬件厂商、国内一个硬件厂商和一家短视频头部公司在给大单子时先考察合规情况的业务[51][52]。 三、其他重要但是可能被忽略的内容 1. **公司对不同行业数据需求的观察** - 从数据需求来看,硬件终端厂商(主要是手机行业头部品牌)、汽车行业(新能源车厂大模型上车智能驾舱语音交互带来数据需求)、央国企(以运营商为主)数据需求较多,医疗、金融、法律行业相对零散但也有数据需求[45]。 - 从海天数据业务看,比较有前景的AI应用是用户群体基数大、原先内容数字化程度高、AI带来便利性和使用门槛低的行业,如办公、陪伴、娱乐,还有数据需求量和质量要求越来越高的教育和视频生成行业[46]。 2. **公司海外业务发展相关** - 海外业务在公司战略层面排在第一位,战略方向包括全球化、大模型、数据要素[53]。 - 中国AI市场规模占全球的五分之一或六分之一,有更大量需求在海外,且从去年三四季度到今年,摸到更多海外潜在需求,包括很多传统国外企业的数据需求[53]。 - 公司销售团队以前国内国外加起来不到五人,现在小二十人,海外销售团队人数涨了百分之四十多且不断增加,以前在海外客户心中是一家中国公司形象,现在要往承接更多定制化服务大单方向转,需要在交付方面投入更多力量[54]。 - 目前还不好对明年海外业务进行定量展望,定性来说今年增速不错,明年维持增速是大概率事件[55]。
海天瑞声11月13日龙虎榜数据
证券时报网· 2024-11-13 18:08
公司股价表现 - 11月13日海天瑞声收盘价88.80元收盘涨停 [1] - 全天换手率15.10%振幅21.64%成交额7.78亿元 [1] 上榜情况及买卖营业部成交情况 - 因日收盘价涨幅达15%等上榜 [1] - 上榜的前五大买卖营业部合计成交1.59亿元其中买入成交额为1.05亿元卖出成交额为5367.03万元合计净买入5122.08万元 [1]
海天瑞声(688787) - 投资者关系活动记录表-(2024年11月12日)
2024-11-12 15:34
收入增长与利润提升 - 2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要受益于大模型技术的快速发展和应用场景的落地 [2] - 前三季度净利润为378.87万元,同比增长3,590.86万元,主要驱动因素包括高毛利数据集产品收入占比提升至66.83%,管理费用降低,以及信用减值损失大幅减少 [3] 境外市场拓展 - 公司通过加强境外销售团队建设、参与全球知名行业及学术顶会、布局搜索广告投放和社交媒体矩阵等方式,提升全球市场影响力和客户触达能力 [4] - 2024年全新发布海外官网,通过搭建marketplace提升新客户拓展和订单转化率 [4] 大模型领域投入 - 公司加大大模型数据方向的研发投入,已完成并持续建设包括大语言模型、语音大模型、视觉大模型等多个领域的预训练及微调数据集 [5] - 公司与清华大学联合启动多语种语音大模型研发计划,提升多语种语音数据处理的效率和准确性 [6] 智能语音数据储备 - 公司拥有超过205个语种/方言的覆盖能力,包括常见语种和罕见小语种,累计词条数超过1,200万条,支撑高质量智能语音和多模态训练数据 [7] AI agent数据需求变化 - 智能终端AI agent需要处理和理解多样化数据,包括照片、视频、短信和电子邮件内容,以及各类应用的操作数据,激发对多语种、多音色和多风格语音数据的进一步需求 [8] 强化学习数据需求趋势 - 强化学习数据需求逐渐向更多垂类拓展,标注评价/评分指标变得更为丰富,由单模态向多模态转变,逐步拓展至文本-视频、文本-图像等多模态标注 [8]
海天瑞声(688787) - 投资者关系活动记录表-(2024年11月8日)
2024-11-08 15:34
财务状况 - 2024年前三季度公司收入为1.50亿元同比增长44.90% [2] - 2024年1 - 9月归属于上市公司股东的净利润为378.87万元同比增长3,590.86万元毛利率增加至66.83% [3] 业务发展 - 截至9月末已为近20家境内外大模型企业等提供服务 [3] - 公司进行管理资源配置和流程优化等使净利润大幅增长 [4] - 智能终端AI agent带来新型数据需求公司具备相关服务能力 [4] - 公司境外业务布局包括团队建设宣传等多方面 [5] - 公司在大模型领域投入包括数据集建设等多方面 [6] - 公司在语音数据方面有深厚积累和广泛覆盖 [8] 业务模式 - 客户选择标准化数据集或定制化数据服务的逻辑 [9] - 定制服务和产品的定价模式收费模式及价格走势 [10] - 产品类数据库和定制类服务的项目周期 [11] 境内外业务差异 - 境外业务毛利率高于境内业务的原因 [12]
海天瑞声(688787) - 投资者关系活动记录表-(2024年11月1日)
2024-11-04 15:34
公司业绩表现 - 2024年前三季度公司收入为1.50亿元,同比增长44.90%,主要受益于大模型技术的快速发展以及应用场景不断落地[6] - 公司前三季度净利润同比大幅增长,除了收入增长外,还因高毛利特点的数据集产品收入占比提升、管理费用有效降低、信用减值损失大幅降低等因素[7][8] 业务发展情况 - 公司为近20家境内外大模型企业、科研机构提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础[6] - 公司持续加大大模型数据方向的研发投入,建设了多领域大模型数据集,并与清华大学联合启动多语种语音大模型研发计划[10][11] - 公司在语音领域积累了丰富的多语种语言学家团队资源、发音词典以及创新的技术,拥有超过205个语种/方言的覆盖能力[12][13] 海外市场拓展 - 公司持续加强境外销售团队建设,参与全球知名行业及学术顶会,通过搜索广告投放、社交媒体矩阵等方式提升行业影响力和美誉度[9][10] - 公司全新发布海外官网,搭建marketplace以提升新客户拓展和订单转化率[10] 智能终端AI Agent带来的新需求 - 智能终端AI Agent需要处理和理解来自终端场景的多样化数据,包括照片、视频、短信和电子邮件内容等[8][9] - 为模拟和执行人类的操作行为,AI Agent需要大量的各类应用的操作数据[9] - AI Agent必须能够理解和响应各种语音输入,激发了对多语种、多音色和多风格语音数据的进一步需求[9]
海天瑞声(688787) - 2024 Q3 - 季度财报
2024-10-29 18:51
财务业绩 - 公司2024年7-9月营业收入为5,713.11万元,同比增长98.69%[2] - 公司2024年1-9月营业收入为14,955.75万元,同比增长44.90%[2] - 公司2024年7-9月归属于上市公司股东的净利润为337.23万元,同比大幅增长[3] - 公司2024年1-9月归属于上市公司股东的净利润为378.87万元,同比大幅增长[3] - 归属于上市公司股东的扣除非经常性损益的净利润_本报告期同比增加2,115.39万元[7] - 归属于上市公司股东的扣除非经常性损益的净利润_年初至报告期末同比增加4,058.26万元[7] - 基本每股收益_本报告期同比增长0.31元/股[7] - 基本每股收益_年初至报告期末同比增长0.59元/股[7] - 加权平均净资产收益率_本报告期增加2.33个百分点[8] - 加权平均净资产收益率_年初至报告期末增加4.47个百分点[8] - 2024年前三季度营业收入为149,557,500.43元,同比增长45.0%[19] - 2024年前三季度归属于母公司股东的净利润为3,788,727.30元,去年同期为-32,119,879.34元[20] - 2024年前三季度实现基本每股收益0.06元,去年同期为-0.53元[21] 经营情况 - 公司整体毛利率增加至66.83%[6] - 公司管理费用有效降低,信用减值损失大幅降低[6] - 公司部分账龄较长的大额应收账款在报告期间完成回款[6] - 经营活动产生的现金流量净额_本报告期同比增加1,155.18万元[7] - 经营活动产生的现金流量净额_年初至报告期末同比增加5,110.24万元[7] - 2024年前三季度销售商品、提供劳务收到的现金为169,785,483.70元,较2023年同期增长35.1%[22] - 2024年前三季度经营活动产生的现金流量净额为15,869,652.94元,较2023年同期增加51,102,366.13元[22] 业务发展 - 公司为近20家境内外大模型企业、科研机构提供了训练数据服务或标准化产品[6] - 公司以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入[6] - 公司多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长[6] 资产负债情况 - 公司2024年9月30日的货币资金为81,784,514.73元[15] - 公司2024年9月30日的交易性金融资产为271,085,509.06元[15] - 公司2024年9月30日的应收账款为74,975,732.58元[15] - 公司2024年9月30日的预付款项为35,029,571.27元[15] - 公司2024年9月30日的存货中数据资源为5,746,175.15元[15] - 公司2024年9月30日的固定资产为258,588,671.94元[16] - 公司2024年9月30日的应付账款为14,228,023.46元[16] - 公司2024年9月30日的合同负债为12,305,845.20元[16] - 2024年9月30日公司资产总额为777,634,688.05元,较上年末增加6.0%[17] - 2024年9月30日公司所有者权益为737,028,281.45元,较上年末下降5.8%[17] 其他财务数据 - 公司2024年前三季度实现其他收益4,620,049.07元,同比下降43.9%[19] - 公司2024年前三季度实现投资收益4,910,837.01元,同比下降36.5%[19] - 公司2024年前三季度实现公允价值变动收益780,637.60元,去年同期为-568,656.53元[19] - 公司2024年前三季度实现信用减值损失1,841,687.82元,去年同期为-5,651,462.05元[19] - 2024年前三季度收回投资收到的现金为800,360,000.00元,较2023年同期减少34.6%[23] - 2024年前三季度投资支付的现金为713,400,000.00元,较2023年同期减少41.2%[23] - 2024年前三季度投资活动产生的现金流量净额为65,901,415.98元,较2023年同期增加61,594,629.13元[23] - 2024年前三季度支付其他与筹资活动有关的现金为52,396,826.02元[23] - 2024年前三季度筹资活动产生的现金流量净额为-52,396,826.02元[23] - 2024年前三季度现金及现金等价物净增加额为43,099,076.69元,较2023年同期增加93,300,872.46元[23] - 2024年前三季度期末现金及现金等价物余额为81,784,514.73元,较2023年同期增加256.1%[23] - 2024年前三季度收到其他与经营活动有关的现金为7,743,316.21元,较2023年同期减少42.6%[22] 股权变动 - 公司2024年8月9日召开董事会审议通过以集中竞价方式回购公司股份,回购价格不超过78.69元/股,回购资金总额不低于1,000万元且不超过2,000万元,回购期限不超过12个月[13] - 公司2024年8月27日完成本次股份回购,共回购466,117股,占公司总股本的0.7727%,回购均价为42.90元/股,已支付资金总额为19,996,416.30元[14] - 公司前10名无限售条件股东持股情况[9] - 公司前10名股东持股情况[9]
海天瑞声(688787) - 投资者关系活动记录表-(2024年10月25日)
2024-10-25 18:25
训练数据生产流程 - 训练数据生产包括设计、采集、加工和质检4个环节 [1][2][3][4][5][6] - 设计环节确定训练数据集结构和数据属性要求 [2][3] - 采集环节根据设计要求获取原料数据,需考虑数据量和数据属性 [3][4][5] - 加工环节通过标注工具对原料数据进行标注处理 [5] - 质检环节贯穿全流程,对各环节数据质量进行检测 [5][6] 定价和收费模式 - 定制服务采用成本加成定价法,根据具体需求预估成本并加成 [6][7] - 产品定价采用需求导向定价法,综合考虑成本、市场需求等因素 [7] 语言学研究价值 - 语音语言学知识是构建高质量语音算法的关键 [7][8][9] - 公司在发音词典、语言模型等方面有深厚积累,覆盖200多种语种 [9] 训练数据解决方案难点 - 设计和采集环节需要应对复杂场景和技术要求 [9][10] - 标注环节需要提高效率的同时保证数据质量 [10] 大模型数据需求 - 大模型数据来源包括个人、企业、公共和版权数据 [11][12][13][14] - 大模型数据需求在规模、质量和来源上有别于传统模型 [13][14] 智能驾驶数据业务 - 智能驾驶数据需求受车型、量产车数量和智能驾驶级别影响 [14][15] - 未来智能驾驶数据需求将呈指数级增长 [15] 智能驾驶数据核心竞争力 - 平台能力、算法能力和数据安全能力是核心竞争力 [15][16]
海天瑞声(688787) - 投资者关系活动记录表-(2024年10月21日)
2024-10-21 16:21
证券代码:688787 证券简称:海天瑞声 北京海天瑞声科技股份有限公司 投资者关系活动记录表 编号:2024-017 | --- | --- | --- | |----------------------|------------------------|---------------------------------| | | | | | 投资者关系活动类别 | □ | 特定对象调研 √分析师会议 | | | □ 媒体采访 □业绩说明会 | | | | □ 新闻发布会 □路演活动 | | | | □ 现场参观 □电话会议 | | | | | □其他(请文字说明其他活动内容) | | 参与单位名称及人员姓 | 汇添富基金 钱诗翔 | | | 名 | 东方红资管 张明宇 | | | | 富国基金 蒲梦洁 | | | | 西部利得 张昭君 | | | | 国泰基金 韩知昂 | | | | 上海淳阳基金 谢伟玉 | | | --- | --- | |----------------------|--------------------------------------------------| | | 平安资 ...
海天瑞声(688787) - 投资者关系活动记录表-(2024年10月12日)
2024-10-14 15:34
行业发展趋势 - 数据服务行业将向更加智能化发展,通过拓展算法覆盖场景和提升算法准确率,持续提升机器参与程度和人机协作效率,降低数据处理成本[3] - 数据安全和合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标准[3][4] - 多语种能力将成为支撑企业顺利出海的核心要素之一,具有强大语言研究能力的数据服务企业将获得更多商业机会[3] - 充足、稳定且高质量的数据处理团队储备以及更加智能化的资源配置能力,将成为数据高效、稳定交付的重要保障[4] 公司竞争优势 - 公司拥有丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链管理能力等竞争优势[4][5] - 公司深入重视数据安全和合规,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会为公司未来在垂直行业和政企业务拓展形成有利优势[4][5] - 公司持续大规模投入研发和人才建设,为应对基于自身技术属性的同业公司的未来竞争提前布局[5] 训练数据生产流程 - 训练数据生产主要包括设计、采集、加工和质检4个环节[5][6][7][8][9] - 设计环节通过确定训练数据集的结构和属性,为后续采集工作奠定基础[6] - 采集环节根据数据量和属性要求获取原料数据[7][8] - 加工环节通过公司平台对原料数据进行标注,提高标注效率和准确度[8][9] - 质检环节渗透在全流程,确保各环节数据质量[9] 客户需求分析 - 客户对训练数据的需求是持续的,随着AI技术应用场景越来越多,各种场景的数据集需求会不断增加[9][10] - 智能驾驶数据业务的市场需求主要取决于车型及传感器丰富度、量产车数量以及智能驾驶级别的提升,这三个因素的共同作用将带来指数级的数据处理需求增长[10][11] 新兴业务发展 - 公司将持续探索围绕大模型所需数据相关服务,开展以预训练、强化学习为代表的多元化数据获取、高阶垂向拓展等方向的数据服务能力建设[13][14] - 公司还将探索以数据治理、数据交易、数据处理等为核心的数据要素领域,力争将数据要素创新业务打造成为具有潜在高增长价值的新兴业务板块[14]
海天瑞声(688787) - 投资者关系活动记录表-(2024年半年度业绩说明会)
2024-09-26 15:48
业绩增长驱动因素 - 公司境外业务收入同比增长50.00%,拉动公司整体营业收入快速增长[3][4] - 大模型技术的快速发展以及应用领域不断拓展,科技巨头加大多模态数据投入,全球数据服务市场持续增长[3][4] - 《促进和规范数据跨境流动规定》等法规出台,为数据出境提供了更为高效简明的路径[3][4] 利润增长原因 - 标准化数据集产品收入占比大幅提升,公司整体数据交付能力提升,使训练数据定制服务的毛利率同比显著增长[4][5] - 研发投入强度呈现自然回落,销售费用以及管理费用有效降低[5] 技术研发进展 - 加大对高级别数据标注工具的研发力度,开发了3D动静分离标注工具、BEV多图层4D车道线标注工具等[6] - 优化算法中台中枢能力,开发了2D-3D融合的动静分离检测追踪算法,在点云分割产线实现提效20%以上[6] 大模型业务布局 - 完成并持续建设多领域大模型数据集,包括语音、视觉等[7] - 针对大模型在特定行业的应用需求,开发了医疗、金融、法律、艺术等垂直领域的标注资源[7] - 与清华大学联合启动多语种语音大模型研发计划[7] 未来发展规划 - 全球化业务:推出全面的出海战略,建立海外技术研发体系[9] - 智能驾驶业务:继续升级自动驾驶数据平台DOTS-AD,提高数据处理效率及实现规模化效应[9][10] - 新兴业务探索:围绕大模型所需数据相关服务,探索数据要素创新业务[10] 语音业务进展 - 拥有超过205个语种/方言的覆盖能力,积累了超过130个多语种的发音词典[11] - 可支撑构建高质量的智能语音、以及多模态训练数据[11] 智能驾驶海外采集业务 - 已在全球范围内扩展道路采集业务,为公司构建智能驾驶全球化数据服务能力奠定基础[12]