Workflow
海天瑞声(688787)
icon
搜索文档
AI应用展望及海天瑞声
AIRPO· 2024-11-18 00:51
一、纪要涉及的公司 海天卫生,一家专注做人工智能训练数据的公司,2005年成立,是训练数据领域里唯一一家A股的上市公司[4]。 二、纪要提到的核心观点和论据 (一)公司业务发展情况 1. **客户覆盖广泛** - 数据服务已提供给全球超过1000家科技互联网公司、LT厂商等,像微软、谷歌、亚马逊、国内BAT字节等国内外头部科技公司都是其重要客户[4]。 - 业务线覆盖语音、视觉和文本等全类AI的数据需求,可服务智能手机、驾驶、医疗、教育、金融等绝大多数AI应用场景[4]。 2. **业务增长数据** - 今年前三季度收入同比增长了45%,订单数量增长超过50%[4]。 3. **业务增长的核心驱动因素** - **大模型带来的数据需求增加** - 从2014年开始,大模型一方面拓展基础能力,如减少幻觉、提升与用户交互体验,衍生出post training和强化学习阶段新的数据需求[5]。 - 大模型今年开始向更多场景和终端加速渗透和落地,带来更多终端场景下的数据需求,如今年年初开始收到全球几个头部LT厂商数千万量级订单,需求包括构建终端交互能力的语音数据和提升agent理解能力的文本数据等[5]。 - **AI参与者类型丰富和增加** - 这几年以运营商为代表的央国企开始加入AI布局,一方面是国家政策指导,另一方面央国企在发展行业和产业模型上有资源优势(算力和传统行业数据资源)[6]。 - 海天内部组建专门的BU拓展运营商为代表的央国体客户,目前已拿到几千万量级订单,预计明年转化为收入[6]。 (二)行业发展趋势及对公司数据业务的影响 1. **数据行业进入快速增长周期的支撑点** - **基础模型能力迭代** - 虽然AI应用爆发,但基础模型迭代需求仍大体量,占据模型公司很大研发投入比重,模型存在幻觉、视觉空间能力、语音交互、逻辑推理能力等问题需要迭代提升,这需要大量数据持续训练,海天在这方面投入较多精力,有专门产品研发部建设适用于不同训练阶段和场景的标准化数据助力模型基础能力提升[7]。 - **模型向更多行业和场景拓展** - 模型向更多行业和场景拓展带来很多数据需求,如海天接到娱乐类音乐游戏标注需求、教育领域全科CT标注需求、金融法律医疗行业数据需求也在快速增加,海天自身也在和模型公司及产业进行合作,如和智普、友谊安征宣武等医院合作探索医疗大模型建设[8]。 - **AI参与者不断丰富** - 除传统科技巨头、央国企外,未来随着AI在端测应用能力增强,终端(如VR眼镜、巨神智能等)会产生大量数据需求,且随着应用拓展,可能会有更多软件厂商加入AI转型[8]。 2. **模型迭代对公司数据服务的影响** - 不管模型如何迭代,走向应用会解锁更多场景,数据需求脱不开运行链和推理阶段需要越来越多垂直领域数据(如海天与智普合作挖掘医疗领域高质量数据),以及交互能力方向(如语音对话需求增加)的数据[16][17]。 (三)公司商业模式相关 1. **盈利模式** - **定制化服务与标准化产品收入比例** - 业务结构中定制化服务收入和标准化产品(license)收入大概各占一半[31]。 - **定价方式** - 语音方向按每小时语音收费,不同语种定价不同,如中文比西班牙语便宜,海天更愿意承接外语种业务,积累了全球范围内超过两百个语种方言[31][32]。 - 视觉方向以一张图片或一段视频长度收费,单帧标注颗粒度、承载内容多少影响收费,如自动驾驶方向复杂场景单帧可能卖到好几块甚至十几块,内容少信息量少的可能几毛钱[33]。 - 文本方向以一行或每十行收费,定价还受承接项目难度影响[33]。 - **平台授权相关** - 目前几乎没有把平台或平台授权作为盈利点,过往几年只有一两个项目以卖平台或平台授权方式给到自动驾驶类客户,原因是对数据安全合规性要求高[19][20]。 - 在海外提升定制化服务业务占比是内部重点想做的事之一,以今年前三季度数据为例,海外收入占全球收入一半,其中70%是标准化产品,30%是定制化服务,与Skill公司相比还有很大提升空间[36]。 - 在国内,与央国企和地方政府合作项目中,把数据能力物化到平台揉到项目合作中的可能性更大[39]。 2. **竞争优势(壁垒)** - **智能化标注能力** - 大模型范式下数据量需求提升,难度提升,要持续提升自动化标注能力,海天在研发投入上相比国内有竞争力,全公司全职员工两百三十多人,研发侧人员增长节奏符合需求增长但慢于数据需求本身增长[48]。 - **人机协作的数据处理模式** - 人机协作或人机偶合的数据处理模式在未来较长时间是主流逻辑,Skill AI也认同,在大模型技术三段论中,人的因素越来越重,需要各方向数据专家参与项目,且资源体系要全球化,因为客户是全球化的[49]。 - **语言能力** - 人机交互中语音交互重要性提升,应用端向更多语种和方言拓展时数据需求不停且量在增加[50]。 - **合规性** - 中国和美国数据监管节奏快,客户将数据合规任务落在海天身上,一些厂商已把合规要求提到招投标环节且一票否决,海天今年已接到国外一两个硬件厂商、国内一个硬件厂商和一家短视频头部公司在给大单子时先考察合规情况的业务[51][52]。 三、其他重要但是可能被忽略的内容 1. **公司对不同行业数据需求的观察** - 从数据需求来看,硬件终端厂商(主要是手机行业头部品牌)、汽车行业(新能源车厂大模型上车智能驾舱语音交互带来数据需求)、央国企(以运营商为主)数据需求较多,医疗、金融、法律行业相对零散但也有数据需求[45]。 - 从海天数据业务看,比较有前景的AI应用是用户群体基数大、原先内容数字化程度高、AI带来便利性和使用门槛低的行业,如办公、陪伴、娱乐,还有数据需求量和质量要求越来越高的教育和视频生成行业[46]。 2. **公司海外业务发展相关** - 海外业务在公司战略层面排在第一位,战略方向包括全球化、大模型、数据要素[53]。 - 中国AI市场规模占全球的五分之一或六分之一,有更大量需求在海外,且从去年三四季度到今年,摸到更多海外潜在需求,包括很多传统国外企业的数据需求[53]。 - 公司销售团队以前国内国外加起来不到五人,现在小二十人,海外销售团队人数涨了百分之四十多且不断增加,以前在海外客户心中是一家中国公司形象,现在要往承接更多定制化服务大单方向转,需要在交付方面投入更多力量[54]。 - 目前还不好对明年海外业务进行定量展望,定性来说今年增速不错,明年维持增速是大概率事件[55]。
海天瑞声11月13日龙虎榜数据
证券时报网· 2024-11-13 18:08
公司股价表现 - 11月13日海天瑞声收盘价88.80元收盘涨停 [1] - 全天换手率15.10%振幅21.64%成交额7.78亿元 [1] 上榜情况及买卖营业部成交情况 - 因日收盘价涨幅达15%等上榜 [1] - 上榜的前五大买卖营业部合计成交1.59亿元其中买入成交额为1.05亿元卖出成交额为5367.03万元合计净买入5122.08万元 [1]
海天瑞声(688787) - 投资者关系活动记录表-(2024年11月12日)
2024-11-12 15:34
收入增长与利润提升 - 2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要受益于大模型技术的快速发展和应用场景的落地 [2] - 前三季度净利润为378.87万元,同比增长3,590.86万元,主要驱动因素包括高毛利数据集产品收入占比提升至66.83%,管理费用降低,以及信用减值损失大幅减少 [3] 境外市场拓展 - 公司通过加强境外销售团队建设、参与全球知名行业及学术顶会、布局搜索广告投放和社交媒体矩阵等方式,提升全球市场影响力和客户触达能力 [4] - 2024年全新发布海外官网,通过搭建marketplace提升新客户拓展和订单转化率 [4] 大模型领域投入 - 公司加大大模型数据方向的研发投入,已完成并持续建设包括大语言模型、语音大模型、视觉大模型等多个领域的预训练及微调数据集 [5] - 公司与清华大学联合启动多语种语音大模型研发计划,提升多语种语音数据处理的效率和准确性 [6] 智能语音数据储备 - 公司拥有超过205个语种/方言的覆盖能力,包括常见语种和罕见小语种,累计词条数超过1,200万条,支撑高质量智能语音和多模态训练数据 [7] AI agent数据需求变化 - 智能终端AI agent需要处理和理解多样化数据,包括照片、视频、短信和电子邮件内容,以及各类应用的操作数据,激发对多语种、多音色和多风格语音数据的进一步需求 [8] 强化学习数据需求趋势 - 强化学习数据需求逐渐向更多垂类拓展,标注评价/评分指标变得更为丰富,由单模态向多模态转变,逐步拓展至文本-视频、文本-图像等多模态标注 [8]
海天瑞声(688787) - 投资者关系活动记录表-(2024年11月8日)
2024-11-08 15:34
财务状况 - 2024年前三季度公司收入为1.50亿元同比增长44.90% [2] - 2024年1 - 9月归属于上市公司股东的净利润为378.87万元同比增长3,590.86万元毛利率增加至66.83% [3] 业务发展 - 截至9月末已为近20家境内外大模型企业等提供服务 [3] - 公司进行管理资源配置和流程优化等使净利润大幅增长 [4] - 智能终端AI agent带来新型数据需求公司具备相关服务能力 [4] - 公司境外业务布局包括团队建设宣传等多方面 [5] - 公司在大模型领域投入包括数据集建设等多方面 [6] - 公司在语音数据方面有深厚积累和广泛覆盖 [8] 业务模式 - 客户选择标准化数据集或定制化数据服务的逻辑 [9] - 定制服务和产品的定价模式收费模式及价格走势 [10] - 产品类数据库和定制类服务的项目周期 [11] 境内外业务差异 - 境外业务毛利率高于境内业务的原因 [12]
海天瑞声:海天瑞声关于公司完成董事会、监事会换届选举及聘任高级管理人员、证券事务代表的公告
2024-11-06 15:37
人事变动 - 2024年选举第三届董事会、监事会成员,任期三年[1] - 选举贺琳为第三届董事会董事长[2] - 选举张小龙为第三届监事会主席[5] - 聘任李科为总经理等职务[7] - 耿学锋等不再担任相关职务[8] 股份持有 - 郝玉峰直接持有2,570股,间接持有1,348,621股[12] - 张哲直接持有10,474股[13]
海天瑞声:海天瑞声第三届监事会第一次会议决议公告
2024-11-06 15:37
监事会会议 - 公司于2024年11月5日召开第三届监事会第一次会议[2] - 会议应到监事3人,实际参加3人[2] 人员选举 - 全体监事同意选举张小龙为第三届监事会主席[3] - 选举表决结果:同意3票,反对0票,弃权0票[3] - 第三届监事会主席任期自会议审议通过至任期届满[3]
海天瑞声:海天瑞声2024年第二次临时股东大会决议公告
2024-11-05 18:04
会议信息 - 股东大会于2024年11月5日在北京市海淀区召开[3] - 出席会议股东和代理人51人,所持表决权24,145,979,占比40.6366%[2] 股份情况 - 截至股权登记日,公司回购专用账户股份906,014股,无表决权[2] 人员出席 - 公司在任董事9人、监事3人及董事会秘书出席,全体高管列席[5] 选举结果 - 贺琳等6人当选第三届董监高,得票占有效表决权超99%[6][8]
海天瑞声:北京市天元律师事务所关于北京海天瑞声科技股份有限公司2024年第二次临时股东大会的法律意见
2024-11-05 18:04
北京市天元律师事务所 关于北京海天瑞声科技股份有限公司 2024 年第二次临时股东大会的法律意见 京天股字(2024)第602号 致:北京海天瑞声科技股份有限公司 北京海天瑞声科技股份有限公司(以下简称"公司")2024年第二次临时股东大 会(以下简称"本次股东大会")采取现场投票与网络投票相结合的方式,现场会议 于 2024 年 11 月 5 日 14:00 在北京市海淀区知春路 68 号院 1 号楼 4 层 401 召开。 北京市天元律师事务所(以下简称"本所")接受公司聘任,指派本所律师参加本次 股东大会现场会议,并根据《中华人民共和国公司法》《中华人民共和国证券法》 (以下简称"《证券法》")《上市公司股东大会规则》(以下简称"《股东大会规则》") 以及《北京海天瑞声科技股份有限公司章程》(以下简称"《公司章程》")等有关规 定,就本次股东大会的召集、召开程序、出席现场会议人员的资格、召集人资格、 会议表决程序及表决结果等事项出具本法律意见。 为出具本法律意见,本所律师审查了《北京海天瑞声科技股份有限公司第二届 董事会第二十七次会议决议》《北京海天瑞声科技股份有限公司第二届监事会第二 十五次会议决议公 ...
海天瑞声(688787) - 投资者关系活动记录表-(2024年11月1日)
2024-11-04 15:34
公司业绩表现 - 2024年前三季度公司收入为1.50亿元,同比增长44.90%,主要受益于大模型技术的快速发展以及应用场景不断落地[6] - 公司前三季度净利润同比大幅增长,除了收入增长外,还因高毛利特点的数据集产品收入占比提升、管理费用有效降低、信用减值损失大幅降低等因素[7][8] 业务发展情况 - 公司为近20家境内外大模型企业、科研机构提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础[6] - 公司持续加大大模型数据方向的研发投入,建设了多领域大模型数据集,并与清华大学联合启动多语种语音大模型研发计划[10][11] - 公司在语音领域积累了丰富的多语种语言学家团队资源、发音词典以及创新的技术,拥有超过205个语种/方言的覆盖能力[12][13] 海外市场拓展 - 公司持续加强境外销售团队建设,参与全球知名行业及学术顶会,通过搜索广告投放、社交媒体矩阵等方式提升行业影响力和美誉度[9][10] - 公司全新发布海外官网,搭建marketplace以提升新客户拓展和订单转化率[10] 智能终端AI Agent带来的新需求 - 智能终端AI Agent需要处理和理解来自终端场景的多样化数据,包括照片、视频、短信和电子邮件内容等[8][9] - 为模拟和执行人类的操作行为,AI Agent需要大量的各类应用的操作数据[9] - AI Agent必须能够理解和响应各种语音输入,激发了对多语种、多音色和多风格语音数据的进一步需求[9]