可信数据空间方案
搜索文档
海天瑞声20260426
2026-04-28 13:07
海天瑞声 2026年第一季度电话会议纪要关键要点 一、 公司概况与核心业务 * 公司为海天瑞声,是一家专注于AI训练数据服务的上市公司[1] * 公司业务覆盖语音、视觉、文本等多领域,为AI模型提供数据服务[3][17] * 2026年第一季度,公司实现收入9,678万元,同比增长39%[3] * 增长主要由境内业务驱动,境内业务收入约6,800万元,同比增长约60%[3] 二、 2026年第一季度业绩与全年展望 * 2026年第一季度新签订单实现翻倍增长[2][5] * 公司对2026年全年业绩预期乐观,认为可能是一个新的几年高速增长周期的元年[18] * 增长主要依赖境内业务,包括科技大厂、G类客户及新兴的具身智能业务[3][4] 三、 核心增长驱动力与业务板块分析 1. 科技互联网大厂客户 * 头部科技互联网大厂是公司收入贡献和增长的主要来源[3] * 大厂数据投入激增,字节跳动和阿里巴巴2025年数据投入量级约10亿人民币,预计2026年将增长至20-30亿[2][3] * 公司在语音领域拥有超过300个语种和方言的ASR数据库积累[3] * 阿里巴巴2026年2月发布的千问3.5模型中,超过一半的语种和方言数据由公司提供[3] * 2026年,公司已与阿里巴巴签订约7,000万元的数据订单,预计绝大部分年内交付[2][3] 2. G类客户(政府及国央企) * G类客户业务收入同比增长56%[2][3] * 受益于国家推动数据要素产业化趋势,2025年公司销售费用同比增长40%用于市场铺排[3] * 业务需求集中在两大方面:行业高质量数据集和可信数据空间解决方案[4] * 公司已落地多个标杆项目,如广西东盟语料库、内蒙古草种乳业数据集、四川彭州文旅图文数据集等[4] * 可信数据空间作为新型数据流通基础设施,旨在解决数据“不敢用、不会用”的问题[4] * 根据国家数据局规划,到2028年全国将至少建成100个核心数据空间[4] * 公司可提供从方案设计、数据加工平台工具到数据交易平台的全链条服务[4] * 2026年第一季度,可信数据空间业务已确认约2,000多万元收入[4] * 预计2026年,可信数据空间将成为G类业务的重要增长点[4] 3. 具身智能/物理AI业务 * 具身智能业务预计将在2026年迎来爆发式增长,成为公司核心增长极[2][4] * 驱动因素包括:行业瓶颈在于数据、技术路线未统一、参与方众多放大市场需求[4] * 公司已与国内大部分头部具身公司接洽,并与其中一家头部本体厂商在北京建立百台机器人规模的素材厂[4][5] * 已对接11家头部本体厂商[2][7] * 根据市场了解,预计2026年该业务相关数据收入将达到数千万元量级[2][4] * 该业务属于更广泛的物理AI范畴,数据需求涉及材料、力反馈等多维度,市场空间巨大[13] * 公司策略是深入接触众多厂商,寻求绑定合作,确保不掉队并争取领先位置[7][8] 4. 海外业务 * 海外业务分为两部分:面向传统海外科技大厂(如三星、苹果)的定制化订单;以菲律宾基地为核心的东南亚业务[8] * 东南亚基地于2024年第四季度整合,主要服务于TikTok、Temu和米哈游[8] * 2025年东南亚业务收入约1,000万美元[2][8] * 2026年目标是在稳住收入基本盘的基础上,提升毛利率[8] * 计划进一步扩张东南亚布局,下个月将考察印尼的潜在并购标的,后续备选马来西亚、越南、泰国和日本基地[8][9] * 海外业务新增量将来自具身智能领域,国内头部本体厂商出海业务带来合作机会[9] 四、 财务表现与策略 1. 营收结构与毛利率 * 2025年公司整体毛利率降至50%左右[2][9] * 主要原因是营收结构变化:2025年定制化服务收入占比达到70%,产品收入占比30%[9] * 产品业务(数据集)毛利率极高,后续销售年份毛利接近100%[9] * 定制化业务收入占比提升导致整体毛利率下降,预计趋势将持续[10] 2. 维持毛利率的策略 * 随着能力增强,逐步选择承接毛利率更高的定制化项目[10] * 增加定制化项目收入中平台类软件的销售比重,如“可信数据空间”解决方案[10] * 通过软件平台化策略,减少向新客户销售时的二次开发支出,从而提升毛利率[2][10] 3. 研发与数据资产处理 * 公司财务处理策略稳健保守,研发费用资本化率基本为零[2][10] * 数据资产入表仅限确定性极强的部分,计入资产负债表“数据资源”科目的金额仅为一两千万元[2][10] * 为定制化项目制作、在交付客户前且已签订合同的数据集,会暂时计入存货[11] 4. 资本市场规划 * 公司正在实施员工持股计划,2026年进入第一阶段兑现期,覆盖约20%的纯员工[14] * 考虑在规划成熟后尝试进行定向增发再融资[15] * 再融资主要围绕两个方向:高质量数据集建设;具身智能领域投入[15] * 在具身智能方向,为巩固领先地位,可能需要向硬件方向进行尝试[15] 五、 行业动态与竞争格局 1. 数据要素产业化与国家政策 * 国家数据集团的组建挂牌预计将在2026年5月份左右完成,将加速国资体系在数据要素领域的投入[5] * 公司是近期成立的数据要素相关组织的七个发起单位之一,同时也是理事单位[6] * 该组织旨在确保数据在安全、合规的前提下实现无限制的跨境流动[6] * 预计该组织未来与即将挂牌的国家数据集团会形成强有力的产业端互动[6] 2. 具身智能数据产业格局 * 市场处于非常早期阶段,一级市场融资活跃,超过15家一线公司以100亿甚至200亿以上估值融资[5][7] * 已知的15家本体公司中,公司已与其中11家建立联系[7] * 根据接触,几乎每一家都披露其2026年全年具身数据需求量在100万小时以上[7] * 有一到两家提出的2026年至2027年上半年的总数据需求量高达500万至800万小时,甚至接近千万小时[8] * 数据获取方式主要分为三类真机方式:帧级遥操作、无米或第一人称视角,以及非真机的仿真方式[7] * 行业普遍认为合成数据对训练效果有限,资源主要投向真机数据[8] * 真机采集的遥操作数据均价在每小时三四百元;无米方式约一两百元;第一人称视角则在一百多元[8] 3. 数据需求趋势 * 大模型对数据的需求正日益转向难度、类型和价值都更高的RL(强化学习)环节[11] * 数据要素方向涉及的公共数据天然存在于政府部门、企事业单位等机构的私域内,与互联网数据交集极少[11] * 合规性是获取原始数据的前置条件,尤其是在与央国企客户合作时[11] * 大模型应用的普及遵循“通胀逻辑”,使用量越大,对数据的总需求量就越大[12] * 推理侧应用带来增量,例如春节后公司在Agent方向接到了海量的GUI数据标注需求[12] * 当模型向更多细分领域渗透时,获取的C端实网数据类型会变得更难、更偏向边缘案例,但累积总量可观[12] 六、 各业务线发展策略 1. 语音业务 * 2025年,语音业务在公司整体营收中的占比从历史上超过70%降至42%-43%[17] * 2026年第一季度,语音和视觉业务的合计占比进一步下降,文本业务占比快速上升[17] * 变化原因:公司优先选择毛利率较高的语音项目;部分头部科技厂商阶段性暂停采购[17] * 未来策略是继续聚焦于头部客户的高毛利大项目,如为阿里巴巴、苹果、三星等提供稀缺语种数据[17] 2. 具身智能数据采集与硬件布局 * 数据采集主要有三个路径:基于真机的遥操作;无本体采集(人员背负设备进入场景);更简化的第一人称视角采集[16] * 后两种路径均涉及硬件元素[16] * 如果未来某条技术路线确定性增强并开始放量,公司计划自主布局硬件研发与生产能力[16][17] * 硬件研发计划作为未来若进行定向增发时的募投项目之一[15][17] 七、 其他重要信息 * 公司面对市场向好的多元竞争(如京东宣布进入具身智能领域),核心策略是做好自身工作,提升能力,选择高质量项目执行[18]