语音数据服务
搜索文档
海天瑞声20260303
2026-03-04 22:17
公司概况 * 公司为海天瑞声,主营业务为AI训练数据服务[1] * 2025年营收同比增长59%[2][5] * 公司维持2024-2028年收入复合增长率40%-50%的目标[3][19] 业务结构与财务表现 **收入结构变化** * **数据模态结构**:2025年末出现历史性变化,视觉业务占比43%,语音业务占比42%,两者合计85%;文本业务占比提升至15%(2024年约12%)[4] * **商业模式结构**:2025年定制化服务收入占比显著提升至68%,标准化产品占比降至32%,形成“2/3定制、1/3标品”结构[5] * **新兴业务占比**:“研发交付”类业务(如可信数据空间)2025年收入占比约7%-8%[11] **财务指标** * **毛利率**:2025年综合毛利率由2024年的约64%下降至约50%,主要受定制化占比提升影响[2][5] * **2026年目标**:经营重心为收入扩张与毛利率回稳至50%以上,并逐步提升[3][20] * **净利润**:受折旧、租金及股份支付费用影响,净利润非近期核心关注点,但目标为每年稳中有升[3][20] 核心业务策略与客户聚焦 **业务策略调整** * 自2025年二季度起主动放弃大量毛利率低于15%的低阶项目[2][9] * 聚焦中阶与高阶定制需求,服务头部及腰部科技公司[9][16] * 客户结构呈现“头部聚拢效应”,Top 10、Top 20客户名单每年轮动[16] **重点客户动态** * **国内客户**:阿里为长期核心客户;快手因“可灵”等应用带动视觉需求,2025年跃升为国内第二大客户[2][4];中国移动作为外部第一大股东,2025年在政策驱动下贡献显著放量[14] * **海外客户**:Apple在2024-2025年为境外第一大客户;Zoom在某些产品发力后,采购需求提升至境外第二[16] * **客户组织变化**:阿里2025年重组集团层面数据规划团队“爱城”;中国移动将数据需求聚拢至“中移信息”,使公司对接更集中顺畅[14] 各业务板块发展详情 **语音业务** * 2026年将受益于“拟人化交互”趋势下的多语种、方言及情感韵律需求,此类需求高度定制化、毛利率可观[2][6] * 公司承接此类需求时优先寻求较高毛利空间,并主动筛选达到毛利率最低下限要求的项目[6] * 以“千问”为例,其语言能力在一年多内从约30种快速增加近100种,公司贡献了其中几十种语言的数据支持[7] **视觉业务** * 2025年需求显著上行,主要受国内多款现象级应用(如快手“可灵”)驱动[4] **文本业务** * 2025年占比15%,增速处于公司认为相对合理的区间[4][7] **“研发交付”业务** * 主要包括可信数据空间等平台化集成交付[10] * 2026年收入目标为7,000万–1亿元,预计占比将显著提升,并对整体毛利率改善有明显助益[11] * 平台部署后,客户通常会进一步产生高质量数据集处理需求,央国企客户付费意愿可观[11] **具身智能数据业务** * 被列为集团内部“一号工程”[2][8] * **国内布局**:已在北京建成约100台机器人规模的数据采集场,为全北京市最大[8][9];已对接“千寻”等国内企业及海外Genesis等公司[9] * **海外扩张**:计划从2026年三季度或四季度开始向菲律宾基地扩展,后续拓展至印尼雅加达基地[8] * **订单预期**:保守估计2026年将带来约3,000万–5,000万元订单收入[2][9] * **数据分类与获取**:主要分为真机数据与合成数据,真机数据缺口巨大[17];真机数据获取主要有真机遥操(金标准,成本最高)、低人称视角采集、跨本体采集三种方式,后两者更具规模化和性价比,是2025年三、四季度以来的市场需求主流[18] 海外业务布局与战略 **菲律宾基地** * 2025年完整运行一年,表现超预期,核心服务TikTok与Temu两家中国出海客户[2][7] * 关键优势:英语能力较强、成本更优,符合数据就近处理原则[7][8] **中长期海外策略** * 核心目标是承接北美客户的大额定制订单,以规避合规风险[2][7] * 策略为“客户需求走到哪,就跟到哪”,通过东南亚基地对接北美需求,形成国内外“双循环”能力布局[7][8] 行业趋势与公司解读 **行业底层逻辑** * “token消耗”本质是训练数据消耗,只要AI技术路线不变,数据消耗将持续上行且增速趋快[7] **“算力通胀”下的影响** * 数据端同样呈现“数据通胀”,需求侧出现更清晰分层[9] * 公司主动放弃“数据需求量大但毛利很低”的基础或低阶需求,聚焦中高阶需求[9] **政策驱动需求** * 2025年国内明显增量来自“G类数据要素”的产业化落地,主要由国家政策驱动[10] * 2026年重点关注“人工智能+”行动带来的机会,如“人工智能中试基地建设”,预计中央及地方将投入较多预算[19] 运营与组织模式 **人才与成本结构** * 中高端数据项目(如RL环节)依赖覆盖全球的“几千个合作伙伴/供应商”资源池,通过自研系统进行弹性匹配[12] * 全职员工体系长期维持在较低水平,截至2025年12月31日为251人,遵循“Just in time”的项目管理逻辑[12] **项目承接模式** * 对于银行、医院等分散场景需求,采用类似G类客户的“带入客户域内”交付模式,案例包括为国内头部券商驻场交付RL训练服务[16][17] * 资源投入上阶段性优先夯实核心市场与头部客户基础[17]