Workflow
人工智能数据服务
icon
搜索文档
独家解读|2025年AI五大趋势与底层数据革命
机器之心· 2026-01-06 17:38
文章核心观点 - 2025年人工智能的发展重心正发生根本性转移,从追求模型规模转向构建其理解与解决复杂现实问题的能力,高质量数据成为定义AI能力的新基石[1] - 数据堂作为人工智能数据服务的前沿探索者,深度参与并支撑着这场变革的每一个关键环节[1] 趋势一:多语种TTS与全双工交互 - 语音合成技术正同时向两个深度智能化维度演进:一是为合成语音注入情感、个性与文化适配性;二是从单向反应升级为支持实时打断、重叠对话与上下文连贯的全双工自然交互[3] - 训练数据的重心正经历双重跃迁:一方面需构建服务于音色、韵律、情感和风格精细控制的“表现力语料库”;另一方面为实现全双工交互,迫切需要多通道、真实、带有自然打断与话题转换的对话语音数据[4] - 数据堂提供可直接用于模型训练的成熟数据集,包括100万小时多语种自然对话语音数据集、300万条前端文本库、2000小时多情感普通话合成数据集以及1万小时全双工多语种自然对话数据集[7] - 依托覆盖全球200+语种及方言的庞大语音资源网络与专业声优库,数据堂能够为各类定制化项目提供强大支持[7] 趋势二:多模态大模型 - 以DeepSeek-OCR模型的开源为标志性事件,揭示了多模态大模型发展的核心方向:推动AI从处理单一模态信息,迈向对图像、文本、表格、图表、GUI界面等多元信息进行统一理解、关联分析与深度推理的新阶段[9] - 训练数据必须能够刻画不同模态元素之间的复杂关联与深层语义逻辑,朝着跨模态语义对齐、深度结构化与语义图谱化的方向演进[10] - 数据堂提供覆盖多模态认知全链条的高质量数据,包括千万级OCR数据、百万级GUI界面、多领域专业文档、300万组涵盖动作、场景、建筑等的图文理解数据,以及20万组OCR问答及图像视频编辑数据[12] 趋势三:大模型的深度演进 - 当前大模型的发展呈现出两条清晰且并行的路径:一方面持续追求更强大的通用推理与复杂常识能力;另一方面驱动模型向金融、法律、生物医药等垂直领域深入,追求高度的专业精度与可靠性[14] - 高质量训练数据的需求正高度集中于金融、法律、生物医药及科学研究等知识密度高、容错率低的专业领域,核心已转变为获取能直接赋能模型专业推理与精准判断能力的关键数据资产[15] - 数据堂提供从标准化数据产品到深度定制服务的完整解决方案,包括5000万条新闻文本、3亿条STEM试题等高质量无监督数据,以及70万组指令微调与150万条安全内容等SFT指令微调数据[17] - 数据堂组建了覆盖十余个领域的超500人专家团队,已成功支持超100个大模型数据项目[17] 趋势四:具身智能 - 具身智能成为2025年焦点,旨在突破传统大模型缺乏物理交互经验、无法建立真实世界因果认知的本质缺陷[19] - 具身智能的核心在于让AI通过数据习得物理世界的因果规律,这需要严格对齐时序的高维交互数据,完整融合多视角视频、高精度力/触觉传感器流、动作指令序列及最终任务结果[20] - 数据堂提供从标准化数据集到深度定制采集的完整服务,目前已构建数亿组3D环境数据、第一人称任务视频、机器人抓取数据集等在内的完整体系[22] - 数据堂在全球布局超过20个专业采集场,单个面积最大超4000平方米,部署有包括人形机器人、机械臂、机械狗在内的70余台各品牌机器人[22] - 数据堂专业标注平台与团队能够完成从感知数据的目标检测、分割,视频分割,任务描述,COT等全类型标注任务[23] 趋势五:自动驾驶的技术范式转移 - 2025年,自动驾驶系统正经历一场深刻的技术范式变革,核心架构正从传统的“感知-规划-控制”模块化设计,向数据驱动的“端到端”一体化模型演进[25] - 新一代的VLM/VLA多模态大模型路径提出了颠覆性需求,训练数据必须实现视觉、语言与行动三者在时序上的精细对齐与深度耦合,催生了对高质量、强逻辑的标注数据的极度依赖[26] - 数据堂能够对驾驶场景同步执行端到端的精确坐标标注与粗粒度的语义说明标注,并融合场景描述、决策依据、反思过程等深度逻辑,构建“感知-决策”闭环的训练数据对[28] - 基于高效的标注工具及成熟的流程管理,数据堂具备稳定的规模化标注产能,其中车辆路线判断与行驶意图等关键任务的量产交付能力均达到每月40万组[28]
从实验室到交易所,北京五年诞生了200家上市公司
贝壳财经· 2025-11-27 10:21
北京科创企业“十四五”发展成就 - 三元基因从单一产品药企成长为平台型创新药企,实现跨越式发展[2] - 海天瑞声从数据供应商升级为AI模型落地的端到端解决方案伙伴,资产规模从5亿元增至近9亿元,营收连续保持24%以上增速[7] - 海博思创成为科创板储能集成第一股,从2011年海淀区起步,成立半年即获1500万元天使轮融资[4][10] - 三元基因上市后研发投入占比连续四年超20%,专利数从28项增至52项,集采覆盖29个省份、6000余家医院,经营性现金流净额2024年同比增长63.23%[8] - 海天瑞声完成智能化平台建设与公司战略升级,形成北京创新+全球供给格局[7] - 三元基因核心管线RSV雾化吸入剂完成全球首个Ⅲ期临床,乙肝功能性治愈药物进入关键临床阶段,并拓展人源胶原蛋白等消费医疗赛道[8][9] 北京市创新环境与政策支持 - 北京市“十四五”期间独角兽企业数量连续四年全球城市第三,R&D经费投入强度保持在6%,基础研究经费占比保持在16%[5] - 北京市每天新设立300多家科技企业,密度超越硅谷,截至2024年底独角兽企业达115家,国家级专精特新小巨人企业累计认定1035家,均居全国首位[11] - “十四五”期间北京实现直接融资超5.6万亿元、居全国首位,新增境内外上市公司200家[11] - 北京通过专精特新企业培育体系、科技专项、首台套政策等分层精准扶持科创企业[14] - 北京提供设备租赁补贴、创新药临床资金支持、开放创新平台等政策,助力企业研发[17] - 北京一网通办、一站式服务降低企业资质申报、合规咨询成本,提升时间效率[18] 北京产业集群与资本市场表现 - 截至2025年9月底,北京辖区沪深上市公司达453家,注册制下近130家企业聚集于新一代信息技术、生物医药、高端装备制造等支柱产业[19] - 北京上市公司中战略性新兴产业企业占比超七成,超55%属于国家级专精特新小巨人企业[19] - 北京已形成新一代信息技术、科技服务业、医药健康三个万亿级产业集群,以及智能制造和装备、人工智能等七个千亿级产业集群[25] - 截至2025年11月26日,北京A股上市公司中生物产业35家(占比7.31%)、新一代信息技术产业27家(占比5.64%)、新能源汽车产业3家(占比0.63%)[36][38] - 北京建设金融综合服务网近6年,累计服务中小微企业近2000万家次,聚力解决融资难题[26] “十五五”规划与未来发展方向 - 北京“十五五”规划建议提出实施产业创新工程,推动新技术新产品新场景大规模应用,加快集成电路、机器人和智能制造、智能网联汽车、空天技术等战略性新兴产业发展[22] - 规划明确扩大新一代信息技术、医药健康产业集群优势,培育人工智能、绿色先进能源和低碳环保等新产业集群[22] - 三元基因目标“十五五”末实现年营收突破15亿元,推动中国基因工程药物品牌走向国际[22] - 海天瑞声目标成为北京AI产业集群中的重要一员,成为多个重点产业数字化升级中的数据底座和可信伙伴[20] - 北京发布“并购19条”,支持企业通过并购重组上市,为科技独角兽提供快速通道[40][41] - 专家建议北京从创新资源高地迈向创新生态高峰,推动产业链、供应链、创新链深度融合[28][29][45]
公司问答丨海天瑞声:谷歌、阿里一直以来是公司的重要客户 公司为其提供AI训练数据
格隆汇· 2025-11-24 17:35
客户关系 - 谷歌和阿里巴巴是公司的重要客户 [1] - 公司为谷歌和阿里巴巴提供AI训练数据 [1] 信息披露 - 关于阿里巴巴在公司主营业务收入中的具体占比,公司表示将依据交易所法规履行信息披露义务 [1] - 相关信息需关注公司发布的正式公告 [1]
核数聚总部吴中新址启用,共启AI数据产业新征程
江南时报· 2025-11-10 16:26
公司发展与定位 - 公司于2023年落户苏州吴中 已成长为团队规模近千人的数据行业龙头企业[1][2] - 公司成为国内少数兼具AI全栈能力且能贯通语音、智驾、大模型三大关键领域的头部数据企业[1] - 公司成功服务Momenta、博世、商汤、联想、思必驰等行业标杆客户 是国内人工智能数据服务的领军企业[1] 新产品发布与技术突破 - 发布"标注2.0数据平台"和"数据引擎"两款新产品[1][2] - 标注2.0平台采用AI预标注+人工精修模式 AI算法生成标注初稿 预处理准确率超80%[2] - 新平台较标注1.0时代提升70%以上 创新人机协同范式为AI模型训练提供更高效精准的数据支撑[2] 战略合作与生态构建 - 公司与吴中金控、善达资本等进行"投融资意向签约" 与苏州大学等多所高校签署战略合作协议[3] - 签约内容包括"数据引擎战略合作"、"高技能实训基地"、"共建数据要素研究中心"等多项合作[3] - 公司将携手产业链上下游企业及高校院所构建协同创新生态 为工业、医疗、智慧交通等重点行业深度赋能[3] 未来战略规划 - 公司未来将始终聚焦AI核心数据领域 以高质量数据集建设为根基 依托可信数据空间[2] - 公司将通过数据飞轮、合规飞轮、合成飞轮构建高质量数据发展闭环 推动数据资产化与产业智能化升级[3] - 公司将持续深耕语音、智驾、大模型等核心赛道 依托"数据+引擎"双轮驱动模式[3]
海天瑞声:关于完成工商变更登记并换发营业执照的公告
证券日报· 2025-11-04 22:13
公司治理结构变更 - 公司于2025年8月29日召开第三届董事会第五次会议审议通过关于取消监事会、修订公司部分治理制度及变更法定代表人的议案 [2] - 公司于2025年9月16日召开2025年第一次临时股东大会审议通过上述议案 [2] - 公司已完成相关工商变更登记手续并取得北京市海淀区市场监督管理局换发的新《营业执照》 [2]
解码兵团高质量发展路径:科技赋能谋创新,出疆出海拓发展
新浪财经· 2025-11-03 20:00
科技创新 - 天山激光智能科技有限公司总投资1.37亿元,其激光大数据平台构建了涵盖33类工程材料的工艺数据库,接入超过1500台设备实时数据,累计形成8000余组工艺参数组合 [3] - 天山激光已成功帮助30余家企业进行激光技术嫁接与传统工艺改良,提升产能并降低能耗,成为当地装备制造业数字化转型的关键推动力 [3] - 新疆见云科技有限公司拥有30项自主知识产权,为高德地图、菜鸟自动驾驶等头部企业提供AI数据标注与算法训练服务,是集国家高新技术企业、科技型中小企业与兵团创新型中小企业于一体的创新主体 [5] 数字农业 - 疆天科技成立于2016年,专注农业耕种全程可追溯体系及农情大数据服务平台建设,能够实现小麦、玉米等大田作物种植管理全程遥感监测和实时分析 [6] - 疆天科技经过近5年研发投入,已拥有26项自主知识产权,于2019年认定为国家高新技术企业,并组建了"数字农业工程技术研究中心" [6] 兵地融合 - 新业能化公司资产总额超过90亿元,在其2500亩厂区内的1800余名员工中既有兵团职工也有地方群众,通过携手新疆大学、中国矿业大学等共建研发平台,构建了"煤化工+清洁能源+精细化工"的循环经济体系 [6] - 第十二师天恒基汽车城汇聚了526家商户,年均交易额达100亿元,是兵地资源共同培育的结果,体现了从技术协同到市场共荣的融合模式 [8] 出疆出海 - 兵团第三师五十四团的油莎豆现代农业产业园通过构建"种植—养殖—加工"一体化产业链,将油莎豆打造成年产值达1.5亿元的产业,并创造了200多个就业岗位 [8] - 天山激光已获得哈萨克斯坦订单并计划开拓土耳其市场,未来将重点开拓中亚和欧洲市场 [9] - 新疆天恒基国际汽车文化城在2024年3月获得二手车出口资质后,已向中亚、俄罗斯市场出口了28台汽车,志在成为国产汽车出口中亚的重要支点 [9] - 山东高速新疆国际物流产业园已常态化运营"鲁疆班列",作为上合示范区在国内设立的首个分园,该占地535亩的园区是连接山东、新疆与中亚国家商贸往来的高效通道 [11]
海天瑞声(688787.SH):已与多家机器人本体厂商展开合作
格隆汇APP· 2025-11-03 15:43
公司业务布局 - 公司非常看好具身智能数据领域作为高增长的新兴赛道,已组建专项团队开展业务[1] - 公司开始在全国多个城市启动专项公司的选址设立[1] - 公司已与多家机器人本体厂商展开合作,并与多家头部科技大厂及地方政府启动订单需求对接[1] - 公司正在推进相关样例数据交付与训练场方案的设计与落地,为业务加速发展奠定基础[1] 行业发展与市场潜力 - 国家已将具身智能列为未来产业予以重点培育[1] - 控制机器人认知决策等"大脑"仍处于发展早期,大模型在泛化能力上仍有不足[1] - 实现规模化落地将依赖大量高质量、细颗粒度的训练数据,因此市场潜力巨大[1] - 当前国内外多家头部科技企业已启动具身智能数据的规模采购[1] - 需求涵盖机器人在真实场景下的交互数据、构建仿真世界模型所需数据等[1] - 部分地方政府积极规划建设"具身智能训练场",旨在采集高质量数据赋能科研与产业应用[1]
海天瑞声20251031
2025-11-03 10:36
公司概况 * 公司为海天瑞声 专注于AI数据服务[1] 财务表现与预期 * 2025年第三季度收入为7,764万元 同比增长36%[3] * 第三季度收入增速放缓至30% 主要因部分国央企项目确收延迟[7] * 全年收入增速预计与前三季度持平 保持在57%左右 全年业绩表现依然强劲[2][7] * 预计未来两到三年公司年均复合增长率能达到40%至50%[16] 战略布局与核心业务 政府与国央企合作(G类业务) * 公司与中移动等战略性股东合作 对接成都 长沙 保定等国家级数据标注基地[2][3] * 预计2025年第四季度完成成都和长沙数据集交付 总量达数百万条[2][3] * 与广西政府合作建设面向东盟国家的权威语料库 预计2026年交付东盟五国数据 收入达2000万元[2][4] * 东盟语料库类业务占三季度境内单季收入的15% 全年占比将提升至境内总收入的40%左右(约8,000万元)[4] * 公司与约十几家央企合作 包括中国移动 中国联通 中国电信等 参与国家级AI焕新社区项目[3][8] * 在地方政府数据要素产业化方向已成立7个子公司并成功交付项目[8] 传统客户与市场需求 * 传统客户为国内外科技大厂 需求集中在多语种 高端专业化及提升交互自然度的数据[2][5] * 公司已在这些领域进行布局 以满足客户对多语种语音识别 手写体 文本数据等的需求[2][5] 新兴业务拓展 * 海外内容审核业务:运营菲律宾基地(规模约1,500人) Q3贡献收入约2000万元[2][6] 该基地今年贡献收入超过7,000万元[14] * 具身智能领域:成立具身智能事业部 与机器人本体公司 科技企业及地方政府合作 提供高质量训练数据集服务[2][6] 已有国内民营科技巨头释放大量需求 预计明年中报收入达千万级别[10] * 多模态数据技术:为快手可灵等提供高端数据服务 Q3仅快手就贡献收入近1,500万元[3][11][12] 多模态数据处理需求正不断增加[13] 重要合作伙伴与项目 * 与华为合作始于升腾系 通过军团制销售算力[3][9] * 首个落地项目为陕西文旅集团"博观大模型" 验证华为提供算力 海天负责数据和算法应用的模式[3][9] * 该模式已在北京门头沟区复制(涉及2000个数字人形象) 计划推广到更多垂直领域和省份[9] 其他重要信息 * 公司认识到海外自主可控交付能力的重要性 计划扩展至印尼市场 并与当地院校合作招募专家级标注员以承接北美高端定制化业务[14][15] * Deepseek在文本处理上的创新突破提升了OCR数据需求 未来含有文字的多模态数据处理需求将会增多[13]
海天瑞声(688787.SH):前三季度净利润417.97万元,同比增长10.32%
格隆汇APP· 2025-10-30 22:12
财务表现 - 公司2025年前三季度实现营业总收入2.34亿元,同比增长56.69% [1] - 公司2025年前三季度归属母公司股东净利润为417.97万元,同比增长10.32% [1] - 公司2025年前三季度基本每股收益为0.07元 [1]
【机构调研记录】华富基金调研海天瑞声、中联重科等3只个股(附名单)
搜狐财经· 2025-09-04 08:12
海天瑞声业务表现与战略布局 - 2025年上半年公司收入增长69.54% 主要因计算机视觉 自然语言和智能语音三大业务全面增长 [1] - 计算机视觉业务占比40% 自然语言业务占比14% 智能语音增速平缓 [1] - 与华为合作昇腾一体机整合及陕西智慧文旅项目 成为中国移动重要数据供应商并参与人工智能焕新社区 [1] - 数据要素方面已与成都 长沙 保定成立合资公司 与呼和浩特签署协议 拓展上海 广州等十余地合作 [1] - 海外布局方面并购菲律宾交付基地 在香港 新加坡 美国设立子公司 推进日本 韩国及欧盟市场落地 [1] - 具身智能领域共建数据训练场并发布工程化服务平台 核心竞争力包括服务产品双模式 技术平台 供应链管理及数据安全合规能力 [1] 中联重科市场需求与海外拓展 - 公司对市场需求展望审慎乐观 设备进入8-10年集中更新期 叠加国四切换支撑行业多年发展 [2] - 复苏节奏健康反映真实施工需求 国家级重大项目带动大型化 智能化 绿色化设备需求 [2] - 智能化 绿色化设备毛利率更高助力盈利提升 海外收入同比增长约15% [2] - 非洲市场翻倍增长 中东和东南亚高速增长 欧美澳市场占比达39% [2] - 土方 矿山机械持续提升 工起 建起 混凝土市占率领先 [2] - 公司将加大拉美 非洲 欧洲资源投入 海外投入回报周期一般为2-3年 中期分红超60% 累计分红28次超306亿元 [2] 奥特维技术发展与设备布局 - 半导体设备毛利率偏低主要因验收周期长及单晶炉产品毛利率低 未来将随铝线键合机和OI设备订单占比提升而改善 [3] - AOI设备已从功率半导体封装拓展至光通讯领域并获批量订单 未来将覆盖先进封装等更多场景 [3] - 固态电池设备正与行业知名客户合作 将持续研发适配不同技术路线的设备 [3] - 已储备TOPCon多分片技术并在客户端验证 技术成熟后将利好划片机和串焊机需求 [3] - 钙钛矿叠层设备已完成研发 预计今年发往客户端验证 公司认为钙钛矿技术将与晶硅技术共存 量产有望加快 [3] - 信用与资产减值按会计政策执行 计提谨慎 后续对业绩影响风险较小 [3] 华富基金规模与产品表现 - 资产管理规模全部公募基金959.08亿元排名63/210 非货币公募基金631.88亿元排名63/210 [3] - 管理公募基金数160只排名49/210 旗下公募基金经理22人排名63/210 [3] - 旗下最近一年表现最佳公募基金产品为华富科技动能混合A 最新单位净值1.57 近一年增长154.75% [3] 科创100ETF华夏资金动态 - 跟踪上证科创板100指数 近五日涨跌1.28% 市盈率226.70倍 [6] - 最新份额为23.9亿份 增加2500.0万份 主力资金净流入5896.5万元 [6] - 估值分位53.86% [7]