Workflow
数据标注
icon
搜索文档
中国数据标注行业动向观察及未来动向前瞻报告2025~2031年
搜狐财经· 2025-07-20 22:23
数据标注行业界定及发展环境 - 数据标注在人工智能产业链中处于基础层地位,分为图像、语音、文本等类型,发展模式包括众包、自建团队和混合模式 [2] - 行业关联国民经济分类中的"信息处理与存储支持服务",研究范围涵盖标注工具、数据集及服务提供商 [2] - 政策环境方面,受《新一代人工智能发展规划》《促进新一代AI产业发展三年行动计划》等文件直接推动,政策聚焦标注质量标准和产业基地建设 [3] - 2024年中国GDP达121万亿元(2019-2024年CAGR 5.2%),第三产业增加值68万亿元,固定资产投资55万亿元,与行业规模呈正相关 [11] - 技术环境显示2024年专利申请量同比增长28%,热门技术集中在半自动化标注工具(占专利总量42%)和质量控制算法(31%) [4] 全球市场发展现状 - 2024年全球市场规模达86亿美元(2019-2024年CAGR 24.7%),其中美国占38%、欧洲22%、印度15% [12][13] - 供给端呈现寡头格局,Appen、Scale AI等TOP5企业市占率达61%,需求端自动驾驶占比34%、智慧医疗26% [13][14] - 区域市场差异显著:美国标注工具年增长32%,欧洲侧重医疗数据标注,印度依托低成本劳动力承接40%全球外包订单 [13] - 技术趋势显示自动化标注工具渗透率从2020年18%提升至2024年45%,预计2031年达78% [14] 中国市场供需分析 - 2024年市场规模突破42亿元,企业数量达1,287家(年增37%),但行业集中度CR5仅29% [6][7] - 需求结构:语音标注占38%(单价85元/小时)、图像标注33%(均价1.2万元/项目)、自然语言处理29% [10] - 基地建设形成"山西-贵州-新疆"三角布局,百度山西基地年标注产能达5PB,带动就业1.2万人 [6] - 核心痛点包括标注员流动率高达45%、标注准确率行业均值仅91.3% [7] 竞争格局与企业案例 - 投融资市场2024年发生37起交易(总金额28亿元),并购重组案例同比增长120%,头部企业通过垂直整合扩大份额 [7] - 云测信息建立全场景标注体系,覆盖98%AI应用场景;京东众智聚焦零售领域标注准确率达99.6% [8][9] - 百度众测依托飞桨生态年处理数据量达3EB,海天瑞声语音标注市占率31%居首 [9][10] - 技术差异化明显:倍赛BasicFinder的3D点云标注精度领先行业2.3个百分点,标贝科技构建千万级语音数据库 [10] 产业链与技术创新 - 上游标注员供需缺口达24万人,职业认证体系覆盖6大类21项技能标准 [7] - 下游AI应用驱动需求:自动驾驶单车标注成本超8万元,智慧医疗影像标注市场年增51% [8] - 工具层创新显著,Testin云测的AutoLabel系统将效率提升7倍,错误率下降至0.8% [8] - 数据集建设加速,行业头部企业平均拥有1,500+标注数据集,年更新率超60% [9]
7.17犀牛财经晚报:霸王茶姬泰国拓店失败 八马茶业港股招股书失效
犀牛财经· 2025-07-17 18:49
超豪华小汽车消费税政策调整 - 财政部将超豪华小汽车消费税征收范围调整为零售价90万元(不含增值税)及以上所有动力类型乘用车和中轻型商用客车 [1] 锦江酒店业绩预告 - 2025年上半年净利润预计3.6亿至4亿元 同比减少4.88亿至4.48亿元 降幅57.53%至52.81% [2] - 扣非净利润预计3.9亿至4.1亿元 同比增加148万至2148万元 增幅0.38%至5.53% [2] - 公告发布后股价冲高回落 7月15日收盘涨0.86% 成交额3.19亿元 换手率1.56% 总市值238.78亿元 [2] 霸王茶姬海外扩张 - 泰国总统食品子公司注资1.42亿泰铢获霸王茶姬泰国51%控股权 [2] - 此前与马来西亚Magma Chain成立合资公司 采用"本地资源+外来品牌"互补策略 [2] - 泰国门店拓展因市场竞争激烈和价格劣势停滞 合资成为必然选择 [2] 八马茶业IPO进展 - 港交所招股书满6个月失效 需3个月内更新财务数据延续审核 [3] - 此前三次冲击A股失败:2013年深交所中小板未果 2015年新三板挂牌后2018年终止 2019年创业板IPO最终撤回 [3] - 2022年转战深交所主板后2023年再度撤回申请 [3] AMD对华芯片出口 - AMD将恢复向中国交付AI芯片MI308 美国商务部已启动许可审查 [3] - 美国芯片行业集体呼吁放宽出口管制 预计MI308限制将造成8亿美元损失 [3] 京东外卖业务声明 - 否认参与"0元购"等补贴大战 称其为恶性竞争 [4] - 当前聚焦降低佣金 骑手社保保障和品质外卖建设 [4] 爱康体检争议回应 - 解释癌症检测存在技术局限性 体检报告如实记录当时结果 [5] - 2023年体检报告已提示右肾钙化灶和左肾错构瘤可能 [5] - 强调CEA检测与肾细胞癌无公认关联性 [5] 合众新能源重整 - 哪吒汽车母公司启动重整投资人预招募 保留400余名核心员工 [6] - 2024年11月停产至今8个月 产线设备仍正常运转 [6] ScaleAI裁员重组 - 将裁减200名全职员工(占比14%)和500名承包商 [6] - 业务部门从16个重组为代码 语言 专家 实验 音频五大板块 [6] 上市公司公告 - 金智科技中标国家电网及南方电网项目1.33亿元 [7] - 大唐发电2025年上半年上网电量1239.93亿千瓦时 同比增1.3% 其中风电增31.27% 光伏增36.35% [8] - 金钼股份上半年净利润13.80亿元 同比降8.45% [9] - 纵横股份预计上半年营收增61.72% 净亏损收窄至3468.45万元 [10] - 厦门钨业上半年净利润9.72亿元 同比降4.41% [11] A股市场表现 - 创业板指涨1.76% 两市成交额1.54万亿元 超3500只个股上涨 [12] - AI硬件 军工 创新药板块领涨 CPO PCB概念表现强势 [12]
超13亿元重磅项目集中签约 天津推动数字经济发展走深走实
搜狐财经· 2025-07-11 11:17
数字经济论坛活动概况 - 2025上合组织数字经济论坛重要同期活动"数字经济项目签约会暨数据产业主题推介活动"在天津成功举办,吸引100余家企业参与,聚焦新质生产力发展、国家数字经济发展战略及上合组织数字合作愿景 [1] - 天津2025年一季度数字经济核心产业营收同比增长12.2%,增加值占GDP比重达9.4% [1] - 滨海高新区、天津港保税区、河北区、津南区基于各自产业定位开展推介,形成"多点开花"的区域数字经济格局 [1] 签约项目与产业动态 - 活动现场签约21个项目,总投资金额13.5亿元,覆盖算力设施、低空经济、智慧医疗、智慧能源等重点领域 [2] - 百度智能云(天津)人工智能基础数据产业基地作为标志性项目集中签约入驻企业 [2] - "天津滨海文旅一票通"项目整合京津冀文旅资源,通过数字化平台实现消费流程全程数字化,计划拓展至文旅演艺、特产、文创等消费场景 [2] - 天津市已聚集20多家专业化数据标注企业,产业总规模超10亿元,呈现智能化、专业化、规模化发展趋势 [2] 科研与基础设施优势 - 天津萌研社数据技术有限公司与天津大学国家重点实验室合作,依托本地科研力量推进数据标注及大模型建设 [2] - 天津市持续完善数字基础设施环境,为企业提供数据资产开发运营支持 [2] 产业组织与政策规划 - 天津市大数据协会数据标注专业委员会成立,将推动产业规范化、技术创新及人才培育,打造"天津经验" [3] - 天津市数据局计划建设国家数字经济创新发展试验区,部署数联网、智算中心等基础设施,推动模型研发、智能数据标注等产业聚集 [3] - 智慧城市建设和重点行业数字化转型被列为促进数字经济与实体经济融合的关键举措 [3]
第四次数据标注产业供需对接会暨央企走进国家数据标注基地活动在保定成功举行
环球网· 2025-07-07 16:06
活动概况 - 第四次数据标注产业供需对接会暨央企走进国家数据标注基地活动在河北保定举行,主题为"数聚生态 标注未来" [1] - 活动汇聚大湾区中央企业数字化协同创新联盟、中央建筑企业数字化转型协同创新平台、中央企业BIM软件创新联合体等机构 [1] - 参会方包括全国16个省级数据管理部门和275家数据标注相关企业(央企46家,其他企业229家),共计600余人 [1] 保定市发展规划 - 保定市提出"京数保标、京模冀用"目标,坚持五项并重:需求牵引、区域协同、技术攻坚、人才筑基、生态赋能 [3] - 计划构建全领域数据标注需求释放体系,吸引更多央企和数据服务企业落地 [3] - 将打造全国一体化数据标注产业生态网络,联合共建智能标注实验室 [3] - 建立产教融合的人才梯队体系,构建标注产业国际标准与服务矩阵 [3] - 以数据标注服务人工智能战略,推动产业与人工智能重大生产力深度融合发展 [3] 行业观点 - 数据标注产业是数字经济的基础性工程 [4] - 数据已成为人工智能发展的核心驱动力,行业急需突破样本数据规模和质量瓶颈 [4] - 高质量数据集正从"劳动密集型"向"知识密集型"转型,需要自动化工具、智能标注、人机协同平台等技术支撑 [5] - 中国电子数据产业集团在交通、建筑、农业等领域有成功落地案例,"中数天璇"图文数据集支撑垂直领域AI开发 [5] 产业倡议与对接 - 发布《打造具备全球竞争力的数据标注产业集群》联合倡议书(保定倡议) [7] - 倡议聚焦五大任务:需求牵引、区域协同、技术攻坚、人才筑基、生态赋能 [7] - "央企供需对接集市"活动中,10余家央企与71家企业现场对接交流达90余次 [7] 未来展望 - 活动为数据标注产业搭建高效交流合作平台,推动人工智能与数字经济深度融合 [9] - 保定国家数据标注基地将加快构建具有国际影响力的产业高地 [9]
数据标注公司SURGE AI寻求至多10亿美元的资本募集。
快讯· 2025-07-01 23:30
公司融资动态 - 数据标注公司SURGE AI正在寻求至多10亿美元的资本募集 [1]
海天瑞声20250625
2025-06-26 22:09
纪要涉及的公司和行业 - 公司:海天瑞声、Scale AI、中国移动 - 行业:数据标注产业 纪要提到的核心观点和论据 海天瑞声 - **业务模式**:分为定制服务、标准化产品和与训练数据相关的应用服务三类[3] - **业绩波动因素**:2022 年业绩快速增长得益于下游车厂对自动驾驶视觉数据需求增长;2023 年收入下滑受数据出境法规阶段性影响[4] - **2023 年业绩表现**:整体业绩同比回暖,归母净利润扭亏为盈,毛利率因企业多模态数据投入和独特数据集采购需求提升[6] - **海外市场拓展**:2023 年拓展部分智能终端领域头部海外客户;2024 年境外收入预计同比增长近 90%,超 1 亿元;新加坡控股公司实现订单和产能覆盖[5][14][15] - **政企合作进展**:与中国移动联合发布解决方案,共同拓展政府客户;参与东盟语料库建设及可信数据空间构建;与多地成立合资公司拓展下游应用开发[5][16] - **AI 应用落地**:积累大量标准化产品,拓展相关业务;与中国移动联合发布解决方案,预计项目体量显著增长[17] - **营收增长预期**:预计今年整体营收增长超 40%,达约 3 亿多元;智能语音、自然语言处理和计算机视觉业务预计高速增长,后两者增速超 50%[18] 数据标注产业 - **政策支持与市场增长**:预计到 2027 年复合增长率超 20%;七个试点城市发展相关企业,带动产值超 83 亿元;政策持续关注[2][7] - **数据需求增长与规划**:大模型驱动数据需求从通用知识向专业知识延伸;国家数据局规划建设三类高质量数据集[2][7] - **市场规模与竞争格局**:2025 年市场规模有望突破 100 亿元,增速超 30%;2023 年需求方自建团队占 60%,品牌数据服务商占 35%,市场集中度提升[2][8] - **第三方品牌服务商需求**:大模型对垂直、专业、深度数据挖掘需求增加,第三方品牌服务商需求增长,头部份额将提升[9] Scale AI - **业务模式**:为 AI 和机器学习提供数据标注和管理服务,涵盖数据标注、管理、评估、自动化平台及数据生成服务[10] - **客户群体与营收**:客户包括自动驾驶、金融、政府等;与头部 AI 公司合作;2023 年营收近 9 亿美元,预计 2024 年超 20 亿美元[11] - **融资情况**:2024 年 6 月获 Meta 投资,投后估值约 290 亿美元,Meta 以 14.3 亿美元获 49%股权[10] - **与国防部合作**:2020 年获 9100 万美元订单,2022 年获 2.49 亿美元新合同,业务拓展至数据处理和应用开发,2023 年提供算法优化和模型部署服务[12] - **标注方式平衡**:海外设外包人工标注团队,提升自动化标注水平,大模型后期微调及专业领域仍需人工标注[13] 其他重要但是可能被忽略的内容 - 海天瑞声定制服务知识产权不归公司所有,不能重复销售;标准化产品可重复销售[3] - 海天瑞声作为中国移动参股方,参与国家数据局主持的数据标注领域民营经济座谈会[16]
Meta、Scale交易后,最大赢家竟是Uber?
虎嗅· 2025-06-25 13:36
行业格局变动 - Meta收购Scale AI 49%股份引发行业震动,OpenAI和谷歌等主要客户已缩减或计划切断与Scale的合作 [1] - 数据标注领域竞争对手受到鼓舞,积极抢占市场空白 [2] - 优步旗下Uber AI Solutions借机扩张,向新客户推介服务 [4] 优步的战略布局 - Uber AI Solutions从最初5个市场扩展到30多个国家和地区,众包数据标注人员数量自年初翻倍 [7] - 推出新服务提供现成数据集(音频、视频、图像、文本)及AI智能体开发工具,并开放内部管理平台 [4] - 部门更名以突出AI属性,计划通过自动化流程(如自然语言需求描述)与竞争对手形成差异化 [5] 优步的竞争优势 - 市值1750亿美元,去年营收439亿美元,资源储备远超依赖风投的小型竞争对手 [8] - 拥有50余家企业客户,包括Aurora和Niantic,时薪20-200美元吸引数万名标注人员覆盖STEM、法律等领域 [7] - 强调产品交付能力和运营经验的双重基因,目标将数据标注发展为重要业务线 [8] 竞争对手动态 - Mercor(估值20亿美元)等企业认为高技能人才网络构建效率是竞争关键 [9] - Scale旗下Outlier平台曾指出优步入局反映行业价值被广泛认可 [8] - 优步需应对过往监管争议,但客户未明显介意,公司承诺数据安全管控 [10]
揭秘华人创办的数据标注帝国Surge:成立五年0融资,去年营收10亿美元
36氪· 2025-06-20 19:13
数据标注行业现状 - 数据标注领域因Meta与Scale AI达成143亿美元投资交易成为硅谷新焦点 [3] - 该行业长期处于边缘地带 但实为AI模型性能优化的关键基础 [3] - Surge AI为当前市场份额和竞争力最强的行业龙头 实际体量已超过Scale AI [3][7] Surge AI核心业务表现 - 2023年营收达10亿美元 超过Scale AI同期8.7亿美元 [4][7] - 成立五年未融资 完全依靠自力更生实现盈利 [4][7] - 定位高端服务商 收费为Scale的2-5倍 客户包括谷歌 OpenAI Anthropic等 [6][7] - 合同工起薪每小时20美元 通过子公司Data Annotation Tech管理劳动力 [5] 创始人及公司发展历程 - 创始人埃德温・陈为MIT语言学与数学背景 曾任职Facebook Dropbox谷歌Twitter [9] - 因亲身经历传统数据标注效率与质量双低痛点 于2020年创立Surge AI [9] - 早期通过攀岩馆社交获得Airbnb Neeva等首批客户 自筹资金启动业务 [10] - 专注语言模型领域 2022年服务客户扩展至Anthropic等AI头部企业 [10] 技术优势与行业竞争 - 构建标准化质控体系 通过持续评估合同工光标轨迹等信号保证数据质量 [12] - 客户反映其流程保密但效果显著 类比云服务"黑箱"式高效体验 [12] - Meta生成式AI团队2023年向其支付超1.5亿美元 接近Scale的2亿美元 [13] - 面临OpenAI自建标注团队及谷歌多供应商策略带来的价格压力 [13] 行业争议事件 - 2024年5月遭遇加州集体诉讼 被指控违法分类合同工及欠薪 [8] - 同类公司Scale等也面临类似诉讼 原告律师称工作条件"反乌托邦式" [8] - 公司发言人驳斥诉讼"毫无根据" 目前未披露具体财务细节 [5][8]
速递|华人创业已低调超越Scale AI,零融资的Surge AI年收10亿美金
Z Potentials· 2025-06-20 11:50
行业概况 - 数据标注行业因Meta Platforms与Scale AI达成143亿美元收购49%股份交易而成为硅谷新热点[1][3] - 行业核心工作包括雇佣合同工对AI模型响应进行评级、编写专业领域问题与答案以训练模型 时薪起价20美元[5] - AI模型从玩具转向商业工具推动数据标注需求激增 行业出现蒸馏技术等替代方案可能压低价格[14] Surge AI公司定位 - 定位为高端数据标注服务商 收费是Scale AI的2-5倍 客户包括谷歌、OpenAI和Anthropic等头部企业[3][6] - 专注语言模型标注 通过严格质量管控实现行业领先工作质量 被客户评价为"好得令人放心"[7][11] - 创始人Edwin Chen提出开发具有"创造力和偶然性"AI的崇高目标 追求模型输出能引发情感共鸣[3] 财务与运营表现 - 2024年营收10亿美元(超越Scale AI的8.7亿) 成立五年未融资且实现盈利 110人团队人效达Scale三倍[2][4] - Meta生成式AI团队2023年支付超1.5亿美元标注费用 接近Scale同期获得的2亿美元[12] - 采用合同工模式 但未披露净收入留存率 行业惯例约50%收入需支付给承包商[4] 创始人背景 - Edwin Chen为MIT语言学与数学专业 曾任Facebook、Google等公司机器学习工程师 亲历数据标注痛点后创业[9][10] - 通过攀岩馆偶遇等非传统方式获取首批客户 初期自筹资金并招募前同事组建团队[10] - 坚持不融资策略 若获Scale同等估值(290亿美元)将跻身科技顶级富豪行列[4][6] 竞争格局 - Scale AI获15亿美元融资 组建超千人团队 CEO成为硅谷名人 但营收未达10亿美元目标[6][7] - 新兴竞争对手涌现 谷歌等客户为规避供应商锁定引入多服务商 导致Surge议价能力下降[14] - 行业面临集体诉讼风险 Surge被指控错误归类员工性质 Scale等公司亦有类似纠纷[7][8] 技术方法 - 采用持续评估机制 通过措辞分析、光标轨迹等多维度信号监控外包人员工作质量[12] - 为保持输出风格一致性 要求不同标注者在代码示例结构、长度等方面高度统一[11] - 设置无标准答案问题及多人共识机制 防止标注者敷衍了事[11]
湖北推进可信数据空间发展 到2028年开发至少300个应用场景
长江商报· 2025-06-18 07:43
湖北省推进可信数据空间发展 - 湖北省发布《湖北省推进可信数据空间发展行动方案》,目标是到2028年建成不少于30个成效突出的可信数据空间,开发不少于300个应用场景,上架不少于2000个数据产品 [1] - 方案提出可信数据空间"建、用、管、服"一体化发展,形成"建空间、用数据、活机制、强生态"闭环 [1] - 五类数据空间建设重点方向包括城市可信数据空间、企业可信数据空间、行业可信数据空间、跨境可信数据空间和个人可信数据空间 [5] 武汉市打造数据要素枢纽城市 - 武汉市数字经济规模占地区生产总值比重超过50%,在2024全国数字经济百强市中排名第10,较上年前进1位 [2] - 武汉市在中国数字生态指数2024中排名第6,较上次前进3位,数据要素市场发展居中部城市之首 [2] - 2024年武汉市共有6个项目获批数据领域中央预算内投资补助资金1.095亿元 [2] 武汉市数据标注产业发展 - 武汉市已有数据标注相关重点企业60余家,开发了一批行业高质量数据集和数据标注工具平台 [3] - 《武汉市数据标注产业发展三年行动方案》提出,到2027年相关资产入表、产品登记、数据交易等业务体量超过50亿元,带动人工智能相关产业规模增量超过100亿元 [3] - 目标引进培育数据标注龙头企业2家,产业规模力争进入全国第一方阵 [3] 可信数据空间建设规划 - 国家数据局提出到2028年建成100个以上可信数据空间 [4] - 可信数据空间通过构建"数据共享安全屋"实现数据价值的安全流转,确保数据"可用不可见" [4] - 支持武汉、襄阳、宜昌等市州开展试点,打造涵盖可信管控、资源交互、敏捷计算等能力的底座 [5]