Data Annotation

搜索文档
Mercor 高速增长的秘诀与其中的聪明人|42章经
42章经· 2025-09-14 20:40
本期播客对谈原文约 16000 字,本文经过删减整理后约 8000 字。 这次去美国,我的一大收获就是认识了 Mercor 的首位中国工程师(节目录制时也是全司唯一的中国员工)虞快。他是前金融科技独角兽工程总监, Google 、 Two Sigma 、 Citadel 工程师,也是我这次硅谷行遇到的最聪明的人之一。 曲凯 :Mercor 今年很火,国内也有不少分析和报道。我发现大家对你们的认知大致经历了两个阶段: 一开始很多人觉得你们是 AI 招聘公司,但后来发现,你们本质上是在做数据标注。 在你看来,Mercor 到底是一家什么公司? 虞快 :我们的核心业务,是帮顶尖 AI 公司招各行各业的专家。 大家可能对数据标注有刻板印象,觉得就是从欠发达地区找廉价劳动力做些基础活。 但现在完全不同了。 AI Labs 需要的是医生、律师、投行顾问,甚至细分到专门写 Swift 的工程师、俄罗斯的生物学家。 因为模型已经进化到了只有专家才能标注的地步。大多数人会的题,它早就会了。再想提升模型智能,就必须请特定专家提供系统性反馈,告诉模型什么是好答 案、什么是差答案。 曲凯 :那这些 AI Labs 拿到你们的专家标准 ...
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 08:03
公司概况 - Surge AI是一家专注于高质量数据标注的AI公司,仅有110名正式员工,却在2024年创造了超过10亿美元的年营收,反超行业巨头Scale AI [1] - 公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 [1] - 创始人Edwin Chen是37岁的华人理工男,曾任Twitter工程主管,对行业痛点有深刻理解 [3][7] 商业模式创新 - 重构数据标注行业竞争维度,形成"极致质量 × 精英团队 × 自动化系统 × 使命感文化"的乘法模型 [10] - 专注RLHF(基于人类反馈的强化学习)等高价值环节,收费是同行的2-5倍,项目最低门槛数百万美元 [13] - 开发智能人机协同系统,110人团队每周处理数百万条高质量数据,人均产出是Scale AI的近9倍 [16][17] 人才战略 - 筛选全球最顶尖的1%标注人才,包括博士、硕士,将其视为"AI工程师"而非"数据工人" [11] - 创始人对初创公司招聘有独特见解,认为早期应追求10-100倍突破而非微调,产品方向应由创始人亲自把控 [12] - 通过使命感凝聚团队,标注者被视为"AI的父母",许多高学历人才因能实践毕生所学而长期工作 [19] 行业对比 - 2024年营收10亿美元,超过Scale AI的8.7亿美元 [21] - 与传统模式相比,解决了质量堪忧、效率低下、价值密度低三大痛点 [6][7][9] - 与Snorkel AI的程序化标注相比,更擅长需要人类价值观和常识判断的复杂任务 [23] - 与Turing的专家众包平台相比,通过自研平台将精英人才整合成高效协同团队 [24] 核心优势 - 重新定义行业问题:AI需要的是蕴含人类智慧的"养料"而非简单"标注" [25] - 打破"数据=劳力"的铁律,证明"更聪明的人力+更聪明的系统"可超越线性规模增长 [25] - 构建了包括人才、技术、文化在内的全方位质量导向体系 [10][19] - 创始人坚持不卖公司,以"培育AGI"为使命,形成难以复制的精神护城河 [17][19]
又一位剑指AGI的华人理工男!这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
混沌学园· 2025-08-01 20:06
行业背景与问题 - AI数据标注行业长期遵循"人力=产量"逻辑 以Scale AI为代表的传统模式依赖海量兼职人员处理简单重复任务[7][8] - 大语言模型(LLM)兴起后 需要理解逻辑、文化、偏见等复杂反馈 传统模式暴露三大弊端:标注错误率高(如餐馆标成医院)、效率低下(小项目启动需数月)、价值密度低(空洞数据泛滥)[8][12] - 行业存在"价值错配":顶级AI工程师被迫从事低价值数据预处理 而非专注模型创新[11] Surge AI商业模式创新 - 重构竞争四维度:极致质量×精英团队×自动化系统×使命感文化 形成乘法效应[15] - 精英路线:全球筛选顶尖1%标注人才 包括博士硕士 将其定位为"AI教练"而非数据工人 团队仅110人但人均产出达Scale AI的9倍[16][17][21] - 专注高价值环节:主攻RLHF(基于人类反馈的强化学习)领域 收费达同行2-5倍 服务OpenAI等顶级实验室[19] - 智能系统:开发人机协同平台 AI负责质检与辅助 人类专注高阶判断 每周处理数百万条高质量数据[20][21] - 文化驱动:以"养育AGI"为使命 标注者自视为"AI父母" 形成金钱无法替代的精神凝聚力[24] 商业成果与行业影响 - 2024年营收超10亿美元(约70亿人民币) 反超Scale AI(8.7亿美元) 零外部融资情况下估值达150亿美元[1][27][28] - 客户质量审计表现优于Scale AI 获O'Reilly创始人公开称赞 Meta投资Scale后更多实验室转向Surge[27] - 开创"高维战场":与Snorkel AI(程序化标注)相比更擅长人类价值观判断 与Turing(专家众包)相比提供更稳定的团队协同输出[29][32] - 验证新范式:证明"更聪明人力+更智能系统"可超越线性规模增长 重新定义AI数据需求为"人类智慧养料"而非简单标注[30][31]
Surge AI估值超千亿元 数据标注产业走向台前
中国经营报· 2025-08-01 01:32
公司概况 - Surge AI是一家专注于数据标注的AI企业,成立仅五年便成为估值150亿美元(约合1000亿元人民币)的"独角兽",目前正在进行10亿美元的首轮融资 [1] - 公司由前Google和Meta工程师Edwin Chen于2020年创立,旨在解决传统数据标注行业效率与质量双低的问题 [2] - 2024年营收突破10亿美元,客户包括OpenAI、谷歌、微软、Meta、Anthropic等全球顶级科技公司和研究机构 [3] 业务模式与技术优势 - 构建智能化标注平台,集成计算机视觉与自然语言处理技术,通过动态任务调度系统优化全球众包资源,大幅提升标注效率 [4] - 通过资本杠杆快速收购区域性标注服务商,形成覆盖多语种、多场景的服务网络,摊薄边际成本 [4] - 与OpenAI、Anthropic等大模型企业合作,通过对AI大模型输出内容进行质量分级和校验,帮助提升模型性能 [3] 行业背景与市场机遇 - 数据标注是AI发展的关键基础产业,涉及数据筛选、清洗、分类、注释等加工处理,对高质量数据集建设至关重要 [1] - 全球AI数据需求以每年230%的速度增长,大模型参数量每12个月扩大10倍,GPT-4训练消耗的10万亿token中超过60%需人工标注 [2] - 中国数据标注市场规模从2020年30亿元增长至2024年80亿元,年复合增长率超25%,预计2029年达204.3亿元 [6] 技术发展趋势 - 行业正从"手工作业转向人机协同",AI辅助工具渗透率不断提升 [1] - 未来突破方向包括:主动学习框架减少人工干预、跨模态联合标注提升一致性、隐私计算集成满足合规需求 [8] - 智能化标注技术如预训练模型初步标注+人工审核修正,将成为提高效率和质量的关键 [8] 政策与产业生态 - 中国出台系列政策支持数据标注产业发展,国家数据局指导7个城市建设数据标注基地,已建设数据集524个(规模超29PB),服务大模型163个 [7] - 地方应用案例涌现,如中国电信四川公司利用19个地市方言语音大数据构建四川方言数据集并训练方言大模型 [6] 竞争格局与挑战 - 行业正从劳动密集型向技术驱动型转变,需求增长但面临数据存量、质量、利用效率等问题 [7] - Surge AI模式依赖特定市场环境与资源优势,不同地区和企业需差异化发展路径 [4]
在新赛道上加“数”奔跑
辽宁日报· 2025-07-07 09:35
数据标注产业概述 - 数据标注是人工智能训练的关键环节 通过标记数据特征让AI理解现实世界 应用于物流配送 电子政务 导航定位等领域 [3] - 数据标注将现实世界转化为数字信息 建立数据集 为大模型计算和推理提供数据支撑 [3] - 高质量数据集是人工智能大模型训练 推理和验证的关键基础 需经过采集 清洗 归类和标注等智能化处理 [4] 辽宁省数据标注产业发展 - 辽宁省去年5月成为7个国家级数据标注基地之一 产业规模持续扩大 从业人员快速增长 [1][8] - 辽宁省4个数据标注案例获评国家级优秀案例 成为入选数量最多的省份 [1][8] - 数据标注供需对接会签约金额超2亿元 [1][8] 数据标注应用案例 - 辽宁12345热线平台作为全国唯一政务领域数据标注优秀案例 数据总量达16T 每年新增1400万条 每月更新15%至30% [5] - 平台动员1400余名话务员与3.7万名基层人员参与 通过诉求数据治理平台自动标注 专家复核形成高质量数据集 [5] - 宏图创展开展多源数据融合与大模型应用 拥有上千名数据标注员 处理智能驾驶等数据 [3][8] - 东软研发全球首个医学影像多模态标注平台"飞标" 实现标注效率提升100多倍 质量提升30% 成本降低60%以上 [6][7] - 东软平台累计标注医学影像数据50T以上 服务100多家客户 包括医疗机构 医学院校和医疗AI企业 [7] 数据标注技术特点 - 数据标注需经过严格质检 达到一定准确率才能交付使用 智能驾驶数据必须保证精准 [3] - 医学影像标注需由有资质人员操作和审核 证明标准达到金标准要求 [7] - 谷歌研究发现计算资源受限时 数据集大小比模型大小更重要 [7] - 纽约大学研究显示大型语言模型训练中即使含0.001%错误信息 也可能导致输出不准确医学答案 [7] 产业发展政策支持 - 国家四部委提出到2027年数据标注产业年均复合增长率超过20%的发展目标 [10] - 辽宁省发挥数字辽宁建设工作领导小组作用 出台系列政策措施 以3个国家级试点为引领 [11] - 设立辽宁省数字经济专项基金 支持东软 宏图创展等企业 强化企业引育和人才支撑 [11] - 计划培育专精特新企业 建设人才库 突破多模态数据增强等10项核心技术 [13] 人才队伍建设 - 高端数据标注人才短缺 需要技术人才和业务专家相结合 [12] - 大连金慧融智推出人机协同培养模式 累计培养1万多名专业标注人员 缩短培养周期20% 提升培训效率40% [13] - 辽宁省将建设数据标注人才库 引进更多专业人才 [13] 产业发展前景 - 数据标注是激活数据价值 驱动AI创新的基础性工程 在智慧城市 智慧医疗和金融科技等领域发挥不可替代作用 [8] - 辽宁省将研究制定数据标注产业创新发展行动计划 促进数据 技术 场景对接 [8] - 数据标注产业站上"风口" 即将腾飞 [13]
海天瑞声:DeepSeek等AI新技术并未减少数据标注需求
搜狐财经· 2025-07-04 15:41
公司股东减持情况 - 公司股东及高管减持行为严格遵守证监会及交易所规定 已提前披露减持计划且减持比例和方式符合监管要求 减持主要系股东自身资金需求 [1] - 减持采用集中竞价和大宗交易两种方式 其中大宗交易不通过二级市场减持 不会直接影响二级市场价格 [1] - 公司实控人及管理层坚定看好行业前景 持续通过战略投入巩固核心竞争力 [1] AI新技术对数据标注行业影响 - DeepSeek等AI新技术未减少数据标注需求 反而推动行业向更高阶、更专业化方向发展 [1] - 大模型产业化加速推动金融、医疗、法律等专业领域高质量标注数据需求扩大 需要行业专家深度参与 [1] - AI正从单一文本向多模态(语音、视觉等)演进 催生增量数据需求 [1] - 模型精度提升对数据标注准确性、一致性要求更高 数据标注难度增加 [1] 公司经营状况 - 公司上半年经营情况正常并持续向好 具体财务数据以后续定期报告为准 [1] - 公司近期已通过分红等方式回馈投资者 后续将加强减持管理减少对二级市场影响 [1]
80后华人零融资创业:1/10人力营收规模超Scale AI,谷歌OpenAI大模型的“秘密武器”
36氪· 2025-06-21 08:02
公司概况 - Surge AI由80后华人埃德温·陈(Edwin Chen)于2020年创立,定位高端数据标注服务,客户包括谷歌、OpenAI、Anthropic等科技巨头 [2][3] - 公司2024年营收达10亿美元,超过竞争对手Scale AI的8.7亿美元,且未进行外部融资 [2][5] - 员工数仅110人,约为Scale AI的1/10,但营收规模更高 [3][7] 商业模式 - 采用高定价策略,收费是Scale AI的2-5倍,以高质量服务著称 [2][6] - 主营数据标注业务,雇佣外包工作人员对AI模型响应进行评分,编写编程、数学、法律等领域的问题和答案 [6] - 子公司Data Annotation Tech提供灵活工作模式,员工起薪为每小时20美元 [6] 创始人背景 - 创始人埃德温·陈曾在MIT学习语言学和数学,并在Facebook、Dropbox、Google、Twitter担任机器学习工程师 [8] - 在Facebook工作期间,因数据标注质量差的问题萌生创业想法 [8] - 2020年离开Twitter后创立Surge AI,初期用自己的积蓄资助公司 [9] 技术优势 - 专注于语言建模,与OpenAI合作微调模型,避免产生有害回应 [9] - 客户反馈公司能快速生成高质量数据,但内部流程保密 [10] - 采用多种技术确保标注质量,如随机插入无正确答案的问题、多标注人员达成一致等 [10] 行业机遇 - Meta投资Scale AI后,OpenAI等公司取消与其交易,Surge AI有望接住新机遇 [14] - 公司凭借高端定位和零融资高收入模式,超越Scale AI的营收规模 [14] 挑战 - 面临员工诉讼,外包员工指控公司违法经营 [12] - 产能饱和,客户需承诺投入数百万美元才能承接项目 [12] - 客户压价,如谷歌与更多供应商合作以降低价格 [13] - 技术替代风险,如蒸馏技术可能减少对人工标注的需求 [13]
从 AI 招聘到数据标注,Mercor 能否打造下一个 Scale AI?
海外独角兽· 2025-06-13 18:56
赛道定位与商业模式 - Mercor所处赛道为AI领域关键供需交叉点:下一代AI模型对高质量垂直领域专家级Human Data的需求与人才稀缺性之间的不平衡[3] - 合成数据无法完全替代Human Data,尤其在特定领域知识和复杂判断方面,AI模型突破性进展依赖垂直领域专家的"人类智能输入"[3] - 公司从AI招聘平台转型为直接向AI Labs提供人力数据创建服务,从Scale AI上游劳务供应商转变为数据标注市场直接竞争者[3][35] - 2025年初ARR达7500万美元,B轮融资1亿美元估值20亿美元,仅稀释5%股权[4][5][77] 投资逻辑 - 商业模式演进为人力数据标注市场直接竞争者,瞄准中小型高难度项目(预算低于5万美元)的市场空白[12] - 核心优势在于为复杂快速迭代任务迅速部署专家级人力资源,交付速度评分8分(Scale AI为6分)[17][50] - 数据质量当前评分6-7分,落后于Scale AI的8-9分,需弥补质量短板以扩大市场[17][23] - 创始团队平均年龄不到21岁,展现超强执行力,从宿舍创业到千万美元收入仅用两年[19][70] 市场机会 - 全球数据标注市场2023年37亿美元,预计2030年达171亿美元(CAGR 23.5%),其中20-30%为高复杂度专家标注[31] - LLM驱动的高价值子市场2024年规模5-7亿美元,预计以50-80% CAGR增长[32] - 前10大AI实验室每年在人类评估和模型对齐环节预算合计超1-2亿美元[33] - 高端Human Data市场呈现两大趋势:长尾项目高价值(5万美元以下)和专业垂直任务爆发(医疗/法律/金融)[14][28] 业务演进 - 两大核心业务线:AI招聘与人才派遣(30%佣金率)和Human Data Services(核心增长引擎)[36][37] - 构建端到端专家数据交付系统:30万专家人才库、灵活工作流整合(支持轻量接入或完整方案)、结构化质量与激励框架(按小时付费)[38][40] - 技术路线采用分层AI架构:通用基础模型+垂直领域模型,核心IP为基于10万份反馈的岗位胜任力预测模型[47][48] 差异化竞争 - 与Scale AI对比:Mercor专注长尾市场(5万美元以下项目)、按工时计费、交付速度快但质量中等;Scale AI专注大型项目、按任务计费、质量高但速度慢[17][50] - 主要竞争对手包括Scale AI(估值138亿美元)、Surge AI(RLHF专家)、Turing(代码领域专家)和Labelbox(CV工具)[58][60][64][67] - 当前占据高端Human Data市场10-15%份额,若维持50%增速未来两年收入可达2.5-3亿美元[34] 核心客户与反馈 - 头部客户包括OpenAI等五大AI Labs,用于模型微调和RLHF阶段的专家评估[53] - Google横向对比显示Mercor标注量较小但交付速度最快,医疗等垂直领域需扩充专业人才池[55] - 自由职业者反馈时薪吸引力强(本科50美元/小时,硕博100-200美元/小时),但存在任务量不稳定问题[56] 团队与融资 - 创始团队三人平均年龄20岁,CEO Brendan Foody高中时期即展现创业天赋[70] - 关键高管来自OpenAI和Scale AI,补齐企业运营短板[71][72] - 非典型融资路径:种子轮360万美元(General Catalyst)→A轮3000万美元估值2.5亿(Benchmark)→B轮1亿美元估值20亿(Felicis)[74][76][77]
挂牌示范园区、建立产教融合培训中心……武汉数据标注产业这样发展
长江日报· 2025-06-13 15:23
武汉市数据标注产业发展规划 - 武汉市出台《武汉市数据标注产业发展三年行动方案(2025—2027年)》以推动产业创新融合[1] - 武汉已聚集数据标注重点企业60余家并培育行业领先数据集和标注工具平台[5] - 两个武汉项目入选全国首批数据标注优秀案例[5] 产业支持措施 - 武汉建立数据标注产业项目库和企业库包含重点企业57家重点项目37个[5] - 搭建线上供需对接平台并组织线下活动促进产业链协同[5] - 采用市区共建模式挂牌数据标注示范园区配套人才融资研发等支持[5] 技术创新与人才发展 - 重点支持文本音频视频点云动作捕捉等标注技术的自主原创和二次开发[6] - 建立数据标注产教融合培训中心计划每年认证培训不少于600名实用技能人才[6] - 鼓励企业参与国家"两新""两重""数据要素x"项目争取政策资金支持[6]
西安数据标注产业如何跑出“加速度”
西安日报· 2025-05-20 10:32
政策支持与行业概况 - 2025年西安市政府工作报告将培育数字产业经营主体列为核心工作要求 明确提出大力发展RISC-V开源芯片 数据标注 人工智能大模型等数字产业 [1] - 2023年我国数据标注市场规模达60 8亿元 同比增长19 69% 其中计算机视觉和智能语音标注占比超85% [2] - 西安具备发展数据标注的先天优势 包括高校密集的科教资源 持续开放的政务数据 以及承接东部产业转移的区位条件 [2] 西安数据标注产业现状 - 中软国际科技服务有限公司 陕西淘丁实业集团有限公司 西安金慧科技有限公司等大中型企业已在西安形成规模化服务能力 全市相关企业总量已超20家 [2] - 淘丁集团研发的"淘丁精标云"数据标注平台已形成覆盖图片 语音 文本 视频的全模态数据采集标注能力 为行业提供定制化数据解决方案 [4] - 淘丁集团与百度 字节跳动 小红书等头部平台建立深度合作 日常处理项目量级超百万 部分数据达千万级 [4] 行业转型与升级 - 数据标注行业正从劳动密集型向知识密集型服务转变 聚焦自动驾驶 智慧医疗等前沿领域 [4] - 西安市将数据标注纳入产业强市重点工程战略部署 为行业转型提供政策机遇 [4] 专家建议与发展路径 - 建议在长安大学城规划标注产业园区 依托高校资源打造产学研用闭环 形成人才优势 [5] - 构建"标准制定+场景应用+人才培养"三位一体的产业生态体系 将西安在科教资源 算力基础 应用场景等方面的优势转化为核心竞争力 [5] - 可考虑建立数据标注质量认证中心 打造涵盖自动驾驶 智能制造 智慧医疗等领域的西安特色高质量数据集 [5]