数据标注
搜索文档
发展数据标注技术,把数据“原油”炼成“汽油”
人民日报· 2025-10-15 14:46
行业政策与规划 - 国务院提出支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业[1] - 国家发展改革委等部门提出到2027年数据标注产业年均复合增长率超过20%[2] - 国家数据局已指导7个城市建设数据标注基地,截至今年上半年带动相关产值超过83亿元[2] 产业定义与重要性 - 数据标注是通过给文本、语音、图片、视频等数据打标签,将人类知识转化为计算机语言的关键工艺[1] - 数据标注是人工智能高质量数据集建设的关键环节,能有效提升垂类大模型的专业领域性能[1] - 高质量数据可加速人工智能赋能千行百业,如在分子药物研发和工业质检场景中标记关键信息[2] 市场需求与增长 - 在人工智能大模型和政策驱动下,数据标注需求爆发式增长[2] - 有企业过去一年承接了2000多项数据标注项目需求,预计今年业务量将增长超过30%[2] - 数据标注产业已初步形成覆盖上游数据提供方、中游平台公司、下游服务商的产业链闭环[3] 技术与发展趋势 - 智能化标注技术不断突破,人机协同标注模式日益成熟,通过人工智能预标注提高效率和准确性[3] - 数据标注产业从劳动密集型转变为知识密集型,对从业者专业要求越来越高[3] - 被标注数据从文本、图像等单模态向多模态转变,领域从通识扩展到医疗、工业制造等专识领域[3] 当前阶段与未来方向 - 数据标注产业还处于初期阶段,需要各方群策群力共同培育产业生态[4] - 各地需加强政策落实和引导,搭建常态化供需对接服务平台[4] - 应用企业需以实际需求驱动数据标注能力体系建设,与标注企业共同开展工具研发和流程优化[4]
发展数据标注技术,把数据“原油”炼成“汽油”(新视点)
人民日报· 2025-10-15 06:12
行业政策与规划 - 国务院于2024年8月印发《关于深入实施"人工智能+"行动的意见》,明确提出支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业[1] - 国家发展改革委、国家数据局等部门于2024年12月印发《关于促进数据标注产业高质量发展的实施意见》,提出到2027年产业规模大幅跃升,年均复合增长率超过20%[2] - 国家数据局已指导安徽合肥、四川成都等7个城市建设数据标注基地,截至2025年上半年,基地建设数据集524个,服务大模型163个,带动相关产值超过83亿元[2] 行业定义与重要性 - 数据标注是对文本、语音、图片、视频等数据打标签,通过特征提取、分类、注释、标签化等操作,将人类知识转化为计算机可识别语言[1] - 数据标注被誉为将数据"原油"炼成"汽油"的关键工艺,可为数据注入新价值,是人工智能高质量数据集建设的关键环节[1] - 经过标注的高质量数据能有效提升垂类大模型的专业领域性能,加速人工智能赋能千行百业[1] 市场需求与增长 - 在人工智能大模型和相关政策驱动下,数据标注需求呈现爆发式增长[2] - 标贝科技在过去一年承接了2000多项数据标注项目需求,预计2025年业务量将增长超过30%[2] - 数据标注应用场景广泛,包括分子和药物智能研发中对原子、电荷等关键信息标记,以及工业质检中对产品缺陷尺寸、位置、类型等信息标记[2] 产业链与产业生态 - 数据标注产业链覆盖上游数据提供方、中游平台公司、下游服务商,中国已初步形成产业链闭环[3] - 产业集聚带动作用日益凸显,各地加速培育数据标注产业[3] - 产业处于初期阶段,需要加强政策落实和引导,搭建常态化供需对接服务平台,推动行业标准规范建设[4] 技术与发展趋势 - 技术迭代趋势明显,智能化标注技术不断突破,人机协同标注模式日益成熟,通过人工智能预标注数据,标注员承担关键决策角色以纠正模型错误[3] - 要求提升趋势显著,高质量数据集评判标准更复杂,产业从劳动密集型转变为知识密集型,对从业者专业要求越来越高[3] - 对象拓展趋势持续,被标注数据从文本、图像等单模态向多模态转变,领域从通识扩展到医疗、工业制造等专识领域[3]
19岁,她融资1.2亿
36氪· 2025-10-12 15:58
公司概况 - Serena Ge是一位19岁的华人00后,从滑铁卢大学计算机专业辍学创业,是AI数据公司Datacurve的联合创始人兼CEO [2][3] - 公司成立仅一年,累计融资额达1770万美元(约合人民币1.26亿元) [2][8] - 团队规模约10人,目前仍在招聘中 [5] 创业背景与契机 - 创始人高中时期曾开发攀岩App和青少年效率网页应用,具备早期创业经验 [3] - 在AI独角兽Cohere实习期间发现高质量专家级标注数据的市场缺口,成为创业直接动因 [3] - 2024年因AI智能体项目UncleGPT获得Y Combinator孵化器邀请后选择辍学创业 [3] 商业模式与核心优势 - 公司定位为AI大模型提供高质量的代码数据,破解"缺乏丰富、精心挑选的高质量标注数据"的行业瓶颈 [4] - 采用"赏金猎人"系统Shipd平台,吸引超过1400名程序员通过完成算法、测试等任务挑战获取5-50美元/任务的报酬,已发放赏金超100万美元 [4] - 核心竞争力在于通过游戏化平台提升用户体验和数据标记精准度,而非单纯依赖金钱激励 [4] - 成立两个月即实现收入超过100万美元,客户覆盖超一半基础模型实验室及Facebook、苹果、亚马逊、谷歌等科技巨头 [5] 融资进展 - 近期完成1500万美元A轮融资,由Chemistry VC领投,Y Combinator、Afore Capital、Homebrew等机构及DeepMind、OpenAI、Anthropic等公司投资人参与 [7] - 早期完成270万美元种子轮融资,投资方包括Y Combinator、Pioneer Fund及Coinbase前CTO Balaji Srinivasan [7] - Chemistry VC合伙人评价其为"投资过增长最快的初创公司之一",并在融资后签署公司史上最大合同 [7] 行业定位与竞争格局 - 公司被类比为AI数据领域的"卖铲人",专注于AI三大基石(数据、算法、算力)中的数据环节 [9] - 主要竞争对手包括Scale AI(Meta斥资约150亿美元入股后估值超290亿美元)和Surge AI(正进行10亿美元首轮融资,估值约240亿美元) [10] - 行业存在"有多少人工就有多少智能"的特点,数据标注公司因提供模型训练必需的"干净"数据而具有不可替代性 [8] 00后AI创业潮现象 - 同类00后创业案例频现:Axiom Math完成6400万美元融资(投后估值3亿美元)[11]、Sola Solutions获2100万美元融资[11]、Mercor寻求约百亿美元估值[12] - 国内清华00后创立的机器人公司零次方完成亿元级融资,灵初智能、UniX AI、重隼科技等年轻创始人不断涌现 [13] - 行业观点认为AI降低了创业门槛,00后创业者具备"没有包袱,学习快,动手更快"的独特优势 [14]
19岁,她融资1.2亿
投资界· 2025-10-12 15:42
文章核心观点 - 一场属于00后的AI创业潮正在全球范围内兴起,年轻创业者正以惊人的速度重塑AI未来 [4][13][16] DataCurve公司概况 - 公司由19岁的华人女孩Serena Ge联合创立,成立仅一年已累计融资1770万美元(约合人民币1.26亿元)[4][6][11] - 公司致力于创建高质量的代码数据,为AI大模型提供支持,定位为AI数据领域的“卖铲人” [5][11] - 公司团队规模约10人,成立两个月时收入就超过100万美元 [8] DataCurve商业模式 - 公司通过“赏金猎人”系统Shipd吸引熟练软件工程师完成高难度数据获取任务,平台已有超过1400名程序员 [7] - 每解决一个任务用户可获得5到50美元费用,公司已发放超过100万美元赏金 [7] - 与依赖庞大外包团队的Scale AI不同,公司核心竞争力在于提供良好用户体验,吸引高质量程序员参与 [7][8] - 客户包括超过一半的基础模型实验室以及Facebook、苹果、亚马逊、谷歌等公司 [8] DataCurve融资历程 - 公司完成1500万美元A轮融资,由Chemistry VC领投,Y Combinator、Afore Capital、Homebrew等机构参与 [10] - 更早之前完成270万美元种子轮融资,Y Combinator、Afore Capital、Pioneer Fund等机构支持,Coinbase前CTO参与投资 [11] - 投资人评价其为“投资过增长最快的初创公司之一” [10] AI数据标注行业格局 - 行业存在著名梗:“有多少人工就有多少智能”,数据标注公司被称为“赛博富士康” [11] - 数据、算法和算力是AI三大基石,数据标注公司是数据的“卖铲人” [11] - 竞争对手Scale AI在Meta斥资约150亿美元入股后,估值超过290亿美元 [12] - 华裔Edwin Chen创办的Surge AI正在进行10亿美元首轮融资,估值约240亿美元(约合1712亿元人民币) [12] 其他00后AI创业案例 - Axiom Math完成6400万美元(约合人民币4.6亿元)首轮融资,投后估值3亿美元(约合人民币20亿元),创始人为00后洪乐潼 [14] - Sola Solutions由两位麻省理工00后创立,总计融资2100万美元(约合人民币1.5亿元) [15] - AI标注公司Mercor由三位00后从哈佛及乔治敦大学退学创立,B轮后估值约为20亿美元,正寻求约百亿美元估值 [15] - 国内三个来自清华的00后创立机器人公司零次方,完成天使轮亿元级融资 [15]
37岁1200亿,他登顶今年最年轻富豪
华尔街见闻· 2025-09-29 19:12
Surge AI公司概况 - 公司正进行10亿美元首轮融资 对应估值约240亿美元(约1712亿元人民币)[4] - 公司成立五年未对外融资 但实现年营收超10亿美元[4][7] - 公司创始人Edwin Chen持有75%股份 身家达180亿美元(约1281亿元) 首次入选福布斯美国最年轻亿万富豪[5][12] 业务模式与市场地位 - 主营业务为AI数据标注服务 被比喻为"卖铲子"的刚性需求[7][11] - 客户涵盖OpenAI、Anthropic、谷歌、微软、Meta等全球AI巨头[15] - Meta生成式AI部门去年在公司全流程标注服务上支出超1.5亿美元[15] 创始人背景与创业历程 - 创始人Edwin Chen为85后华裔 毕业于麻省理工学院 曾任职于对冲基金、谷歌、Facebook等机构[4][13] - 创业灵感源于大厂项目外包数据标注质量差 发现行业痛点[13] - 产品上线12个月内实现八位数营收 并抓住大语言模型兴起的风口[14] 行业竞争格局 - 主要竞争对手Scale AI获Meta约150亿美元入股 估值超290亿美元[8] - 竞争对手Scale AI已离职创始人Lucy Guo凭借5%股份成为最年轻白手起家女亿万富豪[8] - 数据标注行业被视为AI基础设施 无论技术如何演进都离不开高质量数据[10][11] AI行业投融资动态 - AI搜索引擎Perplexity获2亿美元融资承诺 估值达200亿美元(约1425亿元)[16] - 法国初创公司Mistral AI即将完成20亿欧元融资 估值达120亿欧元(约1000亿元)[16] - Mistral AI成立一个月凭借7页PPT融资1亿美元 刷新欧洲种子轮纪录[16][17] 二级市场表现 - 英伟达、甲骨文股价创历史新高 A股寒武纪市值突破6000亿元 超越贵州茅台成新任"股王"[17] - A股算力三巨头"易中天"(新易盛、中际旭创、天孚通信)股价五个月内均实现翻倍[18] - 海光信息股价较三年前发行价涨超7倍 与寒武纪、工业富联组成"纪连海"概念[17]
他,37岁华裔,靠AI成为福布斯400最年轻亿万富翁,身价180亿美金
36氪· 2025-09-22 17:35
公司概况 - 公司为AI数据标注与训练公司Surge AI,由前谷歌、脸书和推特数据科学家Edwin Chen于2020年创立 [14][22][39] - 公司采用自筹资金模式,创始人利用在科技公司工作积累的几百万美元储蓄进行创业,拒绝传统风险投资 [22][23][29] - 公司成立不到五年,2024年营收已超过12亿美元,且自创立首日即实现盈利 [27][28] - 公司当前估值约240亿美元,并正以300亿美元估值进行10亿美元的融资谈判 [28][29] 商业模式与市场地位 - 公司按收入计算是该行业最大的企业,客户涵盖谷歌、Meta、微软以及AI实验室Anthropic和Mistral [27][34] - 公司收费比竞争对手高出50%至十倍,通过直接向科技公司数据科学家推广获客,谷歌与其签订了年额超1亿美元的合同 [46][49] - 公司员工仅250名,包括全职、兼职和顾问,其竞争对手Scale AI的员工数量是其四倍但收入更少 [26][27] - 公司采用独特的人机协同数据标注模式,由AI生成并标注数据,再由人类评估表现 [55] 技术与运营特点 - 公司数据标注模式不同于传统方式,雇佣包括斯坦福、普林斯顿和哈佛教授在内的专业人士,以及全球50多个国家的超百万名零工工作者 [19][30][33] - 标注员任务包括诱导聊天机器人输出错误回复、比较不同AI回复优劣并撰写解释,旨在编码“人性的丰富性” [19][33] - 公司将质量控制和技术专长作为秘密武器,通过隐藏测试、人工审核和对抗性机器学习算法密切监控标注员表现 [53] - 公司放弃传统销售营销,初期通过创始人广受欢迎的数据科学博客进行沟通和获客 [43][45] 行业背景与创始人 - 创始人Edwin Chen持有公司75%股份,估值约180亿美元,使其以37岁年龄成为《福布斯400》榜单最年轻的亿万富翁 [2][29] - 创始人背景为数学怪才,对语言与数学的关联着迷,拥有麻省理工学院数学背景,并在推特、谷歌和脸书担任过数据科学职位 [35][36][39] - AI数据标注行业存在被AI技术替代的根本性问题,例如Meta的Llama4模型已大量依赖AI自主生成和标注的合成数据 [54] - 公司坚信人类在AI训练中不可或缺,认为人机协同的成就远超任何单方独立成果 [56]
数据标注赛道热度不减!Invisible完成1亿美元融资 估值超20亿美元
智通财经· 2025-09-17 13:25
公司融资与估值 - 人工智能初创公司Invisible Technologies在新一轮融资中筹集1亿美元,估值超过20亿美元 [1] - 本轮融资由Vanara Capital领投,这是该公司自8月从TPG Inc分拆以来的首次公开投资 [1] - 公司2024年销售额达到1.34亿美元,比前一年翻了一番 [2] 公司业务与市场定位 - 公司是数据标注企业,其技术曾帮助训练OpenAI最初的ChatGPT [1] - 公司努力在更复杂的领域提供标注服务以区别于竞争对手,提供所谓的专家市场,让AI公司选择具有相关背景(如数学或天体物理学高等学位)的数据标注员 [2] - 除了数据标注服务,公司还提供用于微调模型和测量模型可用数据广度的工具,并拥有面向食品饮料、保险、资产管理等行业的企业业务 [3] - 公司客户包括Cohere Inc、微软和亚马逊云服务 [2] 行业竞争格局 - 公司是Scale AI Inc的竞争对手,数据标注实践在6月因Meta收购Scale 49%股份而获得主流认可,提振了投资者对竞争对手的兴趣 [1] - 在数据标注的核心业务方面,公司面临激烈竞争,除了Scale,Surge AI也在洽谈以至少250亿美元的估值融资10亿美元,其他潜在竞争对手包括Turing、Labelbox Inc和Mercor [3] - 公司的优势被投资者认为是其标注和注释员网络所拥有的专业知识,以及在交付高复杂性、高难度工作产品方面的能力 [2][3] 公司管理与运营 - 公司今年1月任命麦肯锡人工智能软件开发团队前负责人Matthew Fitzpatrick为首席执行官 [2] - 公司现有350名员工,今年工程师队伍规模扩大了一倍 [2] - Vanara的联合创始人兼管理合伙人Hayden Lekacz将加入Invisible董事会 [2]
速递|数据标注战场升温:前麦肯锡高管掌舵Invisible Technologies获1亿美元融资,估值突破20亿美元
Z Potentials· 2025-09-17 11:34
融资与估值 - 人工智能初创公司Invisible Technologies在新一轮融资中筹集1亿美元资金 [1] - 此轮融资由Vanara Capital领投 是Vanara自2022年8月从TPG Inc分拆后首次公开披露的投资项目 [1] - 公司在此次交易中的估值超过20亿美元 [1] 业务定位与竞争优势 - 公司作为Scale AI的竞争对手 专注于数据标注领域 为AI模型的海量信息进行整理归类 [1] - 通过提供更复杂领域的标注服务与竞争对手形成差异化 推出"专家市场"让AI公司筛选具有相关背景的数据标注员(如拥有数学或天体物理学高等学位的人才) [3] - 核心优势在于与客户建立紧密且专业的合作关系 擅长与大型语言模型合作伙伴开展深思熟虑的研究设计协作 [6] - Vanara Capital看重Invisible标注员和注释员网络所具备的专业素养 认为公司在交付高复杂度、高难度工作成果方面表现突出 [3] 财务与运营表现 - 2024年公司销售额达1.34亿美元 较上年翻倍 [5] - 公司目前拥有350名员工 工程团队规模在2024年翻了一番 [4] 客户与产品线 - 客户包括Cohere Inc、微软和亚马逊云服务 [5] - 除数据标注服务外 还提供模型微调工具、模型数据广度测量工具、供应链管理工具以及为联络中心客服人员生成话术脚本的产品 [5] - 设有面向食品饮料、保险、资产管理和医疗保健等行业的企业业务 目前正在开发客户关系管理软件 [5] 行业背景与竞争格局 - 数据标注行业在2024年6月获得主流关注 当时Meta收购了Scale公司49%的股份 使Scale估值超过290亿美元 [3] - 除Scale外 竞争对手包括Surge AI(正洽谈以至少250亿美元估值融资10亿美元)、Turing、Labelbox Inc和Mercor [5] - 行业竞争日益激烈 但企业愈发期望看到AI工具投资带来的实际效益 提升商业盈利的实战能力变得更为关键 [6] 公司发展历程与战略方向 - 公司成立10年 其技术为OpenAI初代ChatGPT的训练提供了支持 [1] - 2025年1月任命麦肯锡AI软件开发部门前负责人马修·菲茨帕特里克担任CEO [4] - 公司坚信未来十年的机遇在于让AI真正落地见效 目前业界对如何部署模型、进行测试验证仍缺乏清晰认知 [6]
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-16 07:33
文章核心观点 - 文章主要介绍蚂蚁集团大模型数据认知方向的职位招聘信息,详细阐述了该职位的职责范围、技术方向以及对候选人的要求 [1][2][3] - 同时文章推广“大模型之心Tech”知识星球,旨在打造一个万人规模的大模型技术交流社区,提供科研、应用、求职等综合性服务 [9][10][11] 职位职责与技术方向 - 负责设计和开发先进算法,解决大模型数据生产中的关键问题,直接影响蚂蚁大模型的训练效果和性能表现 [1] - 工作涉及数据知识体系生成,研究基于LLM的自动知识图谱生成技术,构建高效、可扩展的大模型数据知识体系 [1] - 涵盖语料自动分类,基于数据知识体系研究和开发语料分类算法,指导大模型数据的拓展方向 [1] - 包括权威评测集建设,研究业界现有评测集缺陷,构建标准化、多样化评测集以评估大模型性能 [1][5] - 涉及语料质量评估与合成,建立数据驱动体系,开发质量评估算法识别噪声数据,并研究数据驱动的语料合成技术以提升模型迭代效率 [1][5] - 包含智能标注链路研发,基于标注需求研发辅助打标算法,设计AI辅助的标注质量检验与提效算法链路 [1][5] - 要求技术创新与优化,持续跟踪学术界和工业界最新研究成果,探索前沿技术应用并提出创新解决方案 [1][5] 候选人要求与优先条件 - 职位要求计算机科学、人工智能、深度学习或相关领域的硕士及以上学历 [2][6] - 候选人需熟练掌握PyTorch、TensorFlow等深度学习框架,理解大模型训练数据需求并熟悉模型数据链路 [2][6] - 要求具备优秀的定义、分析、解决问题能力,自我驱动,并拥有较强的学习、创新应用和沟通协调能力 [2][6] - 优先考虑拥有大模型数据体系设计、语料分类、评测集建设、数据标注算法等相关项目实践经验的候选人 [3][6] - 优先考虑有大模型、智能体、强化学习、数据标注算法等相关技术领域工作经验的候选人 [4][6] - 优先考虑在计算机视觉、自然语言处理、人工智能相关领域顶级会议有论文发表,或在相关算法竞赛中获得top排名的候选人 [4][6] 知识星球社区服务 - 社区宗旨为打造一个万人聚集的国内外前沿大模型技术交流学习社区 [10] - 提供科研、应用、求职、问答、课程、行业动态六位一体的综合性服务 [10] - 社区聚焦于学术界和大模型应用第一线,涵盖RAG、Agent、大模型微调、部署等技术方向 [10][11][12] - 分享内容包含时效性三天内的最新前沿技术文章、顶会顶刊一手信息 [11] - 提供独家招聘信息,包括实习、校招、社招、转行、跳槽等一手内部资源 [11] - 社区嘉宾包括行业知名算法专家、学术界大佬、大模型行业高管及算法负责人、国内外高校教授 [11]
马斯克深夜挥刀,Grok幕后员工1/3失业,谷歌AI靠人肉堆起,血汗工厂曝光
36氪· 2025-09-15 07:42
行业运营模式 - AI行业高度依赖数据标注员的人工劳动来训练大模型,这些员工被视为不可或缺但又可被替代的中间层[10] - 数据标注是训练如xAI的Grok、谷歌的Gemini等大模型迭代的关键基石[2] 公司战略调整 - xAI进行大规模战略转型,裁减约500名通用数据标注员,占团队总人数三分之一[1][3] - 公司计划将标注团队从1500人缩减至1000人,并重点招募10倍规模的“专家导师”团队以取代通用标注员[1][6] - 裁员执行迅速,员工被立即切断系统权限,仅能获得合同期末或11月底的工资[7] 劳工状况 - 谷歌的数据标注员被迫处理大量涉及暴力、色情、种族歧视的负面内容,导致工人出现焦虑和失眠[9][15] - 工作压力巨大,任务处理时间从每个30分钟被压缩至15分钟甚至更少,每天需处理数百条回答[9] - 美国“AI评估员”的起薪为每小时16美元,远低于硅谷工程师水平[9] 质量与安全隐忧 - 为追求发展速度,AI企业可能牺牲安全承诺,一旦安全措施威胁到利润,相关承诺便会崩塌[16] - 谷歌曾修改规则,允许模型复述用户输入的仇恨或色情语言,只要非AI主动生成即不违规[15] - 数据标注员因被迫处理不熟悉领域的问题,开始对大模型输出质量产生担忧,例如谷歌AI曾给出“吃石头”等危险建议[9][14]