数据标注
搜索文档
时薪上千,大模型公司抢985文科生给AI当老师
吴晓波频道· 2025-12-09 08:29
文章核心观点 - 数据标注行业正经历从低端、重复性劳动向知识密集型、高端化方向的快速演变 对高质量标注数据的需求推动行业对高学历、高素质人才的争夺 但行业同时面临工作缺乏尊严、性价比低、上升空间窄及被AI替代等多重矛盾 高端人才的涌入为行业带来新视角 但也可能使AI模型忽视基层需求[4][29][33][40][44][50] 行业演变与高端化趋势 - **行业定位变化**:数据标注员是“AI的老师” 负责对原始数据进行分类标记以训练机器 2020年“人工智能训练师”被纳入国家职业分类目录[4] - **产业规模与人才缺口**:截至今年9月底 中国7个数据标注基地有企业362家 从业人员8.5万人 但未来5年专业人才缺口或达百万量级[4] - **高端化趋势兴起**:海外龙头Scale AI关闭肯尼亚等地站点 转而招聘美国本土高学历人士 其参与模型优化人员中12%拥有博士学位 超40%拥有硕士等高级学位[33] - **国内高端化驱动**:DeepSeek从2023年开始招聘“数据百晓生” 实习生日薪超500元 正职年薪可达百万 业内盛传其标注团队由北大哲学系学生组成[35][39] - **头部公司竞逐专家**:阿里搭建“晓天睿士”专家社区 行业专家级人才最高时薪可达1000元 字节跳动成立Xpert兼职众包平台 需通过专业知识测试[12] 工作内容与要求 - **工作性质**:包括给AI生成的答案打分或为AI出题并编写优质答案作为训练语料[8][11][38] - **工作难度**:标注手册理解门槛高 包含大量专业术语 打分要求繁琐严格 需根据多个维度评判 判断“幻觉”需核对参考资料 涉及专业知识需自行查证[10][11] - **时间投入**:处理一条数据平均花费15分钟 棘手任务单条可花费近一小时[8] - **招聘要求提升**:早期学历要求多为专科、高中 今年候选人本科以上学历占比超五成 垂直类岗位要求相关专业或行业经验 部分需专业笔试[14] - **竞争加剧**:目前招聘通过率约为2:1[15] 行业面临的矛盾与挑战 - **缺乏尊严与获得感**:标注员承担AI工程超60%的工作量 但在系统中不被尊重 标准常变动且只能接受甲方评判 工作采取流水线式计件管理 多数标注员不知数据用途甚至不知服务哪个大模型[21] - **性价比低**:外包标注机构兼职大学生日薪100元 每日至少完成10条 超额部分按10元/条计 专家级标注时薪约100-300元 吸引力不足 北京、上海等地要求研究生学历的标注岗位月薪仅六七千元[23][25] - **上升空间狭窄**:标注岗位多为外包 人员流动率高 能待超过一年者不多 向技术岗位发展的概率极低 绝大部分标注员停留在原岗位[26] - **被AI替代的风险**:科技公司普遍采用合成数据(如“蒸馏”技术)减少对人工标注的依赖 降低数据成本[27] 数据质量的重要性与行业前景 - **数据质量是关键**:AI行业有“Garbage In Garbage Out”之说 注释质量提高5% 可将复杂计算机视觉任务的模型准确率提高15%-20% 在算法和算力难分伯仲下 数据质量成为竞争焦点[41][42] - **高端化的商业价值**:对专家级标注员的投入推动公司增长 Scale AI 2024年营收约8.7亿美元 预计今年营收达20亿美元[34] - **提供转型路径**:数据标注成为文科生进入AI领域的“神奇过渡带” 头部公司开始组建“AI人文训练师”团队 训练AI识别仇恨言论和撰写高情商回复[46] - **潜在的新需求**:当AI在顶尖老师训练下变得像“精英” 可能忽视更基层的需求 新的机会或从这些被忽视的需求中产生[50][51]
探索跨境“来数加工”,东莞竞逐高端数据标注新赛道
21世纪经济报道· 2025-12-05 14:27
数据标注作为激活数据要素价值、衔接算法模型与产业应用的核心环节,正为大模型训练、自动驾驶等前沿领域提供核心支撑。 (原标题:探索跨境"来数加工",东莞竞逐高端数据标注新赛道) 南方财经记者程浩 东莞报道 12月2日,对于向春燕来说是一个大日子,她负责的东莞驰千数据公司正式落户东莞万江数据标注产业园(以下简称"东莞数标园")。作为百度云 的数据合作伙伴,驰千数据跟随百度云从重庆毕节来到东莞,开启粤港澳大湾区数据标注新旅程。 数据、算法和算力是构建AI系统的三大核心要素,随着AI模型训练进入下半场,行业垂直模型和智能体方兴未艾,数据标注的重要性正被重新评 估。数据标注脱离了原来从简单的人工标注,开始向高技术含量、高知识密度和高价值应用数据领域延伸,数据标注产业正从劳动密集型加速向 知识技术密集型迭代。 东莞作为科创制造强市,拥有丰富的人工智能应用场景和深厚的工业数据积淀。当前,东莞正全力推进国家人工智能应用中试基地与数据产业集 聚区建设,以"湾区数谷"为重要载体,率先布局高质量数据标注产业,对海量工业数据进行深度挖掘与价值提炼,加快形成一批行业级高质量数 据集,促进人工智能与先进制造深度融合。 工信部电子五所人工 ...
山西大同:书写推动高质量发展的“三张答卷”
人民日报· 2025-11-24 06:52
能源转型 - 原煤年产量稳定在1.5亿吨以上,2021至2024年累计生产原煤6.4亿吨,其中以长协价保供电煤4.3亿吨 [2] - 全市已建成14座智能化煤矿,先进产能占比超85%,9家燃煤电厂完成超低排放改造 [2] - 新能源和可再生能源装机容量突破1000万千瓦,占比超过56%,稳居山西省第一方阵 [3] - 产业链拓展包括活性炭精深加工、千万吨级煤矸石综合利用项目、底部换电重卡下线、独立储能项目商业化运营及抽水蓄能电站建设 [3] 算力产业 - 国家级数据标注基地建设已形成7个行业316个高质量数据集,引育企业69家,数据标注从业人员3万余人,引进本科以上人才1055人,带动相关产业产值7.5亿元 [5] - 全市算力全产业链累计投资超700亿元,投运服务器达74.5万台 [5] - 今年1至9月算力中心用电量达43.8亿千瓦时,超过2024年全年水平,预计全年用电量将突破60亿千瓦时,城市算力分指数连续两年稳居全国前三 [5] - 数据局汇聚31个部门的业务系统数据,覆盖城管、文旅等领域,包含1543张数据表、69.73亿条数据,并于2025年8月入选国家数据基础设施建设先行先试名单 [6] 文化发展 - 今年国庆中秋期间,全市重点监测的8家景区累计接待游客152万人次 [7] - 节日期间推出系列文化活动,包括8000架无人机展演、大型交响音乐会、器乐演奏、魔术变脸、国潮展示等 [8] - 文化底蕴源于2000多年建城史,拥有云冈石窟、悬空寺、长城等世界级文化遗产 [8]
东北三省共建数据标注产业集群
辽宁日报· 2025-11-23 08:48
产业战略规划 - 辽宁、吉林、黑龙江三省将共建具备全球竞争力的数据标注产业集群,并谋划组建东北数据标注解决方案联合体 [1] - 东北地区将以专业化、智能化、国际化为导向,通过政府引导、企业主体、市场运作的协同共建模式,构建区域性产业集群体系 [2] - 联合体将整合各地资源和优势,为全国客户提供全栈式、高价值的解决方案,并联合开拓应用场景 [2] 产业发展现状 - 沈阳市作为国家级数据标注基地之一,已标注数据总量超过8323TB,形成134个高质量数据集,应用于76个大模型 [1] - 沈阳市参与制定国家标准2项、行业标准4项,引育数据标注企业65家,从业人员达1.18万余人,产业规模约25.9亿元 [1] - 产业加快数据要素价值释放,已交易数据集28个,交易金额达1.02亿元 [1] 应用与生态建设 - 数据标注被定义为人工智能训练过程中的关键环节,是将数据“原油”炼成“汽油”的关键工艺 [1] - 联合体将“打包”东北的工业、农业、文旅等全域产业升级需求,为区域内标注企业提供试验田和首用地 [2] - 目标是建设覆盖东北亚的数据标注产业,形成专业化分工协作、互联互通的产业生态 [2]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 16:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]
3位00后,估值700亿
36氪· 2025-10-28 20:09
公司融资与估值 - 公司完成2.5亿美元(约合人民币18亿元)新融资,估值达到100亿美元(约合人民币710亿元),是其今年2月20亿美元估值的5倍 [1] - 公司成立于2023年,至今合计融资额达3.5亿美元(约合人民币25亿元) [1] - 新融资由风投公司Felicis领投,Benchmark、General Catalyst和Robinhood Ventures等风投公司参投 [3] 业务发展与财务表现 - 公司核心业务为AI招聘,通过AI筛选简历并为候选人快速匹配岗位,后基于庞大人才网络拓展至数据标注和大模型评估业务 [3][8] - 公司17个月营收运行率从1美元增长至5亿美元(约合人民币36亿元) [1] - 截至今年2月,公司年度经常性收入已达到7000万美元(约合人民币4.97亿元) [3] - 公司管理的专家总数达30000名,所有专家的日薪总计超过150万美元(约合人民币1065万元) [3][9] 创始团队与公司背景 - 公司由三位00后创始人于2023年大二辍学后创立,他们分别是CTO Adarsh Hiremath(哈佛大学计算机科学专业)、CEO Brendan Foody和COO Surya Midha(均来自乔治城大学,分别为经济学和外交专业) [1][4] - CEO Brendan Foody在2021年曾创立云基础设施公司Serosin,成功将高性能计算机使用成本降低90% [4] 技术平台与运营模式 - 企业客户通过自然语言描述岗位需求,公司AI工具可在几秒内对数十万份简历、作品集、社交平台及代码库进行深度语义搜索以匹配最佳候选人 [5] - 公司首创AI生产力指数(APEX),用于评估AI模型执行具有经济价值知识工作的能力,涵盖投资银行、法律、咨询和医疗四个专业领域 [10] - APEX v1.0包含200个案例,由约100名顶级专家团队构建,专业人员完成其中任务平均需要3.5小时 [10][11] 市场竞争与行业动态 - 竞争对手Scale AI被Meta以140亿美元收购49%股份后,其部分客户和员工转向公司,促使公司收入翻倍 [14] - Scale AI已起诉公司涉嫌窃取商业机密,案件目前尚无定论 [14] - OpenAI发布的医疗大模型测试评估集HealthBench采用了公司的APEX体系,GPT-5在该评估中获得64.2%的最高分 [11]
泰安打造全流程数据标注生态圈
大众日报· 2025-10-27 11:26
小红书平台内容生态 - 平台内容从美妆时尚、旅游美食等泛生活分享扩展至二次元、游戏、娱乐等多元兴趣领域,成为年轻人的"线上兴趣班" [1] - 内容的呈现与分发依赖精准的数据审核与标注 [1] 数据标注行业与技术 - 数据标注是为原始数据(如图像、文本、音频、视频)打上有意义的标签,使机器学习模型能够学习 [1] - 山东菲利信数字科技有限公司自主研发采标一体化数据标注平台,界面简洁、操作便捷,支持图像、文本、语音及内容审核等多种业务类型 [1] - 公司通过该平台高效管理项目、标注员与质检流程,并与腾讯、阿里等巨头合作 [1] 泰安市数据标注产业格局 - 产业形成良好基础:一家头部企业引领、两大标注集群并进、一条完整产业链初具规模 [2] - 泰盈科技作为数字中后台运营服务行业领头羊,依托行业资源迅速打开数据标注市场 [2] - 百度智能云(泰山)人工智能基础数据产业基地与菲利信(泰山)数字经济产业基地构成两大集群 [2] - 已集聚30余家数据标注企业,形成从上游数据采集与治理,中游数据标注与加工,到下游人工智能训练与应用的全流程产业链 [2]
大连数字和软件服务交易会启幕
辽宁日报· 2025-10-25 08:59
行业活动概览 - 2025大连数字和软件服务交易会于10月24日启幕 主题为“数智赋能产业 创新引领未来” [1] - 交易会重点围绕人工智能 数据标注 工业互联网 车联网 低空经济 跨境电商六个前沿赛道开展分项活动 [1] - 交易会期间有8个数字经济重点合作项目签约 涵盖数字技术研发 软件创新应用 产业生态构建等多个核心领域 [1] 产业生态规划 - 大连高新区发布数据标注 人工智能 工业互联网 车联网等九大产业园生态规划 [1] - 大连市数据标注产业园揭牌并正式开园 集公共服务平台 人才培训中心 企业办公空间等功能于一体 [1] - 数据标注产业园专注于智能驾驶 医疗健康 具身智能 海洋经济 金融监管等领域 [1] 产业发展目标 - 数据标注产业园预计到2027年形成近万人规模的区域性数据服务枢纽 [1] - 目标是将该产业园打造成为国内最具影响力的数据标注产业基地之一 [1] 项目落地机制 - 交易会配套组织多项产业对接考察活动 围绕落地场景深入对接 [1] - 建立项目落地跟踪机制 以确保合作意向转化为实际成果 放大数交会长期效应 [1]
在美国,有多少硕博被当做鉴黄师?
虎嗅APP· 2025-10-19 21:20
AI行业劳动力现状 - AI行业资本投入巨大,出现一亿美金挖人才的现象[5] - 普通用户在不知情下成为AI训练免费劳动力,例如通过短视频反馈和人机验证为算法提供数据[8][9] - AI评估员和数据标注员构成行业重要但被忽视的劳动力群体[13] AI数据标注工作内容与要求演变 - 早期视觉模型数据标注是纯体力活,如图片拉框打点,计件付费且规则苛刻,框一个文本0.03元,日入150需框5000条[16] - 大语言模型评估需判断力、审美和领域知识,工作内容包括评估答案准确性、文学风格和伦理合规性[19] - 岗位要求显著提高,需硕士、博士或专业领域背景人员,如作家、教师、物理学博士[20][21] - 国内标注岗位要求本科学历,部分需985/211背景或特定专业知识[26] AI劳动力薪酬与待遇问题 - Google AI评估员时薪16~21美元,月薪约3000美元,低于美国联邦救济金水平[22] - Google AI工程师年薪10万美元起,远高于评估员薪酬[23] - 国内AI数据标注岗位薪资约7k~10k人民币,但职业发展受限,知识被一次性榨干[28][29] - 外包员工工作不稳定,项目结束即失业,绩效与正确率挂钩(低于90%取消绩效),工资可能拖欠[32][33] 外包模式与全球劳动力压榨 - 大厂通过外包满足数据标注需求,形成金字塔结构,顶层为算法天才,底层为高学历小时工[29] - 外包链条长,甲方包给乙方后层层转包至二包、三包,下游工作室为利润压缩规范[31] - 肯尼亚工人以低于2美元时薪标注暴力、色情内容,导致心理创伤[37] - 亚马逊无人超市依赖印度员工手动确认摄像头数据,多伦多送餐机器人由菲律宾工人远程操控[37] 行业价值观与劳动力尊重 - 硅谷存在技术至上、文科无用观念,轻视人文领域劳动价值[25] - AI发展依赖非计算机知识(如文学、哲学)确保模型伦理和品质,但相关劳动者未被充分重视[25] - 行业需尊重知识和劳动,避免高科技成为压榨工具,否则AI难以实现解放人类生产力的目标[39]
在美国,有多少硕博被当做鉴黄师?
虎嗅· 2025-10-19 18:55
AI行业人才投入与薪酬结构 - 资本圈投入巨大资金挖掘AI人才,金额可达一亿美金[1] - AI工程师在Google总部年薪可达10万美元以上,属于高薪岗位[25] - 与高薪技术岗位形成鲜明对比的是,AI评估员时薪仅为16-21美元,月薪约3000美元[23] AI数据标注与评估工作内容演变 - 早期视觉模型数据标注为纯体力劳动,如图片拉框打点,单文本框报酬0.03元人民币[15][16] - 大语言模型评估工作需判断答案准确性、资料引用准确性、语气专业性及文学创作质量,要求评估师具备判断力、审美和领域知识[20] - 数据标注工作存在严格规则,如车辆类型精准区分、标注误差不超过3像素,返工现象普遍[17] AI人力资源构成与资质要求 - Google承包商招募的AI评估员包括经验丰富的作家、硕士学历教师和物理学博士[22] - 国内数据标注岗位要求从大专提升至本科,部分岗位明确要求985/211院校及特定领域专业知识[32] - 具有211本985硕背景的应届生从事数据标注工作,薪资范围在7千至1万元人民币[34] 外包模式与劳动力管理现状 - 大厂通过外包满足数据标注大量、紧急的需求,避免组建正式团队的高成本[35] - 项目存在多层转包现象,从甲方到乙方再到二包、三包甚至四包[38] - 外包公司管理不规范,存在项目突然终止、加班无补偿、绩效与正确率挂钩(低于90%取消绩效)等问题[39][40] 全球AI产业链底层劳动者状况 - 肯尼亚工人以低于2美元时薪处理暴力、色情等有害内容,导致严重心理创伤[45] - 亚马逊无人超市Amazon Go依赖1000多名印度员工手动确认摄像头画面[46] - 多伦多送餐机器人由菲律宾工人在夜间远程操控,体现人类劳动力替代智能技术的成本优势[47] AI产业发展模式与社会影响 - 当前AI产业形成金字塔结构,顶层为少数算法天才,底层为大量高学历数据标注员[36] - 全球AI产业存在路径依赖,通过层层转包和劳动力压榨维持运转[43] - 科技公司更倾向于低成本使用人类执行标准化任务,而非开发完全自主的智能系统[47]