时薪上千,大模型公司抢985文科生给AI当老师
吴晓波频道·2025-12-09 08:29

文章核心观点 - 数据标注行业正经历从低端、重复性劳动向知识密集型、高端化方向的快速演变 对高质量标注数据的需求推动行业对高学历、高素质人才的争夺 但行业同时面临工作缺乏尊严、性价比低、上升空间窄及被AI替代等多重矛盾 高端人才的涌入为行业带来新视角 但也可能使AI模型忽视基层需求[4][29][33][40][44][50] 行业演变与高端化趋势 - 行业定位变化:数据标注员是“AI的老师” 负责对原始数据进行分类标记以训练机器 2020年“人工智能训练师”被纳入国家职业分类目录[4] - 产业规模与人才缺口:截至今年9月底 中国7个数据标注基地有企业362家 从业人员8.5万人 但未来5年专业人才缺口或达百万量级[4] - 高端化趋势兴起:海外龙头Scale AI关闭肯尼亚等地站点 转而招聘美国本土高学历人士 其参与模型优化人员中12%拥有博士学位 超40%拥有硕士等高级学位[33] - 国内高端化驱动:DeepSeek从2023年开始招聘“数据百晓生” 实习生日薪超500元 正职年薪可达百万 业内盛传其标注团队由北大哲学系学生组成[35][39] - 头部公司竞逐专家:阿里搭建“晓天睿士”专家社区 行业专家级人才最高时薪可达1000元 字节跳动成立Xpert兼职众包平台 需通过专业知识测试[12] 工作内容与要求 - 工作性质:包括给AI生成的答案打分或为AI出题并编写优质答案作为训练语料[8][11][38] - 工作难度:标注手册理解门槛高 包含大量专业术语 打分要求繁琐严格 需根据多个维度评判 判断“幻觉”需核对参考资料 涉及专业知识需自行查证[10][11] - 时间投入:处理一条数据平均花费15分钟 棘手任务单条可花费近一小时[8] - 招聘要求提升:早期学历要求多为专科、高中 今年候选人本科以上学历占比超五成 垂直类岗位要求相关专业或行业经验 部分需专业笔试[14] - 竞争加剧:目前招聘通过率约为2:1[15] 行业面临的矛盾与挑战 - 缺乏尊严与获得感:标注员承担AI工程超60%的工作量 但在系统中不被尊重 标准常变动且只能接受甲方评判 工作采取流水线式计件管理 多数标注员不知数据用途甚至不知服务哪个大模型[21] - 性价比低:外包标注机构兼职大学生日薪100元 每日至少完成10条 超额部分按10元/条计 专家级标注时薪约100-300元 吸引力不足 北京、上海等地要求研究生学历的标注岗位月薪仅六七千元[23][25] - 上升空间狭窄:标注岗位多为外包 人员流动率高 能待超过一年者不多 向技术岗位发展的概率极低 绝大部分标注员停留在原岗位[26] - 被AI替代的风险:科技公司普遍采用合成数据(如“蒸馏”技术)减少对人工标注的依赖 降低数据成本[27] 数据质量的重要性与行业前景 - 数据质量是关键:AI行业有“Garbage In Garbage Out”之说 注释质量提高5% 可将复杂计算机视觉任务的模型准确率提高15%-20% 在算法和算力难分伯仲下 数据质量成为竞争焦点[41][42] - 高端化的商业价值:对专家级标注员的投入推动公司增长 Scale AI 2024年营收约8.7亿美元 预计今年营收达20亿美元[34] - 提供转型路径:数据标注成为文科生进入AI领域的“神奇过渡带” 头部公司开始组建“AI人文训练师”团队 训练AI识别仇恨言论和撰写高情商回复[46] - 潜在的新需求:当AI在顶尖老师训练下变得像“精英” 可能忽视更基层的需求 新的机会或从这些被忽视的需求中产生[50][51]