数据标注
搜索文档
海天瑞声:公司具备图像/视频标注、多模态数据融合等技术能力
证券日报· 2026-02-10 21:12
公司业务与技术能力 - 海天瑞声在视觉领域具备图像/视频标注以及多模态数据融合等技术能力 [2] 数据标注与算力效率的关系 - 高质量的标注能显著加速模型性能提升速度,并间接节省算力 [2] - 精准的数据可减少训练噪声,加快模型收敛速度 [2] - 通过聚焦关键信息优化数据使用效率,从而降低总体算力消耗 [2]
单价上千的新型数据外包,正在围猎985毕业生
36氪· 2026-02-04 17:58
数据标注行业演变 - 行业从低门槛、重复性的图像/语音识别数据标注,向高门槛、需要专业知识和判断力的“知识型”或“认知型”数据标注演变 [1][3] - 传统数据标注任务报酬极低,熟练工每日完成至少500张图像标注,单张报酬0.2元至0.4元人民币,日收入很难突破200元人民币 [5] - 新型高价值标注任务报酬显著提高,普通任务百元起步,复杂场景下单次任务报酬可达600元、800元甚至1000元人民币 [3][8] 劳动力市场两极分化 - 低价值标注劳动力市场:由三四线城市待业青年、全职妈妈、学生等构成,工作高度标准化、碎片化,技能无成长且易被AI预标注工具替代 [3][5][6] - 高价值标注劳动力市场:吸引985/211高校博士生、三甲医院医师、资深律师、财经媒体主笔等专业人士,工作灵活且报酬丰厚 [8][10] - 行业形成两个世界:一边是“一单五毛”的机械劳动,另一边是“一单上千”的认知输出,导致劳动者在收入、成长性和工作体验上严重分化 [9] 高价值标注任务的要求与特征 - 任务要求从提供答案升级为教会AI如何可靠生成答案,需要标注者具备语言敏感度、常识推理及法律或伦理等专业知识 [1][9] - 准入门槛隐性提高,平台虽未明限学历,但在实践中常以985/211学历作为高效初筛信号,并强调将专业知识转化为“AI友好型表达”的能力 [10][11] - 工作形式灵活(无打卡、自主认领任务),但实行严格的动态质量评估体系,依据历史交付质量分配任务权重和单价,优质贡献者获优先权 [12] 行业发展的本质与潜在问题 - AI发展本质上是不断淘汰旧岗位(如机械标注)、创造新岗位(如AI训练师、伦理对齐专员)的过程,但每次升级都伴随着技能壁垒的提高 [14][15] - 新产生的高阶标注岗位仍多以“灵活用工”形式存在,劳动者缺乏劳动合同、晋升通道,主体性被抹去,且技能多为临时性、碎片化,难以积累形成可迁移的职业资产 [18] - 高价值标注任务具有不稳定性,一旦AI模型通过学习掌握了某种判断模式,相应的标注需求便会迅速减少或消失,劳动者无法分享AI商业化后的收益 [21]
隐秘的“知识买断”生意:AI公司用千元时薪,撬动价值百万的行业经验
创业邦· 2026-01-16 11:43
文章核心观点 - AI数据标注行业正经历从低门槛劳动密集型向高技能专家型转变 从业者以自身专业经验和知识“喂养”AI 但可能面临职业发展可持续性差和被AI反噬取代的风险 [8][10][31] - 行业呈现高薪吸引与工作体验不佳并存的矛盾局面 高端标注时薪可达千元 但工作重复枯燥 且存在报酬不稳定、职业前景不明朗等问题 [20][25][30] - AI数据公司的商业模式加剧了从业者的脆弱性 行业缺乏护城河 业务同质化 需求零散且变化快 同时AI生成数据正逐步替代人工标注 [31][33][34] AI数据标注工作的性质与演变 - 工作内容从基础的分类、画框 升级为涉及逻辑推理、价值判断和创造性示范的复杂任务 最高级的是完整示范人类专家解决问题的全过程 [19] - 对从业者的要求急剧提高 从早期“会上网就行” 进化到要求985硕士以上学历及金融、医学、法律等专业背景 部分岗位招聘通过率仅约50% [11][15][16] - 数据标注是AI理解人类世界的关键 需要将模糊的人类经验拆解为机器可理解的结构 真实数据是最稀缺昂贵的资源 [11][19] 行业薪资水平与人才需求 - 兼职时薪差异巨大 高端“模型专家项目”标价100-400元/小时 阿里晓天睿士宣称时薪可达千元 但下限为50元 [15][20] - 正式岗位薪资可观 字节跳动为AI训练岗开出月薪2-4万元、15薪 小红书同类岗位月薪2-4万元、16薪 [23] - 未来五年中国数据标注领域人才缺口可能高达百万 催生了各类AI训练师速成培训班和高校合作训练营 [11][23] 从业者的工作体验与困境 - 工作高度工业化且消耗巨大 例如训练AI具备“同理心”时 需在7小时内下达50-100条指令 每条反复生成多次 [26] - 从业者在产业链中处于弱势地位 常被形容为“包工头” 专业判断易被忽视 却需为模型效果背锅 [29] - 工作监控严格 界面自带计时器 操作暂停需手动点击 兼职存在免费试标、被骗稿、被扣酬等风险 [30] 行业商业模式与市场动态 - 行业客户高度集中 主要围绕头部大模型公司 订单易受客户更换供应商或自建团队影响 [33] - 行业缺乏护城河 业务同质化 需求零散多变 过去积累的经验难复用 标注员流失率高 [34] - 新兴数据标注公司受资本追捧 例如Scale AI被Meta以143亿美元收购 Mercor估值高达百亿美元 [34] AI对人工标注的替代与行业影响 - AI生成数据正在替代人工标注 在一些成熟文本模型中替代率已达80% [31] - 行业升级正清退早期“基建者” 如某扶贫数据基地要求将“妈妈工人”比例降至25%以下 [31] - 行业商业模式本质是高价吸引企业“前员工” 榨取其经验训练AI 以低成本AI取代高薪人才 [36]
数据公司正在把高级牛马当饲料榨干?
虎嗅APP· 2026-01-12 21:34
文章核心观点 - 人工智能训练师(特别是数据标注员)的工作看似高薪且前景广阔,但实质上可能是一种对从业者经验和知识的“一次性买断”,从业者在将自身专业经验“喂养”给AI后,面临被替代的风险,职业发展脆弱且缺乏长期保障 [7][9][24][29] 人工智能训练师(数据标注)行业现状与趋势 - **行业地位与需求**:人工智能训练师自2020年2月起被纳入国家职业分类目录,数据标注是基础工作,未来五年中国该领域人才缺口可能高达百万 [10] - **工作内容演变**:数据标注工作从早期的简单分类、画框,升级为涉及逻辑推理、价值判断和创造性示范的复杂任务,例如评估、修改模型回答,甚至完整示范人类专家的决策过程 [17][18] - **技术替代风险**:在一些成熟的文本模型中,由AI合成的数据已经替代了80%的人工标注,从业者训练的AI正在成为自身的替代者 [29] 从业者画像与招聘门槛 - **门槛显著提高**:招聘要求从早期的“会上网就行”或高中学历,已进化到普遍要求本科及以上学历(占比超一半),且垂直领域要求专业背景,部分岗位需通过专业笔试 [10][13] - **高要求岗位示例**:某“模型专家项目”招聘时薪100~400元,要求985硕士学历、高壁垒专业背景及2年以上工作经验,招聘通过率约为50%(二进一) [13][14] - **大厂正式岗位薪资**:字节跳动为AI训练岗开出月薪2~4万元、15薪的待遇;小红书为“AI标注产品”岗开出月薪2~4万元、16薪的待遇 [21] 工作体验与行业痛点 - **工作强度与监控**:工作界面常自带计时器,实时监测屏幕状态,无操作会自动暂停,带薪摸鱼几乎不存在,工作节奏紧凑 [29] - **工作内容枯燥**:工作高度工业化,例如在7小时内需给AI下50~100条指令,每条需反复生成六七次才能选出合适结果,充满重复劳动 [26] - **报酬不稳定与欺诈风险**:从业者可能经历多轮免费试标,且存在被骗稿、被以模糊理由扣钱或拒付报酬的情况,实际到手收入可能不及预期 [27] 商业模式与行业结构 - **市场集中与波动性**:高端数据标注客户群体狭窄,主要围绕头部大模型公司,订单易受客户更换供应商或自建团队影响而迅速缩水 [32] - **行业缺乏护城河**:业务高度同质化,需求零散多变,过去积累的经验难复用,标注员流失率高,但进入门槛低导致新玩家不断涌入 [32] - **资本案例**:2025年6月,Meta以143亿美元收购数据标注公司Scale AI;向从业者发送工作邮件的Mercor公司估值高达百亿美元 [32] 从业者价值与伦理困境 - **“一次性买断”性质**:高时薪(如120美元/小时或宣称的千元时薪)更像是对从业者过往经验和知识的“一次性买断费”,一旦个人经验枯竭,任务可能停止 [8][9] - **核心价值与成本**:真实数据是最稀缺昂贵的资源,雇佣高学历专家(如每小时100美元)的成本远低于模型出错(如自动驾驶漏标行人导致数千万路测失败,或法律合同理解偏差引发上亿诉讼)的代价 [17] - **职业前景不安**:从业者普遍怀揣“教会徒弟,饿死老师”的不安,担心自己只是AI进化路上的一次性耗材,行业在升级同时正在清退早期基础岗位从业者(如某扶贫数据基地要求将“妈妈工人”比例降至25%以下) [29][30]
给AI当老师是种什么体验
新浪财经· 2026-01-10 17:09
行业趋势与市场需求 - 人工智能的快速发展离不开数据标注技术,数据是人工智能最关键的要素[1] - 高质量数据集需求越来越旺盛,为数据打上标签正成为年轻人的新职业[1] 数据标注工作的具体内容与价值 - 数据标注员通过人工判断和改正AI对短视频的分类标签,以教会人工智能“看懂”世界[1] - 通过人工不断标注,对大模型生成的内容进行评价和反馈,从而让大模型更加聪明[1] - 数据标注员指出,AI一开始的错误率很高,通过持续投喂标注数据,错误率会逐渐降低[1] - 智能驾驶数据标注旨在教车辆更准确地识别道路、障碍物与交通标志,标注数据越多,自动驾驶就更安全[1] 数据标注产业的运营模式与地域特点 - 位于贵州铜仁市数字就业中心的标注员,虽身处深山,但处理的常是来自东部企业的数据[1] - 该产业产出的“训练成果”正服务着全国的智能应用[1] 数据标注的具体应用场景 - 给信号灯、车辆等“贴上标签”,帮助自动驾驶汽车识别障碍、精准泊车[1] - 给地图与街景标注,持续优化着导航精度,让出行更加可靠[1] 从业者发展与行业前景 - 数据标注员被称为“数字园丁”,正在和新技术共同成长[1] - 从业者计划通过针对性训练,让人工智能突破数据和算法的局限性[1] - 从业者打算多学几种标注工具和标注逻辑,以跟上技术更新的脚步[1] - 从业者希望通过更精细、更准确地标注,让人工智能真正理解人的需求,让技术温暖更多人[1]
医疗数据“上架”,成果转化“上车”
新华日报· 2026-01-03 03:57
核心观点 - 江苏省肿瘤医院成功将其“肿瘤围手术期麻醉镇痛数据集”进行数据知识产权登记并上架交易,成为全省首家实现数据价值变现的省级三甲医院,标志着医疗数据资产化、商品化流程的正式打通 [1] 数据资产化模式与参与方 - 医院、政府与企业联合推动数据资产化:玄武区知识产权局作为“数据红娘”提供制度保障,江苏传古科技作为“技术保姆”提供技术支持,省数交所作为“流通枢纽”确保交易安全合规 [1] - 玄武区知识产权局为省肿瘤医院提供了长达一年半的“马拉松式”全流程服务,涵盖从对接服务商、组织专家会诊到技术攻关、登记拿证等环节 [1] - 通过获得数据知识产权登记证书,医疗数据从“沉睡”状态转变为拥有明确知识产权的可交易产品 [1] 数据价值与应用场景 - 完成登记的数据资产为医院带来多重价值:数据转让成果可纳入科研转化体系,同时可作为学术研究、课堂教学素材以及药企急需的商品 [1] - 医院未来在科研合作与成果转化上拥有更多主动权,其核心目标是让数据产生实际价值 [2] - 省肿瘤医院与玄武区共建“医疗数据科技转化联合实验室”,以院府合作形式推动“AI+医疗”场景落地,共同探索肿瘤防治与健康数据融合 [2] 未来发展方向 - 合作双方将深化合作,将目光投向数据标注这一人工智能关键领域,计划探索该领域中的知识产权保护规则,旨在输出“江苏经验” [2] - 通过释放数据要素与应用场景结合的乘数效应,助力疾病预防、诊疗优化与健康管理 [2]
甘肃首批持证残疾人AI训练师结业
新浪财经· 2026-01-02 03:47
人工智能训练师职业与残疾人就业 - 人工智能训练师自2020年被纳入国家职业分类目录,因其对专注力、逻辑思维能力要求高、对体力要求相对较低,成为残疾人实现高质量就业的理想选择之一 [1] - 在甘肃省残疾人AI训练师(数据标注)培训班中,经过为期20天的系统学习,25名学员掌握了从图像、文本到前沿3D点云标注的技能,其中首批19名学员成功考取了全国通用人工智能训练师资格证书 [1] 数据标注行业与AI产业链 - 培训聚焦人工智能产业链的基础关键环节——数据标注,这是让AI模型学会“看”和“理解”的基础工作 [1] - 数据标注工作不仅仅是机械劳动,例如标注的车辆和障碍物能帮助自动驾驶系统更准确地感知环境,从而保障未来的出行安全 [1] 残疾人职业技能培训模式创新 - 甘肃省残疾人职业教育和就业服务中心表示,此次培训是全省残疾人职业技能培训向数字化、高端化转型的重要探索,证明了残疾人群在人工智能领域的广阔前景 [1] - 承办方采用了“理论+实操+就业”三位一体的培训模式,构建了从技能培训、资格认证到岗位对接的完整支持闭环,确保学员学有所成、学有所用 [2] - 该模式为残疾人深度融入数字经济、共享科技发展红利提供了探索之路 [2]
时薪上千,大模型公司抢985文科生给AI当老师
吴晓波频道· 2025-12-09 08:29
文章核心观点 - 数据标注行业正经历从低端、重复性劳动向知识密集型、高端化方向的快速演变 对高质量标注数据的需求推动行业对高学历、高素质人才的争夺 但行业同时面临工作缺乏尊严、性价比低、上升空间窄及被AI替代等多重矛盾 高端人才的涌入为行业带来新视角 但也可能使AI模型忽视基层需求[4][29][33][40][44][50] 行业演变与高端化趋势 - **行业定位变化**:数据标注员是“AI的老师” 负责对原始数据进行分类标记以训练机器 2020年“人工智能训练师”被纳入国家职业分类目录[4] - **产业规模与人才缺口**:截至今年9月底 中国7个数据标注基地有企业362家 从业人员8.5万人 但未来5年专业人才缺口或达百万量级[4] - **高端化趋势兴起**:海外龙头Scale AI关闭肯尼亚等地站点 转而招聘美国本土高学历人士 其参与模型优化人员中12%拥有博士学位 超40%拥有硕士等高级学位[33] - **国内高端化驱动**:DeepSeek从2023年开始招聘“数据百晓生” 实习生日薪超500元 正职年薪可达百万 业内盛传其标注团队由北大哲学系学生组成[35][39] - **头部公司竞逐专家**:阿里搭建“晓天睿士”专家社区 行业专家级人才最高时薪可达1000元 字节跳动成立Xpert兼职众包平台 需通过专业知识测试[12] 工作内容与要求 - **工作性质**:包括给AI生成的答案打分或为AI出题并编写优质答案作为训练语料[8][11][38] - **工作难度**:标注手册理解门槛高 包含大量专业术语 打分要求繁琐严格 需根据多个维度评判 判断“幻觉”需核对参考资料 涉及专业知识需自行查证[10][11] - **时间投入**:处理一条数据平均花费15分钟 棘手任务单条可花费近一小时[8] - **招聘要求提升**:早期学历要求多为专科、高中 今年候选人本科以上学历占比超五成 垂直类岗位要求相关专业或行业经验 部分需专业笔试[14] - **竞争加剧**:目前招聘通过率约为2:1[15] 行业面临的矛盾与挑战 - **缺乏尊严与获得感**:标注员承担AI工程超60%的工作量 但在系统中不被尊重 标准常变动且只能接受甲方评判 工作采取流水线式计件管理 多数标注员不知数据用途甚至不知服务哪个大模型[21] - **性价比低**:外包标注机构兼职大学生日薪100元 每日至少完成10条 超额部分按10元/条计 专家级标注时薪约100-300元 吸引力不足 北京、上海等地要求研究生学历的标注岗位月薪仅六七千元[23][25] - **上升空间狭窄**:标注岗位多为外包 人员流动率高 能待超过一年者不多 向技术岗位发展的概率极低 绝大部分标注员停留在原岗位[26] - **被AI替代的风险**:科技公司普遍采用合成数据(如“蒸馏”技术)减少对人工标注的依赖 降低数据成本[27] 数据质量的重要性与行业前景 - **数据质量是关键**:AI行业有“Garbage In Garbage Out”之说 注释质量提高5% 可将复杂计算机视觉任务的模型准确率提高15%-20% 在算法和算力难分伯仲下 数据质量成为竞争焦点[41][42] - **高端化的商业价值**:对专家级标注员的投入推动公司增长 Scale AI 2024年营收约8.7亿美元 预计今年营收达20亿美元[34] - **提供转型路径**:数据标注成为文科生进入AI领域的“神奇过渡带” 头部公司开始组建“AI人文训练师”团队 训练AI识别仇恨言论和撰写高情商回复[46] - **潜在的新需求**:当AI在顶尖老师训练下变得像“精英” 可能忽视更基层的需求 新的机会或从这些被忽视的需求中产生[50][51]
探索跨境“来数加工”,东莞竞逐高端数据标注新赛道
21世纪经济报道· 2025-12-05 14:27
数据标注行业发展趋势 - 数据标注是激活数据要素价值、衔接算法模型与产业应用的核心环节,正为大模型训练、自动驾驶等前沿领域提供核心支撑 [1] - 随着AI模型训练进入下半场,行业垂直模型和智能体方兴未艾,数据标注的重要性正被重新评估 [1] - 数据标注产业正从劳动密集型加速向知识技术密集型迭代,向高技术含量、高知识密度和高价值应用数据领域延伸 [1] - 简单、重复性的标注工作,60%—70%已能通过AI模型自动完成 [3] - 数据标注已从简单的人工标注,进化为处理新兴领域、高复杂度或空白领域的高技术含量优质数据产业,并将持续往高阶方向发展 [4] 东莞数据标注产业园的战略定位与布局 - 东莞正全力推进国家人工智能应用中试基地与数据产业集聚区建设,以“湾区数谷”为重要载体,率先布局高质量数据标注产业 [1] - 东莞数标园由万江街道总投资3.3亿元打造 [6] - 园区定位高端化、智能化、生态化,重点面向具身智能、工业质检、医疗影像、金融风控、遥感、AIGC等垂类高价值行业,区别于传统的通用场景领域 [5] - 园区联合中国电信、百度智能云两大头部企业,建立了百度智能云(东莞)数据标注产业基地和中国电信高质量数据集智能标注产业基地 [6] - 未来3年内,计划引进50家以上数据企业,形成30个以上高质量数据集和垂直领域大模型,集聚2000名以上高水平数据标注产业人才 [2] 东莞发展数据标注产业的竞争优势 - 东莞作为科创制造强市,拥有丰富的人工智能应用场景和深厚的工业数据积淀,其工业制造优势场景与高端数据标注需求高度契合 [1][2][8] - 东莞从高端场景入手,开辟了差异化的发展路径,能快速响应广深海量AI企业服务的需求,并依托港澳地缘和产业优势率先探索跨境“来数加工” [2] - 东莞相较广深有更宽阔、性价比更高的场地支撑,又有丰富的优质劳动力资源,通过高铁可高效对接广州高校科研资源和深圳产业创新生态 [6] - 东莞9所高校的在校大学生约17.65万人,数标园周边高校每年输出人工智能、大数据专业人才超2万人,人才储备较为充裕 [7] - 百度智能云国内首个具身智能采标实验室将落户东莞数标园,配置数采机器、机械臂、人形机器人等设备,填补大湾区具身智能高阶数据标注空白 [8] 主要参与企业与业务模式 - 东莞驰千数据公司作为百度云的数据合作伙伴,是首批入驻东莞数据标注产业园的服务商之一,专注于为各大车企提供自动驾驶数据标注服务,团队规模超过两百人 [1][4] - 百度智能云(东莞)数据标注产业基地定位为粤港澳大湾区规模最大的百度标注基地,计划招募1000名数据标注师,面向具身智能、新能源、电子信息等高端场景 [6] - 中国电信高质量数据集智能标注产业基地将搭建统一资源调度、智能中枢两大平台及多个专业应用子系统,帮助大湾区中小企业降低数字化转型门槛 [6] - 广东歌捷信息科技有限公司作为入驻服务商,计划与智能制造及工业互联网领域的本土企业展开深度合作,提供专业的AI数据标注与模型训练解决方案 [5] - 百度通过引入大模型标注、具身智能采标等高端技术和平台,帮助园区企业形成差异化、智能化、高阶化的数据标注产能,依托“数据标注—模型训练—场景应用”全链条生态吸引合作需求 [8] 市场需求与行业机遇 - 全国低端数据标注场景已经相对饱和,而高端场景尤其是工业制造领域的数据标注复杂度高,是全国面临的短板 [2] - 粤港澳大湾区的华为、腾讯、比亚迪、大疆等行业龙头企业正加速布局人工智能大模型和智能体,对高质量、专业化、场景化的数据标注需求庞大又迫切 [4] - 东莞数标基地可以高效服务湾区企业,链接全球产业链资源,为具身智能提供场景测试,满足智能驾驶数据采集需求 [8] - 园区在场地租金减免、算力券补贴等方面的大力支持,有效降低了企业的研发与运营成本,人才补贴及安置房配套政策有助于吸引和留住高质量人才 [5]
山西大同:书写推动高质量发展的“三张答卷”
人民日报· 2025-11-24 06:52
能源转型 - 原煤年产量稳定在1.5亿吨以上,2021至2024年累计生产原煤6.4亿吨,其中以长协价保供电煤4.3亿吨 [2] - 全市已建成14座智能化煤矿,先进产能占比超85%,9家燃煤电厂完成超低排放改造 [2] - 新能源和可再生能源装机容量突破1000万千瓦,占比超过56%,稳居山西省第一方阵 [3] - 产业链拓展包括活性炭精深加工、千万吨级煤矸石综合利用项目、底部换电重卡下线、独立储能项目商业化运营及抽水蓄能电站建设 [3] 算力产业 - 国家级数据标注基地建设已形成7个行业316个高质量数据集,引育企业69家,数据标注从业人员3万余人,引进本科以上人才1055人,带动相关产业产值7.5亿元 [5] - 全市算力全产业链累计投资超700亿元,投运服务器达74.5万台 [5] - 今年1至9月算力中心用电量达43.8亿千瓦时,超过2024年全年水平,预计全年用电量将突破60亿千瓦时,城市算力分指数连续两年稳居全国前三 [5] - 数据局汇聚31个部门的业务系统数据,覆盖城管、文旅等领域,包含1543张数据表、69.73亿条数据,并于2025年8月入选国家数据基础设施建设先行先试名单 [6] 文化发展 - 今年国庆中秋期间,全市重点监测的8家景区累计接待游客152万人次 [7] - 节日期间推出系列文化活动,包括8000架无人机展演、大型交响音乐会、器乐演奏、魔术变脸、国潮展示等 [8] - 文化底蕴源于2000多年建城史,拥有云冈石窟、悬空寺、长城等世界级文化遗产 [8]