数据劳工“撑起”万亿级具身智能赛道
36氪·2025-12-04 15:30

文章核心观点 - 具身智能产业的快速发展高度依赖海量、高质量的真机数据,而数据采集与标注工作主要由被称为“数据劳工”的群体承担,他们从事重复性体力劳动,但处于产业链低端,面临工作不稳定、薪酬低、职业发展受限等问题 [1][5][6] - 数据采集工作常以外包形式组织,导致企业管理链条延长、数据质量可能下降,同时劳工薪资被层层盘剥,揭示了产业初期的“野蛮生长”状态 [7][8][9] - 文章提出了一个技术与伦理的命题:在追求智能未来的过程中,不应忽视那些支撑技术迭代的“影子”劳动者,并探讨了数据劳工职业转化与产业健康发展的可能路径 [10][11] 数据劳工的工作性质与现状 - 工作被定义为“枯燥的体力活”,需身穿外骨骼或遥操设备,重复数百次夹取、拿放等动作,或对视频进行逐帧标注,以教导机器人模仿人类行为 [3] - 工作对身体的负担极大,“几乎等同于一整天都在做有氧运动”,且多数岗位明确偏好男性,甚至要求能抓取15公斤重物 [3][4] - 尽管被贴上“含金量低”的标签,却成为许多计算机、人工智能专业大专生的实习与就业选择,他们将其视为进入“风口赛道”的跳板 [4][5] 数据劳工的薪酬与雇佣关系 - 在数据采集环节,以北上广深一线城市为例,普遍日薪在160元-200元之间,时薪20元出头 [6] - 数据标注环节薪酬更低,这类工作可远程办公,目前正在三四线城市迅猛发展以摊薄用工成本 [6] - 工作多通过层层外包获得,劳动关系脆弱,项目一旦终止就可能导致团队解散 [5] - 层层外包导致薪资被盘剥,例如一手三方日薪可能250元,二手劳务公司日薪200元,更多层则可能变为150元 [9] 数据对产业的重要性与采集模式 - 数据成为具身智能进化最大卡点,海量真机数据集能左右具身智能发展速度 [1] - 真机数据由于质量更高且在精细化操作领域更具效用,被普遍认为优于仿真和互联网数据 [1] - 具身智能的智能水平与数据的质与量成正比,业内认为其可能需要达到“互联网”数据量级才能理解复杂物理世界 [7] - 为控制成本并聚焦核心研发,具身智能公司普遍将数据采集与标注工作外包给第三方 [7][8] 外包模式带来的问题 - 企业管理链条延长,企业规范(权力)的传导会递减、乏力,容易滋生乱象 [8] - 存在“二次合格”问题,即数据质量在“具身公司—劳务公司—三方员工”的传递链中可能逐级下降,最终影响交付数据质量 [8][9] - 部分外包项目方业务获取困难,有厂商要求购买其机器人才能分到业务,导致一些企业实质上变成了纯人力公司,在产业链中处于边缘位置 [9] 未来展望与职业路径 - 从劳工视角看,多数人面临“技能无沉淀、就业无保障”的困境,少数人试图通过积累经验“转正进管理” [10] - 建议底层采集员可将一线实操经验转化为数据质量把控、编写场景化采集手册等能力,以摆脱纯体力劳动局限 [10] - 未来AI自动标注、世界模型与仿真技术可能逐步“挤占”劳工在“感知”层面的生存空间 [10] - 但在需要“理解”物理世界复杂交互的“认知”层面,高质量的人类演示数据在较长一段时间内仍是不可替代的 [10]