Workflow
AI Data Annotation
icon
搜索文档
财经观察:印度“AI蓝领”抢走美国白领饭碗?
环球时报· 2025-12-12 06:41
【环球时报驻美国特约记者 卓然 环球时报记者 李迅典 环球时报特约记者 刘皓然】 编者的话: 人工智能(AI)的高速发展正重塑东西方的就业格 局:在取代部分低门槛、重复性劳动的同时,也在创造新的就业机会。就在美国科技巨头忙于降本裁员之际,AI相关产业的外溢却盘活了印度 的"三线小城",不少"小镇青年"走进写字楼,成了 "白领职员"。而在美国,一些焦虑的"00后"为了不被AI取代,转向电工、水管工等"技术工 种"。这种反差现象的背后,其实是资本对于用工成本的精密考量——当美国"大厂精英"供不起时,印度"小镇青年"成为更具性价比的选择。 AI 热潮带动印度小城就业 在印度AI数据公司Objectways的一间办公室,数据标注员达拉妮紧盯着屏幕上的一组人物对比图。很快,她根据面目特征的异常分辨出假图、完 成标记,并继续进行下一组识别。在办公室的另一端,她的同事索米娅进行着视频识别工作,在每个视频片段播放完成后,她需要标记出这段视 频内容的类别、视频中人物的语气与情绪,帮助AI大模型进行"学习"。 《日经亚洲评论》报道称,AI数据标注员并非新生事物,但随着技术的不断发展,行业对标注员的工作要求也在更新。报道援引Obj ...
数据标注领域真正的巨头:0融资、10亿美元营收
虎嗅· 2025-07-30 14:55
公司概况与市场地位 - 公司Surge AI是一家AI数据标注公司,由华人创始人Edwin Chen于2020年创立,团队约120人,至今未进行外部融资 [1][2] - 公司2023年营收突破10亿美元,自称是该领域最大的人类数据服务商,客户包括Google、OpenAI和Anthropic [2][9] - 其主要竞争对手Scale AI在2023年收入为8.7亿美元,已完成F轮融资,累计融资额达16亿美元 [3] - 在竞争对手Scale AI的部分股份被Meta收购、创始人加入Meta,并被谷歌、OpenAI等大客户暂停合作后,Surge AI的优势更加明显,有望成为行业领头者 [4] 商业模式与产品 - 公司的核心产品是直接用于训练和评估AI模型的高质量数据,包括监督微调数据、偏好数据等,而不仅仅是提供人力外包服务 [8][19] - 公司交付的不仅是数据本身,还包括基于数据的洞见,如失败模式分析,形成了一个围绕数据的应用生态 [19] - 公司将数据任务分为两类:一类是质量天花板很低的“画边界框”类任务;另一类是充满主观性和创造力的“写诗”类任务,生成式AI时代更需要后者 [8][26][27] 核心竞争壁垒 - 公司的核心壁垒在于通过技术手段确保和衡量数据的高质量,而非依赖简单的人力外包 [20][25] - 公司认为,仅招募高学历人才(如麻省理工毕业生)并不能保证数据质量,因为存在作弊和使用大语言模型生成数据等对抗性问题,必须通过复杂算法进行质量控制 [21][22][23] - 公司拥有一个平台和专门的技术来衡量标注员产出内容的质量,其方法类似于Google搜索或YouTube评估网页和视频质量,通过收集多种信号并输入机器学习程序来实现 [28][29] - 公司区别于竞争对手的关键在于,后者本质是“人力外包公司”或“车身修理厂”,交付的是“人头”而非数据,缺乏衡量和改进数据质量的技术 [26][32][33][34][36] 对合成数据与行业趋势的观点 - 公司认为业界高估了合成数据的作用,许多客户发现海量合成数据中绝大部分是无用噪音,且在现实用例中表现糟糕 [11][44][45] - 公司指出,模型在合成数据上训练后,可能只擅长解决学术基准问题,而在现实世界中表现不佳,合成数据会使模型在狭窄的相似性范围内崩溃,缺乏多样性 [45][46][49] - 公司强调,即使模型能力超越人类,人类反馈也永远不会过时,深入、细致的人类评估是所有前沿模型实验室公认的“黄金标准” [11][52] - 对于未来AI训练数据需求,公司认为将是多种数据的结合,包括强化学习环境和专家推理轨迹等,单一的奖励信号不足以捕捉复杂任务的全貌 [11][43] 对模型评估与行业基准的批判 - 公司批评大语言模型竞技场和各种学术基准测试是“人工智能的一大祸害”,导致模型被训练去优化排版、表情符号和回答长度等表面特征,牺牲了事实性和指令遵循能力,本质上是在训练模型产出“点击诱饵” [11][55][61][62] - 公司指出,许多团队专注于提升与现实世界脱节的“SAT风格”基准测试分数,而不是取得真实的进步 [63][64] - 公司认为,真正可靠的评估方法是投入时间进行深度人类评估,包括事实核查和指令遵循检查,这需要评估者具备良好的品味 [76] 数据质量的定义与生产 - 公司对“高质量”数据的定义超越了简单的规则符合,而是拥抱主观性、创造力和人类智慧,例如写诗或数学证明可以有成千上万种正确方法 [72][73] - 公司生产高质量数据依赖于“可扩展监督”理念,即构建合适的人机交互界面和工具,让人与AI协作,产出比任何一方单独完成质量更高的数据 [31] - 公司认为,许多竞争对手用“人海战术”并检查清单条款的方式,只能规模化地生产平庸的同质化数据 [71][73][74] 创业与公司管理哲学 - 创始人强调创业是为了解决问题,而不是为了融资,公司自创立起就实现盈利,因此选择不融资以保持控制权和专注于产品 [5][9][12] - 创始人批评硅谷许多创始人为了融资而融资,缺乏真正要解决的宏大问题 [12][13] - 创始人认为在创业初期不应过早招聘产品经理、数据科学家等角色,而应追求10倍或100倍的改变,而非微小的百分点优化 [17] - 创始人相信,保持小规模、高人才密度的团队,可以减少会议、面试和信息同步的时间,使沟通更顺畅、迭代更快,能用10%的资源做出好10倍的产品 [78][80][81]