Workflow
数据标注
icon
搜索文档
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-16 07:33
职位描述 大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集 建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下一个或多个方向: 1、数据知识体系生成:研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系; 2、语料自动分类:基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设:研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能;与跨职能团队合作,确保评测集覆盖全面且具有代表 性; 4、语料质量评估与合成:建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。研究数据驱动的语料合成技术,基于模型的评测效果,针 对性合成能够改进模型效果的训练语料,提升模型迭代效率; 5、智能标注链路研发:基于大模型数据的标注需求,研发辅助打标算法;设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质 量; 6、技术创新与优化 ...
马斯克深夜挥刀,Grok幕后员工1/3失业,谷歌AI靠人肉堆起,血汗工厂曝光
36氪· 2025-09-15 07:42
表面上,AI正在狂飙突进;但背后,却是一群「看不见的人」在默默撑起这场科技竞赛。马斯克的xAI大规模裁员转型专家标注,谷歌外包工 人被迫处理负面暴力内容。AI是靠无数普通人的劳动堆出来的。 昨天,马斯克xAI内部曝出最大规模裁员。 标注团队中,500名通用标注员一夜被炒鱿鱼,Slack群聊人数(1500人)骤降至1000人。 与此同时,xAI将招募10倍「专业导师」团队。 数据标注,不仅是xAI押注的训练LLM核心,也是Gemini、Llama等大模型迭代的关键基石。 然而,鲜有人知的是,Gemini霸榜的背后,数据标注员们正承受越来越大的工作与心理压力,甚至开始被迫接触大量涉及暴力等负面信息。 光鲜亮丽的大模型背后,这些在背后默默付出的数据标注员们,正在被无情压榨。 马斯克暴裁500人,要招10倍专业导师 据BI昨日报道,周五深夜,xAI突然裁掉了约500名数据标注员,占团队三分之一。 这些人原本负责教Grok如何理解世界。 公司发邮件宣布战略转型:不再需要大多数「通用导师」,未来将重点扩充「专家导师」。 员工立刻被切断系统权限,只能拿到合同期末或11月底的工资。 值得注意的是,就在裁员前几天,团队管理层也 ...
Mercor 高速增长的秘诀与其中的聪明人|42章经
42章经· 2025-09-14 20:40
本期播客对谈原文约 16000 字,本文经过删减整理后约 8000 字。 这次去美国,我的一大收获就是认识了 Mercor 的首位中国工程师(节目录制时也是全司唯一的中国员工)虞快。他是前金融科技独角兽工程总监, Google 、 Two Sigma 、 Citadel 工程师,也是我这次硅谷行遇到的最聪明的人之一。 曲凯 :Mercor 今年很火,国内也有不少分析和报道。我发现大家对你们的认知大致经历了两个阶段: 一开始很多人觉得你们是 AI 招聘公司,但后来发现,你们本质上是在做数据标注。 在你看来,Mercor 到底是一家什么公司? 虞快 :我们的核心业务,是帮顶尖 AI 公司招各行各业的专家。 大家可能对数据标注有刻板印象,觉得就是从欠发达地区找廉价劳动力做些基础活。 但现在完全不同了。 AI Labs 需要的是医生、律师、投行顾问,甚至细分到专门写 Swift 的工程师、俄罗斯的生物学家。 因为模型已经进化到了只有专家才能标注的地步。大多数人会的题,它早就会了。再想提升模型智能,就必须请特定专家提供系统性反馈,告诉模型什么是好答 案、什么是差答案。 曲凯 :那这些 AI Labs 拿到你们的专家标准 ...
290亿美元巨头,正被对手“围剿”
虎嗅· 2025-09-07 07:36
当地时间9月3日,数据标注巨头Scale AI一纸诉状,将前客户关系管理负责人Eugene Ling及其新东家——估值已达20亿美元的AI初创公司Mercor双双告上 法庭。Scale AI指控,Ling在离职时不仅"顺走"了上百份机密文件,更试图"策反"其最重要的客户。 这起诉讼的背后,是数据标注巨头Scale AI在接受Meta巨额投资后,正面临谷歌、OpenAI等核心客户"众叛亲离"的尴尬处境。 一场由信任危机引发的行业变局已然上演。 "客户A"的身份成谜,但Scale AI强调,拿下这笔业务将"为Mercor带来数百万美元的价值",而Mercor之所以聘用Ling,正是看中了他与"客户A"的紧密关 系。 更让Scale AI震怒的是,Ling在离职前后频繁接触竞争对手,还疯狂下载公司内部资料。诉讼文件显示,Ling在2025年6月至7月离职前的几周内,一边积 极寻求外部工作机会,一边与包括Mercor在内的竞争对手进行接触。一个关键的细节是,就在Ling与Mercor的CEO会面后不久,其下载公司机密文件的 行为频率骤然增加。 Scale AI称,Ling非法下载了超过100份机密文件,包括敏感的客户 ...
估值2000亿元独角兽怒告前员工:窃取上百份文件,策反数百万美元客户!公司面临更大危机
每日经济新闻· 2025-09-06 22:26
核心诉讼事件 - Scale AI起诉前客户关系管理负责人Eugene Ling及其新雇主Mercor 指控其窃取机密文件并试图策反核心客户 [1] - Ling被指控在离职前下载超过100份机密文件 包括客户信息及业务策略 并转移至个人云盘 [4] - Mercor向Ling提供极具诱惑的薪酬条件:承诺支付其引入客户项目毛利润的20%作为提成 前提是带来超过500万美元毛利润 [3] 涉事人员背景与双方回应 - Eugene Ling在Scale AI任职超过三年 负责企业客户关系与战略合作 深度维系公司最大客户关系 [7] - Ling承认个人云盘存有旧文件 但坚称无恶意且未在Mercor工作中使用 并称曾主动询问Scale AI是否删除文件 [6] - Mercor联合创始人Surya Midha否认使用Scale AI商业机密 称公司正调查情况 并强调虽聘用多名前Scale AI员工 但对商业秘密无兴趣 [9][10] Scale AI的客户流失危机 - Meta投资143亿美元收购Scale AI 49%股份 将其估值推高至290亿美元 [12] - 核心客户包括谷歌、OpenAI、微软、xAI因Scale AI与Meta关联 担忧数据安全 正减少或终止合作 [12] - 谷歌计划终止价值2亿美元的合同 微软及xAI重新评估合作关系 [12] - 甚至Meta内部TBD Labs未完全依赖Scale AI 仍与Mercor等竞争对手合作 内部研究人员称Scale AI数据质量不及竞品 [13] 行业竞争格局变化 - Mercor估值达20亿美元 采用差异化商业模式:直接招聘生物学、法学等垂直领域专家参与数据训练与标注 形成博士军团模式 [15] - 该模式提供更高质量数据及更强客户粘性 已赢得OpenAI等顶级AI实验室青睐 [15] - Scale AI以规模化数据标注工场模式起家 但面临新锐竞争者精准打击策略的挑战 [15]
估值2000亿独角兽怒告前员工:窃取上百份文件,策反数百万美元客户
每日经济新闻· 2025-09-06 22:09
当地时间9月3日,数据标注巨头Scale AI一纸诉状,将前客户关系管理负责人Eugene Ling及其新东家——估值已达20亿美元的AI初创公司Mercor双双告上 法庭。Scale AI指控,Ling在离职时不仅"顺走"了上百份机密文件,更试图"策反"其最重要的客户。 这起诉讼的背后,是数据标注巨头Scale AI在接受Meta巨额投资后,正面临谷歌、OpenAI等核心客户"众叛亲离"的尴尬处境。 一场由信任危机引发的行业变局已然上演。 窃密与"策反":一场有预谋的"叛逃"? 诉讼文件揭露,这场"叛逃"背后是赤裸裸的利益驱动。新锐公司Mercor向Ling开出了极具诱惑力的条件:承诺支付其从引入客户项目中产生毛利润的20% 作为提成,前提是Ling能为公司带来超过500万美元的毛利润。 各执一词:被告方"隔空"喊冤 面对来势汹汹的指控,被告方迅速展开了"隔空"反击。 9月4日,事件主角Ling在LinkedIn上公开发声:"刚得知自己被Scale AI起诉了。上个月,我从Scale AI离职并加入Mercor。我知道这让我以前的团队感到不 满,对此我深感抱歉。" Scale AI指控,Ling在尚未离职的 ...
估值2000亿元独角兽怒告前员工:窃取上百份文件,策反数百万美元客户!公司面临更大危机:谷歌和OpenAI等“金主”流失
每日经济新闻· 2025-09-06 21:59
诉讼事件概述 - Scale AI起诉前客户关系管理负责人Eugene Ling及其新东家Mercor 指控其窃取机密文件并策反重要客户[1] - Ling被指控在离职前下载超过100份机密文件 包括客户信息及业务策略 并转移至个人云盘[3][4] - Ling承认个人云盘存有旧文件 但否认恶意使用 Mercor声称未访问或使用这些资料[6][9] 涉事人员背景 - Eugene Ling在Scale AI任职超过三年 负责企业客户关系与战略合作 深度维系公司最大客户[7] - Mercor向Ling提供极具诱惑力的条件 承诺支付其引入客户项目毛利润的20%作为提成 前提是带来超过500万美元毛利润[3] 公司战略差异 - Scale AI以规模化数据标注工场模式起家 Mercor采用差异化策略 直接招聘生物学、法学等垂直领域专家参与数据训练[14] - Mercor估值达20亿美元 专注于由博士专家进行高质量数据标注 赢得OpenAI等顶级AI实验室青睐[14] 行业竞争格局 - Scale AI获Meta投资143亿美元收购49%股份 估值达290亿美元 但面临核心客户流失风险[12] - 谷歌计划终止价值2亿美元的合同 微软、xAI等重新评估与Scale AI的合作关系[12] - Meta内部TBD Labs仍与Mercor等第三方数据服务商合作 因Scale AI数据质量被指不及竞品[12][13] 客户关系影响 - Scale AI强调"客户A"业务对Mercor价值数百万美元 Ling与该客户关系紧密[3] - Meta投资导致Scale AI身份尴尬 谷歌、OpenAI等客户因竞争关系减少合作[12]
A股反复震荡,9月有哪些重要交易主线?高手这样看
每日经济新闻· 2025-09-03 19:17
A股市场表现 - 上证指数周三下跌1.16%至3813.56点,跌破5日和10日均线 [1] - 沪深两市成交额23641亿元,较周二大幅缩量5109亿元 [1] - 仅823只个股上涨,4560只个股下跌,行业板块普跌,军工板块跌幅居前 [1][5] 期货市场表现 - 鸡蛋和黄金期货涨幅居前,碳酸锂和股指期货跌幅居前 [1] - 期货模拟大赛选手最高收益率达179.82% [2] - 黄金期货因美联储独立性担忧和"降息交易"主线上涨,涨幅落后于股票 [7] 投资大赛概况 - "经·粮杯"期货模拟大赛提供100万虚拟资金,设周赛和月赛现金奖励,月最高奖金1288元 [4][8][9] - 掘金大赛股票模拟提供50万虚拟资金,设周赛和月度积分王奖励,第一名奖金688元 [4][10] - 两大赛事均零成本参赛,正收益即可获奖,并提供投研团队教学与交流群 [4][8][9][12] 参赛选手策略观点 - 上证指数压力位3900-4000点,支撑位3700点,若无法站上5日均线则休整时间延长 [5] - 看好AI编程、数据标注、光交换机等板块机会 [7] - 市场存在游资、量化、中长线机构三类资金,风格分别为涨停拉升、超短线和长线投资 [7] - 建议通过多市场学习提升交易认知,期货大赛提供夜盘交易方便上班族 [7][9] 赛事附加价值 - 期货大赛提供黄金期货和股指期货专项交流群,掘金大赛提供持仓查看功能和《火线快评》免费阅读权限 [9][11][21] - 赛事全年12期滚动开展,新手完成1笔交易即算有效参赛 [8][9] - 模拟交易规则与实盘完全一致,含手续费和保证金机制 [8][9]
大模型下半场:谁在掘金数据标注?
36氪· 2025-09-02 16:25
两个月前,Meta豪掷约150亿美元(约合人民币1078亿元)入股Scale AI,一举拿下49%股份。交易完成 后,Scale估值被推高至290亿美元。 作为硅谷AI赛道近几年最猛的黑马,Scale AI从成立到估值飙升至138亿美元,仅用了5年时间,几乎创 造了一个行业的神话。 这家公司的主业,是数据标注。低成本的员工门槛和海量的人工参与,这个看似枯燥且"苦力活"的领 域,长期以来被视为是AI产业链里最不性感、最缺乏想象力的一环。 然而,正是凭借这门"脏活累活",Scale在大模型时代迅速完成了从幕后到台前的跃迁,成为硅谷最炙 手可热的明星公司。Meta的出手,则进一步将数据标注这个原本处于产业底层的环节,推向了聚光灯 下。 更耐人寻味的是,这场收购并不仅仅是资本层面的"下注"。 作为交易的一部分,Scale创始人兼CEO汪滔将卸任,带领部分核心员工加入Meta,组建所谓的「超级 智能小组」,同时保留Scale董事会席位。换句话说,Meta买的不只是数据,更是汪滔本人的战略眼光 和执行能力。 这场来势汹汹的收购背后,折射出的是Meta的数据焦虑。 2024年,Meta推出的Llama4Behemoth,曾 ...
清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪
南方都市报· 2025-08-29 14:50
行业发展趋势 - 数据标注产业进入新战略阶段 行业逐步完善并走向成熟 催生新职业和职业技能标准 [3] - 传统人工标注市场竞争激烈且内卷化 用工需求规模大且流动性高 [4] - 未来大模型将带动标注工作 智能检测和工具优化成为长远发展方向 [4] - 合成数据领域发展值得关注 通过AI数据搭接适应发展需求 [5] 地域与行业分布 - 用工需求从低成本地区向经济发达地区和人工智能前沿领域转移 [4] - 河南、四川等人力资本丰富地区呈现活跃发展态势 [4] - 行业主要集中在信息技术和科学研究领域 人工智能先导研究行业用工需求最旺盛 [4] 企业分类与发展模式 - 数据标注企业可通过2×2矩阵按场景强度和基础强度划分为双强、双弱、偏强、偏弱四种类型 [5] - 具身机器人行业发展较好 技术具有引领性 [5] - 大型产业和企业拥有更多专业力量开发模型并进行数据标注 [5] - 国外场景团队专注于垂直场景的数据采集和标注 [5] - 外包团队和众包团队提供灵活低成本劳动力 众包团队在小众场景创新方面具有优势 [5] 发展战略建议 - 推进AI辅助标注与全自动化标注技术 使产业从劳动密集型向知识密集型转变 [8] - 建立多轮质检与反馈机制 完善质控体制 精准淘汰劣质数据 [8] - 开发行业针对性标注系统 利用中国丰富应用场景和数据资源推动垂直细分领域发展 [8] - 深化校企合作加速技术转化 推动行业标准制定 [9] - 强化技能培训优化人力配置 建立质量追踪机制提升从业人员专业技能 [9] 核心发展理念 - 大模型人工智能与高质量数据集形成相辅相成、双轮驱动的格局 [1][6][8] - 人工智能+行动到哪里 高质量数据集就走到哪里 [6] - 高质量数据集走到哪里 人工智能就走到哪里 [1][6][8]