Workflow
大语言模型竞技场
icon
搜索文档
数据标注领域真正的巨头:0融资、10亿美元营收
虎嗅· 2025-07-30 14:55
公司概况与市场地位 - 公司Surge AI是一家AI数据标注公司,由华人创始人Edwin Chen于2020年创立,团队约120人,至今未进行外部融资 [1][2] - 公司2023年营收突破10亿美元,自称是该领域最大的人类数据服务商,客户包括Google、OpenAI和Anthropic [2][9] - 其主要竞争对手Scale AI在2023年收入为8.7亿美元,已完成F轮融资,累计融资额达16亿美元 [3] - 在竞争对手Scale AI的部分股份被Meta收购、创始人加入Meta,并被谷歌、OpenAI等大客户暂停合作后,Surge AI的优势更加明显,有望成为行业领头者 [4] 商业模式与产品 - 公司的核心产品是直接用于训练和评估AI模型的高质量数据,包括监督微调数据、偏好数据等,而不仅仅是提供人力外包服务 [8][19] - 公司交付的不仅是数据本身,还包括基于数据的洞见,如失败模式分析,形成了一个围绕数据的应用生态 [19] - 公司将数据任务分为两类:一类是质量天花板很低的“画边界框”类任务;另一类是充满主观性和创造力的“写诗”类任务,生成式AI时代更需要后者 [8][26][27] 核心竞争壁垒 - 公司的核心壁垒在于通过技术手段确保和衡量数据的高质量,而非依赖简单的人力外包 [20][25] - 公司认为,仅招募高学历人才(如麻省理工毕业生)并不能保证数据质量,因为存在作弊和使用大语言模型生成数据等对抗性问题,必须通过复杂算法进行质量控制 [21][22][23] - 公司拥有一个平台和专门的技术来衡量标注员产出内容的质量,其方法类似于Google搜索或YouTube评估网页和视频质量,通过收集多种信号并输入机器学习程序来实现 [28][29] - 公司区别于竞争对手的关键在于,后者本质是“人力外包公司”或“车身修理厂”,交付的是“人头”而非数据,缺乏衡量和改进数据质量的技术 [26][32][33][34][36] 对合成数据与行业趋势的观点 - 公司认为业界高估了合成数据的作用,许多客户发现海量合成数据中绝大部分是无用噪音,且在现实用例中表现糟糕 [11][44][45] - 公司指出,模型在合成数据上训练后,可能只擅长解决学术基准问题,而在现实世界中表现不佳,合成数据会使模型在狭窄的相似性范围内崩溃,缺乏多样性 [45][46][49] - 公司强调,即使模型能力超越人类,人类反馈也永远不会过时,深入、细致的人类评估是所有前沿模型实验室公认的“黄金标准” [11][52] - 对于未来AI训练数据需求,公司认为将是多种数据的结合,包括强化学习环境和专家推理轨迹等,单一的奖励信号不足以捕捉复杂任务的全貌 [11][43] 对模型评估与行业基准的批判 - 公司批评大语言模型竞技场和各种学术基准测试是“人工智能的一大祸害”,导致模型被训练去优化排版、表情符号和回答长度等表面特征,牺牲了事实性和指令遵循能力,本质上是在训练模型产出“点击诱饵” [11][55][61][62] - 公司指出,许多团队专注于提升与现实世界脱节的“SAT风格”基准测试分数,而不是取得真实的进步 [63][64] - 公司认为,真正可靠的评估方法是投入时间进行深度人类评估,包括事实核查和指令遵循检查,这需要评估者具备良好的品味 [76] 数据质量的定义与生产 - 公司对“高质量”数据的定义超越了简单的规则符合,而是拥抱主观性、创造力和人类智慧,例如写诗或数学证明可以有成千上万种正确方法 [72][73] - 公司生产高质量数据依赖于“可扩展监督”理念,即构建合适的人机交互界面和工具,让人与AI协作,产出比任何一方单独完成质量更高的数据 [31] - 公司认为,许多竞争对手用“人海战术”并检查清单条款的方式,只能规模化地生产平庸的同质化数据 [71][73][74] 创业与公司管理哲学 - 创始人强调创业是为了解决问题,而不是为了融资,公司自创立起就实现盈利,因此选择不融资以保持控制权和专注于产品 [5][9][12] - 创始人批评硅谷许多创始人为了融资而融资,缺乏真正要解决的宏大问题 [12][13] - 创始人认为在创业初期不应过早招聘产品经理、数据科学家等角色,而应追求10倍或100倍的改变,而非微小的百分点优化 [17] - 创始人相信,保持小规模、高人才密度的团队,可以减少会议、面试和信息同步的时间,使沟通更顺畅、迭代更快,能用10%的资源做出好10倍的产品 [78][80][81]
0 融资、10 亿美元营收,数据标注领域真正的巨头,不认为合成数据是未来
Founder Park· 2025-07-29 19:49
公司概况 - Surge AI是一家专注于AI数据标注的公司,2020年由华人创始人Edwin Chen创立,团队规模约120人,2023年营收达10亿美元,至今未进行融资 [1] - 公司客户包括Google、OpenAI和Anthropic等头部AI企业,已成为数据标注领域最大的人类数据服务商 [5] - 对比竞争对手Scale AI,后者2023年收入8.7亿美元,已完成F轮融资累计16亿美元,但被Meta收购大部分股份后遭大客户暂停合作 [2] 商业模式 - 核心产品是直接用于训练和评估AI模型的高质量数据,包括监督微调数据、偏好数据等,区别于传统人力外包公司 [4] - 交付形式不仅包括数据本身,还包括相关洞察如损失模式、失败模式等,形成完整的数据应用生态 [15] - 采用不融资策略,依靠自身盈利能力发展,保持公司控制权和产品专注度 [7][9] 技术优势 - 构建复杂算法系统衡量和改进数据质量,而非简单依赖人力外包 [17][18] - 平台技术能识别高质量内容,如创意写作、编程解决方案等主观性强的工作 [20][21] - 采用类似Google搜索的质量评估体系,收集多维度信号输入机器学习模型 [23] 行业观点 - 合成数据被高估,海量合成数据中绝大部分是无用噪音,现实表现糟糕 [32][33] - 大语言模型竞技场误导模型优化方向,导致模型追求表面特征而非实质质量 [38][39] - 人类反馈永不过时,细致的人类评估是前沿模型实验室公认的黄金标准 [37][50] 数据质量 - 高质量数据标准强调主观创造力和智慧,而非机械满足条框要求 [46][47] - 不同领域需定制化质量评估标准,结合整体性原则与专业差异 [49] - 真正的质量评估需要深入人类审查,而非五秒直觉判断 [50] 行业趋势 - 未来AI训练需要多种数据结合,包括强化学习环境和专家推理轨迹等 [31] - 模型市场将呈现多样化格局,不同公司侧重不同能力和个性 [44][45] - AI工具可能放大工程师能力差异,使10倍工程师进阶为100倍工程师 [61][62]