大语言模型竞技场

搜索文档
数据标注领域真正的巨头:0融资、10亿美元营收
虎嗅· 2025-07-30 14:55
本文来自微信公众号:Founder Park,编译:Founder Park,原文标题:《0 融资、10 亿美元营收,数据 标注领域真正的巨头,不认为合成数据是未来》,头图来自:AI生成 比 Scale AI 更值得关注的 AI 数据标注公司出现了。 同样是华人创始人,2020 年创立,120 人左右的团队,去年营收达到 10 亿美元,至今没有融资, Google、OpenAI 和 Anthropic 都是它的客户。 对比之下,Scale AI 去年的收入是 8.7 亿美元,已经是 F 轮融资,累计融资 16 亿美元。 在被 Meta 收购了近一大半股份、创始人 Alexandr Wang 加入 Meta 之后,Scale AI 被谷歌、OpenAI 等 大客户暂停合作,Surge AI 的优势更加明显,隐约要成为数据标注领域的领头者。 创始人兼 CEO Edwin Chen 是一个很独特的创始人,曾在谷歌、Facebook 和 Twitter 担任机器学习工程 师的他,对于数据有非常多有价值的深入思考。Edwin Chen 最近接受了几家播客的采访,对于创业和 模型的数据训练,输出了不少观点。 比如在他看来 ...
0 融资、10 亿美元营收,数据标注领域真正的巨头,不认为合成数据是未来
Founder Park· 2025-07-29 19:49
公司概况 - Surge AI是一家专注于AI数据标注的公司,2020年由华人创始人Edwin Chen创立,团队规模约120人,2023年营收达10亿美元,至今未进行融资 [1] - 公司客户包括Google、OpenAI和Anthropic等头部AI企业,已成为数据标注领域最大的人类数据服务商 [5] - 对比竞争对手Scale AI,后者2023年收入8.7亿美元,已完成F轮融资累计16亿美元,但被Meta收购大部分股份后遭大客户暂停合作 [2] 商业模式 - 核心产品是直接用于训练和评估AI模型的高质量数据,包括监督微调数据、偏好数据等,区别于传统人力外包公司 [4] - 交付形式不仅包括数据本身,还包括相关洞察如损失模式、失败模式等,形成完整的数据应用生态 [15] - 采用不融资策略,依靠自身盈利能力发展,保持公司控制权和产品专注度 [7][9] 技术优势 - 构建复杂算法系统衡量和改进数据质量,而非简单依赖人力外包 [17][18] - 平台技术能识别高质量内容,如创意写作、编程解决方案等主观性强的工作 [20][21] - 采用类似Google搜索的质量评估体系,收集多维度信号输入机器学习模型 [23] 行业观点 - 合成数据被高估,海量合成数据中绝大部分是无用噪音,现实表现糟糕 [32][33] - 大语言模型竞技场误导模型优化方向,导致模型追求表面特征而非实质质量 [38][39] - 人类反馈永不过时,细致的人类评估是前沿模型实验室公认的黄金标准 [37][50] 数据质量 - 高质量数据标准强调主观创造力和智慧,而非机械满足条框要求 [46][47] - 不同领域需定制化质量评估标准,结合整体性原则与专业差异 [49] - 真正的质量评估需要深入人类审查,而非五秒直觉判断 [50] 行业趋势 - 未来AI训练需要多种数据结合,包括强化学习环境和专家推理轨迹等 [31] - 模型市场将呈现多样化格局,不同公司侧重不同能力和个性 [44][45] - AI工具可能放大工程师能力差异,使10倍工程师进阶为100倍工程师 [61][62]