Workflow
数据标注
icon
搜索文档
又一位剑指AGI的华人理工男!这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
混沌学园· 2025-08-01 20:06
据路透社报道,这家公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 (约合1000亿元人民币) 。 这听起来像个天方夜谭,但它真实发生了。 在今天这个AI的"淘金热"时代,所有人都坚信着"大力出奇迹"的"规模法则"(Scaling Law)——更大的模型、更多的数据、更强的算力,就能换来更聪 明的AI。然而,就在所有巨头都在疯狂堆人、烧钱、扩大规模时,一个"异类"悄然崛起。 这家公司仅有110名正式员工,却在2024年创造了超过10亿美元(约70亿人民币)的年营收,甚至反超了拥有上千员工、背靠Meta这棵大树的行业霸主 Scale AI。 故事的主角叫Surge AI,一个在AI"军备竞赛"的后勤线上掀起风暴的"隐形帝国"。它的创始人,37岁的华人理工男Edwin Chen,面对外界对竞品Scale AI的热捧,只是淡淡地回应: "他们在追逐资本时,我们在打磨数据纯度。真正的AGI(通用人工智能),需要人类智慧的精粹,而非廉价标签。" 这句话,几乎点明了Surge AI逆袭的所有秘密,它在告诉世界: 在通往AGAI的路上,高质量的"人性",远比海量的"人数"更重要。 风口上的"数据民工" 喂不饱真 ...
Surge AI估值超千亿元 数据标注产业走向台前
中国经营报· 2025-08-01 01:32
公司概况 - Surge AI是一家专注于数据标注的AI企业,成立仅五年便成为估值150亿美元(约合1000亿元人民币)的"独角兽",目前正在进行10亿美元的首轮融资 [1] - 公司由前Google和Meta工程师Edwin Chen于2020年创立,旨在解决传统数据标注行业效率与质量双低的问题 [2] - 2024年营收突破10亿美元,客户包括OpenAI、谷歌、微软、Meta、Anthropic等全球顶级科技公司和研究机构 [3] 业务模式与技术优势 - 构建智能化标注平台,集成计算机视觉与自然语言处理技术,通过动态任务调度系统优化全球众包资源,大幅提升标注效率 [4] - 通过资本杠杆快速收购区域性标注服务商,形成覆盖多语种、多场景的服务网络,摊薄边际成本 [4] - 与OpenAI、Anthropic等大模型企业合作,通过对AI大模型输出内容进行质量分级和校验,帮助提升模型性能 [3] 行业背景与市场机遇 - 数据标注是AI发展的关键基础产业,涉及数据筛选、清洗、分类、注释等加工处理,对高质量数据集建设至关重要 [1] - 全球AI数据需求以每年230%的速度增长,大模型参数量每12个月扩大10倍,GPT-4训练消耗的10万亿token中超过60%需人工标注 [2] - 中国数据标注市场规模从2020年30亿元增长至2024年80亿元,年复合增长率超25%,预计2029年达204.3亿元 [6] 技术发展趋势 - 行业正从"手工作业转向人机协同",AI辅助工具渗透率不断提升 [1] - 未来突破方向包括:主动学习框架减少人工干预、跨模态联合标注提升一致性、隐私计算集成满足合规需求 [8] - 智能化标注技术如预训练模型初步标注+人工审核修正,将成为提高效率和质量的关键 [8] 政策与产业生态 - 中国出台系列政策支持数据标注产业发展,国家数据局指导7个城市建设数据标注基地,已建设数据集524个(规模超29PB),服务大模型163个 [7] - 地方应用案例涌现,如中国电信四川公司利用19个地市方言语音大数据构建四川方言数据集并训练方言大模型 [6] 竞争格局与挑战 - 行业正从劳动密集型向技术驱动型转变,需求增长但面临数据存量、质量、利用效率等问题 [7] - Surge AI模式依赖特定市场环境与资源优势,不同地区和企业需差异化发展路径 [4]
互联网数据“耗尽”后,高质量训练数据从哪里获得?专家热议
南方都市报· 2025-07-29 09:53
7月28日,2025世界人工智能大会暨人工智能全球治理高级别会议在上海举行。在"大模型治理和有序发 展生态分论坛"上,多位专家围绕大模型时代的数据治理与伦理建设,共商人工智能健康发展路径。有 专家指出,互联网数据将在2026年左右被大模型训练"耗尽"已成行业共识,要建设新的高质量数据集, 应从垂直行业获取、通过"众包众创"方式与前沿学校学者开展合作等实现。 论坛现场 对未处理的初级数据,比如语音、图像、文本、视频等进行加工处理,进而转换为机器可识别信息的过 程,通常被称为数据标注。近年来,随着人工智能技术发展,数据标注成为大模型训练的必要环节,其 上游产业需求大量增加。 他强调,合成数据通常存在缺陷、误差、歧视等问题。原因在于合成数据也是基于现有数据生成或是受 到现有数据的影响。"如果算法有偏见的话,它可能会带来更大的数据偏见,导致'Garbage in garbage out'。"另一方面,合成数据存在伦理、公平性和隐私泄露的风险。"通过合成数据的'逆向工程',能够 猜到原本数据中包含的一些个人隐私。" 施佳樑也表示,如今行业内已基本达成共识,无论国内国外,2026年左右互联网数据即将被大模型训练 耗尽。那 ...
2025数博会下月在贵阳举行 国家数据局:将开展高质量数据集和数据标注交流活动,并发布一批典型案例
每日经济新闻· 2025-07-22 15:27
2025中国国际大数据产业博览会 - 2025数博会由国家数据局主办、贵州省人民政府承办,将于8月28日至30日在贵阳举行,主题为"数聚产业动能智启发展新篇",聚焦数据要素与AI技术融合创新[1] - 数博会自2015年举办以来已成为我国数据领域展示成果、促进开放合作的重要平台,本届将推动数据资源高效开发利用,为产业转型注入新动力[1] 贵州省人工智能产业发展 - 贵州正加速推进AI大模型与行业场景融合,已在24个重点产业打造近100个大模型应用场景,依托华为、DeepSeek等基础大模型构建"AI+行业"生态[2] - 典型案例包括遵义铝业通过AI优化生产工艺参数实现年省1700万度电,以及旅游智能助手"黄小西"提升服务体验[2] - 全省布局AI人才培养体系,高校设立68个相关专业,同时建设国家重点实验室、省人工智能实验室等研发平台[3] - 贵州抢抓低空经济、智能驾驶等新赛道,在电子信息制造、高端装备等领域引入AI动力引擎[3] 国家数据局高质量数据集建设 - 国家数据局强调高质量、多模态、精标注数据是AI发展的关键动力,中国AI成果与数据创新实践密不可分[4] - 按通识、行业通识和专识分类推进高质量数据集规范建设,构建"部门协同、央地联动"机制加速应用落地[5] - 已指导合肥、成都等7个城市建设数据标注基地,截至上半年累计建设数据集524个(规模超29PB),服务163个大模型[5] - 开展生态培育专项行动,挖掘医疗、工业、交通等领域标杆案例,搭建供需对接平台促进数据要素市场化[5] 未来发展规划 - 国家数据局将打造"数据标注+数据集+模型+应用场景+价值化"闭环生态,推进数据要素改革与"人工智能+"行动协同[6] - 计划在数博会期间举办数据集交流活动、供需对接会,并发布高质量数据集典型案例[6]
国家数据局副局长罗英:指导合肥、成都等7个城市建设数据标注基地先行先试
快讯· 2025-07-22 12:57
数据标注基地建设 - 国家数据局指导合肥、成都等7个城市建设数据标注基地先行先试 [1] - 截至今年上半年7个基地已建设数据集524个、规模超29PB [1] - 7个基地服务大模型163个 [1] 高质量数据集规范 - 按照通识、行业通识和行业专识的细分类别推进高质量数据集规范建设 [1] - 征集推广医疗、工业、交通等领域高质量数据集典型案例 [1] - 定期举办技术交流活动研讨数据标注、合成及高质量数据集建设方法论 [1] 数据生态培育 - 组织开展生态培育专项行动包括供需对接平台建设 [1] - 促进数据供给、技术提供与场景应用方精准匹配 [1] - 深度研讨数据标注技术并搭建常态化对接机制 [1]
扎克伯格豪掷143亿,押注27岁华裔天才少年
36氪· 2025-07-12 16:44
核心观点 - 27岁亿万富翁Alexandr Wang创立Scale AI,公司从数据标注起家,抓住自动驾驶和大语言模型两大风口,现被Meta以143亿美金收购49%股份,创始人成为Meta超级智能团队领导者[1][5][9][17] 创始人背景 - Alexandr Wang中文名汪滔,97年出生,17岁参加物理和计算机奥赛,18岁进入麻省理工后辍学创业[5] - 父母均为物理学家,遗传高智商,被福布斯评为"全球最年轻的白手起家亿万富翁",身价20亿美金[5] - 创业初期获Y Combinator孵化,项目负责人为OpenAI创始人山姆·奥特曼[5] 公司发展历程 - 2016年19岁时创立Scale AI,主营AI数据标注业务,初期服务自动驾驶公司Cruise、特斯拉和苹果[5][7] - 2019年估值达10亿美金,业务转向大语言模型,为OpenAI训练初代ChatGPT提供数据服务[7] - 2024年面临行业竞争加剧,被Meta以143亿美金收购49%股份,近乎控股[9][17] 商业模式 - 核心业务为人工数据标注,属于劳动密集型产业,通过境外外包平台Remotasks雇佣菲律宾、肯尼亚等廉价劳动力,时薪仅几美分[8][11] - 成本控制导致质量问题,曾发生外包人员用GPT伪造标注数据事件,后限制重要项目外包区域至美英等国[11] - 竞争对手Surge AI采用博士级标注员,主打高质量专业领域数据服务[13] 行业动态 - AI大模型爆发催生数据标注需求,2024年起涌现多家竞争对手,行业从Scale AI垄断转向多元化竞争[13] - Meta的Llama4大模型表现不佳,促使公司重金组建超级AI团队,Scale AI创始人被任命为领导者[15][17] - 自动驾驶和大语言模型是Scale AI抓住的两大风口,中国AI已具备赶超美国硬实力[5][7]
一文读懂数据标注:定义、最佳实践、工具、优势、挑战、类型等
36氪· 2025-07-01 10:20
数据标注的核心重要性 - 数据标注是AI和ML模型实现高准确性的基础 通过精确标记和分类数据使机器学习模型发挥最佳性能 [1] - 80%的数据科学家将超过60%的时间用于数据准备和注释而非模型构建 凸显其作为AI基础的关键地位 [2] - 标注良好的数据可确保模型识别模式 做出准确预测并适应新场景 直接影响AI系统性能 [5] 数据标注技术类型 - 图像标注涉及添加标题和关键词作为属性 对计算机视觉和面部识别至关重要 [13] - 音频标注需标记语言 方言 情绪等多维参数 包括非言语情况的识别 [16] - 视频标注通过逐帧标记实现运动追踪和行为分析 对自动驾驶等应用关键 [20] - 文本标注需处理语义 意图和情感等抽象元素 是NLP领域最复杂的标注类型 [23] - LiDAR标注处理3D点云数据 在自动驾驶和城市规划中实现精确空间识别 [31] 行业应用与市场趋势 - 全球数据标注工具市场规模预计2028年达34亿美元 2021-2028年CAGR为38.5% [5] - 自动驾驶领域依赖标注的图像和激光雷达数据检测行人及障碍物 [5] - 医疗AI通过标记的X射线和CT扫描训练模型识别病理特征 [5] - 78%企业AI项目采用内外结合的数据标注服务 较2022年增长24个百分点 [5] - 零售AI通过产品标记和情感分析实现个性化推荐 [5][81] 标注方法与效率提升 - AI辅助注释可减少70%的标注时间 同时提高15-20%的模型准确率 [5][48] - 半自动标注结合人工准确性和AI处理能力 显著提升大规模数据处理效率 [7] - 主动学习方法通过模型引导标注过程 减少30-40%的标注成本 [8][5] - 合成数据生成技术降低对人工标注的依赖 提高模型多样性 [6] 工具选择与实施策略 - 专业标注工具应支持多模态数据管理和版本控制 确保数据集完整性 [40] - 标注平台需内置质量检查模块 实现实时协作和反馈跟踪 [42] - 企业级解决方案必须符合GDPR/HIPAA等数据安全标准 [43][61] - 构建与购买决策需权衡项目规模 预算 合规要求和人力资源等因素 [50][68] 质量控制与最佳实践 - 多阶段质量控制系统包括初始培训 持续监控和最终审查 [47][54] - 采用多位注释者交叉验证可显著提高标注一致性 [86][88] - 清晰的标注指南和标准化流程是保证质量的关键因素 [86][88] - 人机协作模式将人工聚焦于复杂案例 提升整体效率 [86][88]
一家数据标注公司,估值追上百度和理想汽车
雪豹财经社· 2025-06-24 23:53
数据标注行业价值重估 - 传统认知中数据标注公司被视为技术含量低、利润微薄的产业链底层角色,主要依赖低成本人力完成简单标注任务[5][6] - Scale AI通过转型为数据基础设施企业打破行业刻板印象,其2024年营收达8.7亿美元,Meta以143亿美元收购49%股份后估值飙升至290亿美元(约2082亿人民币)[5][7][18] - 当前行业转向复杂标注需求,专家数据成为AI训练关键资源,标注团队需包含各领域专业人士指导模型思维链构建[11][13] Scale AI核心竞争力 - 构建全球十万级标注网络平台(Remotasks/Outlier AI),提供计算机科学、数学等领域博士撰写的高质量语料[13] - 通过AI辅助自动化标注技术实现差异化,深度参与客户数据管理及模型训练全流程[14] - 已服务Meta、OpenAI、Google、微软及美国政府等顶级客户,2023-2024年营收从7.6亿增至8.7亿美元[17][18] Meta战略布局动机 - 直接获取高质量数据标注能力以改善Llama系列模型表现(尤其Behemoth等旗舰模型开发滞后)[20][23] - 潜在战略意图包括通过Scale AI获取竞争对手研发动态,交易后谷歌等客户贡献的1.5亿美元年收入面临流失[23][24][26] - 采用"招聘式投资"模式,重点吸纳创始人Alexandr Wang及其团队,计划由其领导新设"超级智能"部门[30][31][33] 行业竞争格局变化 - Meta投资引发连锁反应:谷歌、微软、OpenAI等终止合作,Handshake等竞争对手订单量激增300%[10][26] - AI巨头可能转向自建标注团队或多供应商策略,行业或将难以再现Scale AI级别的垄断企业[26] - 交易推动数据标注行业价值重估,但Scale AI因客户流失面临2025年20亿美元营收目标达成压力[27] 创始人商业价值 - Alexandr Wang19岁创立Scale AI,24岁成为最年轻白手起家亿万富翁,以人脉能力获得美国政府及AI巨头订单[30][31] - 非技术背景但擅长商业运作,与OpenAI CEO Altman等建立密切关系,Meta曾计划授予其"首席AI官"职位[29][31][33] - 其加盟被视为Meta在元宇宙投资失利后争夺AI主导权的关键举措[33]
“数字蓝海”起宏图
辽宁日报· 2025-06-23 08:52
公司发展历程 - 创立时仅4人,年产值50万元,如今员工几千人,年产值最高达8亿元,展现高成长性特质 [1] - 被评为辽宁省瞪羚企业、辽宁省"专精特新"企业,并荣膺中国地理信息产业百强企业、中国测绘科技创新型优秀企业 [1] - 2012年获得几乎所有测绘甲级资质和保密资质,以及检验检测机构资质(CMA)、CMMI五级等多项行业资质认证 [6] 技术实力与创新 - 获得120余项计算机软件著作权,拥有近20项专利,荣获国家级、省市级等各类奖项100余项 [1] - 自主研发智能系统实现98.6%未确权地块自动识别,助力沈阳12个区县农村集体土地治理,年增收达4.7亿元,土地纠纷发生率下降42% [3] - 采用实景三维技术数字化呈现城市空间,为城市规划、应急管理和交通优化提供便利 [4] 产学研合作与人才培养 - 与武汉大学携手设立"新技术试验应用中心",并设立奖学金激励学子投身测绘地理信息领域 [5] - 与沈阳农业大学联合成立"高分辨率对地观测系统辽宁林草资源环境遥感研究应用中心",获批组建"辽宁省城市智能规划服务工程研究中心" [6] - 作为全国测绘地理信息科普教育基地,重视产学研合作为企业持续发展提供技术支撑和人才保障 [6] 业务布局与市场拓展 - 2016年新增"导航电子地图服务",顺利进入智能驾驶领域,拥有全国仅19家的导航电子地图甲级资质 [7][8] - 在高精地图及自动驾驶领域建立成熟高效的工艺流程,为自动驾驶系统提供高精度、实时更新的地图模型 [8] - 积极布局智能驾驶业务,加大三维数字孪生数据加工、传感器融合等前沿技术研发投资,预计2025年智能驾驶业务占比将大幅提升 [8] 行业地位与竞争优势 - 专注于空间信息大数据服务和信息系统开发,聚焦智慧城市、高精导航、无人驾驶、数字孪生等核心技术领域 [1] - 深度融合遥感、大数据、物联网、云计算、人工智能等技术,打造地理信息技术新体系 [1] - 通过混合所有制改革开创测绘民营企业股改先例,展现探索与突破的魄力 [9]
95后小伙的公司卖了1000亿,风向彻底改变
36氪· 2025-06-22 21:27
AI行业风向转变 - Meta宣布收购Scale AI 49%股权 交易金额达143亿美元 Scale AI估值290亿美元 华裔创始人Alexandr Wang将加入Meta领导AI业务 [3][4][6] - 收购案标志AI行业突破方向从纵向分工转向一体化融合 算力 算法 数据三大支柱深度整合 [29][35] - 数据标注行业存在外包现象 中国公司转包至三四线城市 Scale AI外包网络覆盖菲律宾 委内瑞拉 肯尼亚等低成本劳动力地区 [11][12][13] AI产业三大支柱格局 - 算法领域OpenAI估值3000亿美元 第二名Anthropic仅615亿美元 呈现断崖式领先 [20][22] - 算力领域英伟达市值3.5万亿美元 博通1.2万亿美元 技术壁垒显著 [20][22] - 数据领域Scale AI估值290亿美元 缺乏边际成本优势和技术壁垒 市场呈现分散竞争格局 [22][27] 数据标注行业特征 - 数据标注需人工添加语义信息 自动驾驶领域涉及车道线 斑马线等精细化标注 95%工作依赖人力 [9][10] - Scale AI众包平台Romotasks注册工人超24万 主要来自第三世界国家 时薪低廉引发劳工争议 [16][18] - 菲律宾约200万人从事数据标注 肯尼亚因英语基础成为重要外包地 [15][21] 巨头战略动向 - Meta通过收购实现数据与算法融合 谷歌 微软等客户因担忧数据安全可能终止合作 [29] - 产业逻辑趋向整合 DeepSeek通过算法创新以2000块芯片完成原需万卡集群的运算 挑战"算力即权力"观念 [30][31] - Meta股价从2022年90美元涨至690美元 涨幅超7倍 市场认可其战略收购能力 [31]