Workflow
数据标注
icon
搜索文档
大模型下半场:谁在掘金数据标注?
36氪· 2025-09-02 16:25
两个月前,Meta豪掷约150亿美元(约合人民币1078亿元)入股Scale AI,一举拿下49%股份。交易完成 后,Scale估值被推高至290亿美元。 作为硅谷AI赛道近几年最猛的黑马,Scale AI从成立到估值飙升至138亿美元,仅用了5年时间,几乎创 造了一个行业的神话。 这家公司的主业,是数据标注。低成本的员工门槛和海量的人工参与,这个看似枯燥且"苦力活"的领 域,长期以来被视为是AI产业链里最不性感、最缺乏想象力的一环。 然而,正是凭借这门"脏活累活",Scale在大模型时代迅速完成了从幕后到台前的跃迁,成为硅谷最炙 手可热的明星公司。Meta的出手,则进一步将数据标注这个原本处于产业底层的环节,推向了聚光灯 下。 更耐人寻味的是,这场收购并不仅仅是资本层面的"下注"。 作为交易的一部分,Scale创始人兼CEO汪滔将卸任,带领部分核心员工加入Meta,组建所谓的「超级 智能小组」,同时保留Scale董事会席位。换句话说,Meta买的不只是数据,更是汪滔本人的战略眼光 和执行能力。 这场来势汹汹的收购背后,折射出的是Meta的数据焦虑。 2024年,Meta推出的Llama4Behemoth,曾 ...
清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪
南方都市报· 2025-08-29 14:50
行业发展趋势 - 数据标注产业进入新战略阶段 行业逐步完善并走向成熟 催生新职业和职业技能标准 [3] - 传统人工标注市场竞争激烈且内卷化 用工需求规模大且流动性高 [4] - 未来大模型将带动标注工作 智能检测和工具优化成为长远发展方向 [4] - 合成数据领域发展值得关注 通过AI数据搭接适应发展需求 [5] 地域与行业分布 - 用工需求从低成本地区向经济发达地区和人工智能前沿领域转移 [4] - 河南、四川等人力资本丰富地区呈现活跃发展态势 [4] - 行业主要集中在信息技术和科学研究领域 人工智能先导研究行业用工需求最旺盛 [4] 企业分类与发展模式 - 数据标注企业可通过2×2矩阵按场景强度和基础强度划分为双强、双弱、偏强、偏弱四种类型 [5] - 具身机器人行业发展较好 技术具有引领性 [5] - 大型产业和企业拥有更多专业力量开发模型并进行数据标注 [5] - 国外场景团队专注于垂直场景的数据采集和标注 [5] - 外包团队和众包团队提供灵活低成本劳动力 众包团队在小众场景创新方面具有优势 [5] 发展战略建议 - 推进AI辅助标注与全自动化标注技术 使产业从劳动密集型向知识密集型转变 [8] - 建立多轮质检与反馈机制 完善质控体制 精准淘汰劣质数据 [8] - 开发行业针对性标注系统 利用中国丰富应用场景和数据资源推动垂直细分领域发展 [8] - 深化校企合作加速技术转化 推动行业标准制定 [9] - 强化技能培训优化人力配置 建立质量追踪机制提升从业人员专业技能 [9] 核心发展理念 - 大模型人工智能与高质量数据集形成相辅相成、双轮驱动的格局 [1][6][8] - 人工智能+行动到哪里 高质量数据集就走到哪里 [6] - 高质量数据集走到哪里 人工智能就走到哪里 [1][6][8]
Alarum Technologies .(ALAR) - 2025 Q2 - Earnings Call Transcript
2025-08-28 21:30
财务数据和关键指标变化 - 第二季度收入880万美元 略低于去年同期的890万美元 [6][16] - 净利润30万美元 去年同期净亏损40万美元 [6][19] - 调整后EBITDA 100万美元 去年同期为340万美元 [6][19] - 非IFRS毛利率63% 去年同期为78% [17] - 运营费用540万美元 去年同期420万美元 主要因研发人员成本增加 [17] - 金融收入40万美元 去年同期金融费用250万美元 主要因认股权证公允价值变动 [18] - 股东权益增至2910万美元 去年底为2640万美元 [20] - 现金及长期投资余额2500万美元 与去年持平 [14][20] - 基本每股收益0.04美元 去年同期亏损0.05美元 [19][20] 各条业务线数据和关键指标变化 - AI客户群体显著增长 主要替代其他细分市场的客户 [16] - 新推出大规模AI数据收集和标注项目 涉及数据收集、标注和微调用例 [7][8] - 旗舰产品数据收集器和网站解锁器需求强劲 代理网络快速扩张 [8] - 客户结构变化导致净留存率NRR为0.98 [16] 各个市场数据和关键指标变化 - AI市场成为主要驱动力 客户包括大型科技公司和电商平台 [6][7] - 与亚洲最大在线市场之一达成合作 开展大规模数据收集项目 [7] - 客户范围从科技巨头到初创企业 数据价值显著提升 [7] 公司战略和发展方向和行业竞争 - 战略决策增加投资 利用盈利业务再投资于公司发展 [13] - 投资重点包括创新、基础设施、客户群扩张和与大公司合作 [13] - 代理网络基础设施投资增加销售成本但优化长期网络基础设施 [10] - 研发投入增加以扩展产品组合和能力 [11][17] - 目标成为AI数据收集的核心企业 满足各类公司需求 [12][13] - 行业处于早期阶段 高度动态和不可预测 [12] - 竞争激烈 公司利用盈利运营和专业知识扩大网络和服务器能力 [60] 管理层对经营环境和未来前景的评论 - 业绩超预期且符合6月上调的指引 [6] - 数据成为最有价值的商品 带来一代人一次的机会 [9] - 短期利润率下降是设计选择 为满足主要AI玩家需求 [10][13] - 市场仍处于婴儿期 客户需求难以预测超过几个月 [12] - 建议投资者以多季度而非单季度评判发展 [12] - 第三季度起与战略客户合作 预计增加季度收入约300万美元 [17] - 新项目初期利润率较低 影响整体盈利能力 [17][22] 其他重要信息 - 认股权证将在一个月内到期 消除未来影响 [18] - 2025年1月支付170万美元税款 影响现金流 [21] - 2025年收入指引1280万美元 同比增长78% [22] - 调整后EBITDA指引约110万美元 范围±5万美元 [22] - 指引包含新大型AI数据项目的初步影响 [22] 问答环节所有提问和回答 问题: 大客户利润率低的原因和恢复条件 [25] - 因新产品的技术基础设施成本高 特别是服务器和网络相关成本 [27][28][30] - 需要改善成本结构或增加标准毛利率项目来恢复利润率 [32] 问题: 新产品特点 [34] - 数据量、体积和带宽需求巨大 与以往项目有重大区别 [35] 问题: 更广泛客户群使用情况和新客户渠道 [36] - AI和数据需求趋势强劲 新客户不断涌入 渠道良好 [37] - 需求巨大 正投资网络基础设施和功能以满足需求 [38] 问题: 客户结构变化对客户终身价值的影响 [42][43] - NRR计算方法可能暂时误导 但季度间增长显著 [45][47] - AI客户需求可能持续 未来NRR将反映这种变化 [47] 问题: 大客户历史和对Q2的影响 [49] - 客户合作约1.5季度 Q2已有可观收入 现在显著增长 [50][51] 问题: Q3收入300万美元的可见性 [52] - 三分之二季度已过 对9月预测有信心 [55] - 项目持续时间不可预测 与其他项目相同 [56] 问题: 未来毛利率走势 [59] - 若增长来自当前业务模式 毛利率可能改善 - 若有新项目 可能再次影响毛利率 - 行业需求增长但竞争激烈 公司正投资扩大能力 [60]
当AI浪潮来到西部山乡小县
新华社· 2025-08-19 18:18
行业发展趋势 - 人工智能数据标注被纳入国家职业分类目录 数据标注总规模达17282TB 从业人员5.8万人[4][7] - 预计到2027年数据标注产业规模年均复合增长率超过20% 产业向高质量精细化定制化发展[7] - 西北欠发达县建成数字经济创新中心 辐射带动1000余人就业 人工智能打破县乡就业天花板[9] 企业运营状况 - 宜君县爱豆科技累计完成60.7万项数据标注任务 实现产值3500余万元[6] - 公司员工人数达240余人 超过70%为当地农村女性 包含回乡就业大学生[6][7] - 企业配备儿童成长空间解决员工育儿需求 实现工作生活平衡[8] 业务模式特点 - 数据标注涵盖文本图片语音注释 涉及无人驾驶辅助医疗金融保险等AI应用场景[4][6] - 基础数据标注通过系统培训即可胜任 对从业人员要求不高[4] - 员工需通过零误差考试才能上岗 单日最高切换7个任务类型[6] 人才结构变化 - 46岁农妇转型人工智能训练师 月均收入达4000元[2][7] - 员工原从事导游幼师纺织工等职业 现持证上岗成为技术人才[6] - 31岁农村员工成为企业骨干 代表参加世界人工智能大会[9] 区域经济影响 - 7.2万人口小县吸引青年人才回流 带动外卖平台及餐饮服务业发展[1][9] - 县政府联合企业开展高校招聘 成功引进20多名铜川籍员工[5] - 科技企业招聘不设年龄学历门槛 重点培训电脑操作技能[4]
GPT-5不及预期,但给OpenAI喂数据的公司却身价暴涨
虎嗅APP· 2025-08-10 21:24
AGI接口与AI行业转折点 - OpenAI最新模型GPT-5性能提升未达预期,显示传统依赖数据量和计算资源的模型优化路径可能接近天花板 [4] - 行业面临关键转折:需突破现有训练范式,转向更高质量数据或新型技术方案 [4] Turing公司转型与业务模式 - 从人力资源招聘公司转型为AGI基础设施提供商,核心业务包括数据标注、模型训练支持及企业AI解决方案 [5][10][23] - 形成两大业务线:Turing AGI Advancement(服务顶级AI实验室)和Turing Intelligence(赋能传统企业AI化) [23] - 2024年实现盈亏平衡,年度收入达3亿美元(同比增长三倍),累计融资2.25亿美元,估值22亿美元 [12][16][28] 核心资产与竞争优势 - 拥有400万技术人才库的AI驱动人才云平台,可快速匹配领域专家(如Python工程师、生命科学PhD) [9][25] - 自研ALAN AI工具平台,支持数据生成至模型评估的全流程自动化 [25] - 数据质量为核心壁垒,提供稀缺的高质量代码及专业标注数据(如OpenAI训练GPT-4的关键数据集) [5][11][32] 行业趋势与竞争格局 - 数据标注市场2024年规模180亿美元,预计2025年增至220亿美元(CAGR 20-30%) [30] - 头部公司如Scale AI被Meta以290亿美元估值收购49%股权,显示资本高度关注 [30] - 竞争分化:Turing走一站式平台路线,Surge AI专注高价值标注(如多轮对话、AI安全测试) [36][37] 创始人背景与战略执行 - 联合创始人Jonathan Siddharth和Vijay Krishnan为斯坦福计算机硕士,曾成功创业并被收购 [15][17] - 转型策略务实:保留原有人才业务现金流,同时重点投入AI数据服务 [21] - 通过高频透明汇报和资源动员能力吸引资本(如UpHonest Capital投资) [6] 技术瓶颈与数据需求升级 - OpenAI内部测试显示,下一代模型需依赖私有数据、合成数据或人类反馈突破性能瓶颈 [31] - 数据标注进入"精英喂养"时代,需领域专家取代初级标注员(如Meta训练Llama3投入超1000万条人类标注数据) [32][33] - Turing通过中立立场和专家网络满足实验室对深度、多样性数据的需求 [32]
GPT-5不及预期,但给OpenAI喂数据的公司却身价暴涨
虎嗅· 2025-08-10 16:37
核心观点 - OpenAI最新模型GPT-5性能提升幅度未达预期,显示传统增加数据量和计算资源的路径可能已接近天花板 [2][3] - Turing公司从人力资源招聘转型为AGI基础设施提供商,抓住AI行业数据需求激增的机遇,估值7年内从零增长至22亿美元 [4][7][10] - 数据标注行业进入"精英喂养"时代,高质量专业数据成为竞争关键,Turing凭借400万人才库和ALAN AI平台占据优势 [9][23][29] 公司转型与业务 - Turing最初是远程工程师招聘平台,2021年成为独角兽时已拥有400万开发者人才网络和ALAN AI平台 [7] - 转型后形成两大业务线:Turing AGI Advancement服务顶级AI实验室,Turing Intelligence服务企业AI应用开发 [20] - 保留原有业务提供现金流支撑,同时将主要资源投入AI新业务,2024年实现3亿美元ARR并盈利 [10][17][25] 融资与估值 - 2021年Series D轮融资8700万美元,估值11亿美元 [10] - 2025年Series E轮融资1.11亿美元,估值翻倍至22亿美元,累计融资2.25亿美元 [10][11] - 投资方包括马来西亚主权基金Khazanah Nasional Berhad、WestBridge Capital等机构 [10] 行业趋势 - 全球AI数据收集与标注市场规模2024年达180亿美元,预计2025年增至220亿美元 [26] - Meta以143亿美元收购Scale AI 49%股权,显示数据标注领域受资本热捧 [26] - 顶级AI实验室面临高质量数据短缺,需要领域专家取代初级标注员 [29][30] 竞争格局 - Turing采取一站式平台策略,业务范围覆盖人才、代码数据和AI系统搭建 [33] - Surge AI专注精品路线,主攻高难度标注任务,强调"质量为王" [34][35] - 数据质量成为行业胜负手,Turing的400万人才库构成核心竞争优势 [31][36]
【私募调研记录】凯丰投资调研海天瑞声
证券之星· 2025-08-05 08:07
公司业务与增长驱动 - 全球AI技术快速发展推动计算机视觉、自然语言和智能语音三大业务板块全面增长 其中计算机视觉和自然语言业务占比提升 [1] - 2025年收入增长核心驱动因素包括AI产业两大发展趋势和创新业务布局 以及与华为的战略合作和东南亚数据交付体系 [1] - 海外市场拓展通过并购菲律宾交付基地和加快全球化服务网络建设全面推进全球化战略布局 [1] 技术合作与行业布局 - 与华为合作涉及昇腾DeepSeek数据飞轮智能体、陕西智慧文旅项目、京西智谷数字人平台及配音平台项目 [1] - 数据要素领域通过参与国家训练数据标注基地建设形成综合解决方案 [1] - 训练垂向领域大模型数据来源分为公开数据、客户自有数据和垂直场景定向采集数据 [1] 行业趋势与竞争壁垒 - 数据标注行业将更加智能化 数据安全及合规能力成为核心评价维度 [1] - 公司核心竞争力体现在服务产品双模式、技术平台能力、供应链资源管理和数据安全及合规能力 [1] - 产品数据集业务与定制化服务业务区别在于前者是模拟数据 后者是定向化需求的纯加工服务 [1]
世纪恒通:公司在数据标注领域已建立基础能力
证券日报网· 2025-08-04 18:41
公司业务进展 - 公司在数据标注领域已建立基础能力 [1] - 相关业务正在按计划稳步推进中 [1] - 具体业务规模及效益受市场需求、行业竞争等多重因素影响 [1]
自动驾驶数据标注主要是标注什么?
自动驾驶之心· 2025-08-03 08:33
自动驾驶数据标注的核心作用 - 数据标注是将原始感知数据转化为结构化标签的基础环节,直接影响自动驾驶系统的识别、理解和决策能力 [4] - 准确系统的标注能提升感知算法的鲁棒性与泛化能力,在技术体系中具有不可替代性 [4] 图像数据标注方法 - 标注目标包括车辆、非机动车、行人、交通标志、红绿灯、车道线等关键对象 [5] - 采用二维边界框、实例分割或语义分割形式,语义分割对每个像素赋予类别标签实现高精度识别 [5] - 实例分割区分同类物体个体边界,如并行车辆需标注为"车辆A"、"车辆B"等独立实体 [5] 激光雷达点云标注特点 - 通过三维包围框记录目标在X/Y/Z轴的尺寸、中心点、朝向角和类别属性 [7] - 需标注动态状态(静止、缓行、变道)并在连续帧中赋予一致标识符(object ID)以构建时序轨迹 [7] 多传感器融合标注要求 - 图像与激光雷达数据需跨模态标注对应关系,通过坐标转换实现二维与三维语义对齐 [9] - 依赖高精度传感器外参标定,为多模态特征提取和时空建模提供基础支撑 [9] 高精地图标注内容 - 提取车道中心线、边界、类型、交通标志、信号灯结构、道路坡度等静态元素 [9] - 以图层形式叠加在WGS-84坐标系,要求厘米级精度并与感知标注保持语义一致性 [9] 环境与行为标注扩展 - 环境标签包括道路类型、天气条件、光照、交通密度等非结构化信息 [11] - 行为标注记录运动轨迹及加速、转向、横穿等动态属性,用于训练轨迹预测和意图识别模型 [11] - 人类目标可能标注关键点(头部、关节)或动作标签(挥手、奔跑)以支持复杂交互推理 [11] 标注质量控制与行业实践 - 通过标准化规范、人工复审和自动化脚本检测确保语义、空间、时间维度一致性 [13] - 特斯拉通过"影子模式"采集误判样本再标注,Waymo发布开放数据集推动行业标准趋同 [13] - 百度Apollo等国内企业通过本地化数据采集与标注提升场景适应性 [13] 数据标注的系统性价值 - 标注工作为算法提供涵盖二维语义、三维建模、多模态融合、高精地图及行为轨迹的全样本 [14] - 标准化与质量保障是实现感知、预测、决策、控制四大模块协同运作的基础支撑 [14]
又一位剑指AGI的华人理工男!这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
混沌学园· 2025-08-01 20:06
行业背景与问题 - AI数据标注行业长期遵循"人力=产量"逻辑 以Scale AI为代表的传统模式依赖海量兼职人员处理简单重复任务[7][8] - 大语言模型(LLM)兴起后 需要理解逻辑、文化、偏见等复杂反馈 传统模式暴露三大弊端:标注错误率高(如餐馆标成医院)、效率低下(小项目启动需数月)、价值密度低(空洞数据泛滥)[8][12] - 行业存在"价值错配":顶级AI工程师被迫从事低价值数据预处理 而非专注模型创新[11] Surge AI商业模式创新 - 重构竞争四维度:极致质量×精英团队×自动化系统×使命感文化 形成乘法效应[15] - 精英路线:全球筛选顶尖1%标注人才 包括博士硕士 将其定位为"AI教练"而非数据工人 团队仅110人但人均产出达Scale AI的9倍[16][17][21] - 专注高价值环节:主攻RLHF(基于人类反馈的强化学习)领域 收费达同行2-5倍 服务OpenAI等顶级实验室[19] - 智能系统:开发人机协同平台 AI负责质检与辅助 人类专注高阶判断 每周处理数百万条高质量数据[20][21] - 文化驱动:以"养育AGI"为使命 标注者自视为"AI父母" 形成金钱无法替代的精神凝聚力[24] 商业成果与行业影响 - 2024年营收超10亿美元(约70亿人民币) 反超Scale AI(8.7亿美元) 零外部融资情况下估值达150亿美元[1][27][28] - 客户质量审计表现优于Scale AI 获O'Reilly创始人公开称赞 Meta投资Scale后更多实验室转向Surge[27] - 开创"高维战场":与Snorkel AI(程序化标注)相比更擅长人类价值观判断 与Turing(专家众包)相比提供更稳定的团队协同输出[29][32] - 验证新范式:证明"更聪明人力+更智能系统"可超越线性规模增长 重新定义AI数据需求为"人类智慧养料"而非简单标注[30][31]