Data Annotation
搜索文档
抢占“数据粮仓” 四川要从“跟跑”变“领跑”
新浪财经· 2026-02-04 04:49
行业政策与战略定位 - 人工智能被视为新一轮科技革命的“发动机”,高质量数据是其驱动的“燃料”[3] - 四川省政府工作报告明确提出2026年将持续推进“数据要素+”行动,并推进国家数据标注基地(成都)和省级数据标注基地建设[3] - 提案旨在为四川抢占AI时代的“数据粮仓”建言献策,推动四川从“数据大省”迈向“数据强省”[3] 成都数据标注基地发展现状 - 数据标注是将原始数据转化为机器学习算法可识别形式的过程,是人工智能产业的基石[4] - 成都于2024年5月入选首批国家数据标注基地建设城市名单[4] - 成都已发布“天府数据标注公共服务平台”,覆盖多模态标注需求,实现开发效率提升50%[4] - 成都已累计培育40余家数据标注核心企业,产业规模化初步形成[4] 当前面临的主要挑战 - 高质量数据集是基地建设的“核心产品”,但四川在《数据标注优秀案例集》中入选项目少,标志性成果需扩面提质[4] - 数据标注产业的“头部带动效应”亟待加强,企业综合能力与龙头带动能力竞争是关键[4] - 数据标注人才缺口大,四川数据标注人员月薪约4000元至7000元,较东部地区7000元至10000元存在显著差距,高端人才引育留用压力大[5] - 技术创新能力是短板,原创性技术积累仍需加强[5] 提案提出的四项发展建议 - 以“高质量数据集攻坚”补齐供给短板:建议建立“公共数据标注目录+重点行业高质量数据集清单”两张底账,将标注服务纳入政府采购,通过“揭榜挂帅”建设一批高质量标志性数据集[6] - 以“链主培育+平台枢纽”做强头部企业引领:建议支持本地企业通过资源整合、协同创新做大做强,依托天府数据标注公共服务平台形成省域协同、对外输出的“一张网”枢纽[6] - 以“产教融合”补齐高端复合型人才缺口:建议将人才工作升级为“体系化供给”,依托高校院所与企业共建基地,把真实订单、工具链嵌入培养体系,对紧缺人才实施差异化支持[6] - 以“关键技术突破”提升智能化标注能力:建议组织“揭榜挂帅”攻关自动标注、质检评测等核心模块,推动企业联合高校建设技术创新平台,引导创新由“数量增长”转向“质量提升”[6] 四川的发展潜力与目标 - 四川具备科教资源富集、产业门类齐全、场景规模大的基础条件,有潜力将“数据资源优势”转化为“科技创新优势”和“产业竞争优势”[6] - 系统提升数据标注能力和高质量数据集供给水平,旨在为四川建设西部数据科创高地提供坚实支撑[6]
人机协作中,他们教机器“读”世界
新浪财经· 2026-01-29 06:02
(来源:新华日报) □ 本报记者 周娴 实习生 任馨怡 上午9点,徐州市泉山区的江苏淮海科技城园区,江苏京数智能科技有限公司的办公区里,键盘敲击声 如潮水般准时响起。近50名年轻人端坐在电脑前,指尖重复着点击、拖拽、分类的动作——他们正通过 专业标注工具,为一张张商品图像打上精准"标签"。从商品标题、主图,到SKU(库存量单位)属性, 每一个细节都经由他们的双手,被逐一转化为机器能够理解的"语言"。他们,教会机器"读懂"世界。 数据标注行业驶入"快车道" "目前,江苏淮海科技城内已聚集20多家数据标注相关企业,规模小的不足50人,规模大的则超过200 人。"据江苏淮海科技城相关负责人介绍,这些企业的标注业务主要围绕三类通用模型展开:一类服务 于车企的自动驾驶系统,一类面向豆包、千问等大语言模型进行文本与图像标注,还有一类则专注于京 东、淘宝等电商平台的商品信息标注。 市场调研机构艾瑞咨询的数据显示,到2025年,中国人工智能数据采集与标注服务市场规模预计将突破 120亿元。在江苏,数据标注相关岗位的招聘信息遍布各地:南京某研究院招募标注工程师,月薪可达 万元,提供双休与五险一金;徐州有企业面向实习生开放岗位, ...
数据在身边,残疾人也能成为人工智能时代的“炼油人”
华夏时报· 2026-01-13 20:41
行业概述与核心价值 - 数据标注是人工智能产业发展的关键基础环节,负责将文本、语音、图片、视频等原始数据通过“打标签”进行处理,以供模型学习,被誉为将数据“原油”炼成“汽油”[2] - 行业正从劳动密集型加速转向技术密集型,简单重复性标注工作的60%–70%已能通过人工智能模型自动完成,从业者价值更多体现在处理新兴、高复杂度或空白领域的任务上[6][7] 市场发展与政策驱动 - “东数西算”工程持续推进,全国七大数据标注基地陆续建成,数据资源向中西部倾斜,依托地区劳动力成本优势,数据标注岗位得以大量布局[4] - 工信部印发《工业互联网和人工智能融合赋能行动方案》,提出引导龙头企业开放数据资源打造高质量行业数据集,为数据标注产业发展带来新动能[7] 就业赋能与人力资源 - 数据标注工作具有“重脑力专注、轻肢体强度”的特点,与残疾人的工作需求高度契合,吸引了越来越多残疾人参与[2] - 残疾人在数据标注工作中展现出特殊优势,例如听力障碍者视觉感知敏锐,肢体不便者手部操作稳定,脑瘫人士专注力与持久性超常,并能更敏锐地识别潜在歧视性表达以优化AI工具[3] - 行业为残疾人提供了稳定的就业机会和收入,例如宁夏的标注师韩好通过培训上岗,沈阳的脑瘫患者孙欣宇月薪约3000元并享有福利待遇,其所在公司有40多名残疾人员工[4][6] 产业模式与技能提升 - 出现“政—校—企”深度协同模式,例如辽宁京数云大数据科技有限公司作为全国首家残健融合AI数据服务基地,与科技企业及高校研发中心合作,实现人岗精准匹配[9] - 地方政府、残联与科技企业推动专项培训,例如甘肃的数据标注师培训聚焦数字图像、文本及3D点云标注等关键技术,以提升残疾人就业的可持续性[9] - 从业者需持续提升技能以应对行业转型,例如从推拿按摩师转行的王笑,通过培训成为专注于交通领域的数据标注师[9]
贵阳贵安高质量发展“新脉动”|做AI产业背后的“数字基石”,看贵阳这家企业怎么干?
搜狐财经· 2026-01-08 06:05
行业定位与作用 - 数据标注是人工智能产业从技术探索迈向产业规模化落地的“第一道工序”,是连接原始数据与智能算法的关键桥梁 [1] - 数据标注师为自动驾驶、智能客服、电商推荐等领域的AI模型搭建认知框架,是特殊的“数字工匠” [1] 公司概况与使命 - 贵州鼎联数据有限公司是一家专注于数据标注产业的国家高新技术企业 [3] - 公司自2014年成立以来,始终以“让数据更有价值”为使命 [3] - 公司于2023年落地贵州,成立平台运营中心,专注于互联网数据信息技术服务,致力于数据要素标准体系建设 [3] 业务与服务领域 - 公司为智慧出行、智慧教育、新零售等多个领域提供通用性、支撑性的AI数据标注及审核服务 [1][3] - 公司提供的数据类型包括普通标注、拉框标注、视频切片剪辑以及音频处理 [3] - 公司自主研发并运营的鼎联数据平台,可提供图像、文本、音视频到3D点云的全流程数据解决方案,涵盖采集、预处理、标注及AI应用各个环节 [6] 客户与合作 - 公司已与京东、滴滴等知名互联网企业及新能源车企达成深度合作 [4] - 公司在智慧出行领域已站稳脚跟 [4] 平台能力与规模 - 公司平台已累计注册近16万的在线数据标注人员,形成了强大的服务支撑能力 [6] - 公司是贵州省专精特新中小企业,与省内10多所高校、30多个学院建立产教融合合作,依托数据平台能力助力高校实训实践 [8] 未来发展规划 - 公司新年核心奋斗目标是完成规模的跃升,构建数据服务的生态新格局 [10] - 具体目标包括:自有平台注册用户突破50万,战略级合作伙伴增至20家,基地运营面积不低于4000平方米 [10] - 计划在贵阳建立数据运营中心,在安顺建立数据基地,深化两地协同发展 [10] - 未来将在贵州特色产业领域提供数据驱动的平台化服务,为贵州推进数字产业化、产业数字化贡献力量 [8]
AI创业版黄仁勋:37岁华人0融资5年干到240亿,谷歌OpenAI都是客户
量子位· 2025-12-27 12:59
公司概况与创始人背景 - 公司Surge AI是一家数据标注公司,由37岁的美裔华人Edwin Chen于2020年创立[4][8] - 创始人Edwin Chen毕业于麻省理工学院,主修数学、计算机科学和语言学,曾在Twitter、Google和Facebook担任机器学习工程师或数据科学家[5][39] - 创始人精通多门语言,包括法语、西班牙语和普通话,其跨学科背景(语言与数学)深刻影响了公司的人才理念[19][35][37] - 公司创立时未接受任何风险投资,创始人押上了自己打工十年的全部积蓄[9] - 截至2024年,公司估值达到240亿美元,创始人凭借180亿美元身价成为福布斯400榜单中最年轻且最富有的新晋富豪之一[2][4] 创业理念与战略选择 - 创始人创业的核心理念是解决高质量人工标注数据的稀缺性问题,认为没有足够的高质量数据就无法实现AGI(通用人工智能)[6] - 公司拒绝所有风险投资,旨在完全掌握战略制定话语权,避免公司发展偏离创始人的最初设想[11][25] - 公司对资本市场保持独立姿态,明确表示对收购和上市不感兴趣[24] - 近期公司态度出现微妙变化,据悉正在洽谈一笔约10亿美元的融资,若完成估值有望升至300亿美元[32] 商业模式与市场定位 - 公司定位为高端数据标注服务提供商,其收费标准通常比市场溢价50%,极端情况下可比竞争对手高出10倍[23] - 公司早期客户包括Airbnb、Twitch、Twitter等互联网巨头,并与谷歌签署了年价值超过1亿美元的合作协议[23] - 2024年,公司营收正式超过竞争对手Scale AI,达到12亿美元[23] - 公司面临激烈的市场竞争,部分重要客户(如OpenAI)已转向其竞争对手,也有客户(如Cohere)将数据标注工作转移至内部[31] 核心技术路线与差异化竞争力 - 公司摒弃传统低附加值的数据标注模式,其核心任务是编码“人类的丰富性”,即让高学历人才将专业知识转化为AI可理解的代码[14] - 公司大幅抬高数据标注员的准入门槛,要求员工具备高等教育背景,甚至聘请博士与高校教授[15] - 公司雇佣了来自全球50多个国家的一百多万名自由职业者,负责提出难题、评估模型回答并编写标准答案[17] - 公司设计了一套与YouTube推荐机制相似的内部匹配系统,根据标注员的历史表现数据,动态分配最合适的项目[16] - 公司的差异化竞争力在于其“人才基因”,积极招募拥有“科技和人文十字路口”背景的员工,约20%的员工拥有音乐等非传统行业背景,以帮助AI捕捉复杂微妙的文化与社会语境[19][21][22] 行业挑战与风险 - 数据标注行业被认为几乎没有什么护城河,客户可以随时切换供应商或选择自研[31] - 行业面临一个根本性长期风险:如果AI继续进步,最终可能不再需要人工标注数据[31] - 竞争对手正获得大量资金涌入,并通过“价格战”争夺市场份额[28]
19岁亚裔女孩,做“赏金猎人”,融了1个亿
虎嗅APP· 2025-11-08 17:29
公司概况与市场定位 - Datacurve是一家成立于2024年的年轻数据标注公司,其核心产品Shipd平台采用“游戏化标注”方式,将算法题、调试任务等编程挑战打包为“通关任务”并明码标价,吸引工程师参与完成[2][3] - 公司成立一年多即累计融资1770万美元(约合人民币1.2亿元),其中2025年10月完成的A轮融资额为1500万美元,投资方包括Chemistry的Mark Goldberg以及DeepMind、Anthropic、OpenAI等AI一线公司员工[2][4] - 公司旨在挑战该领域的绝对独角兽Scale AI,后者估值已达200多亿美元,而同赛道公司Turing的估值也达到22亿美元[3] 商业模式与核心优势 - 平台通过“赏金猎人”形式与游戏化结构吸引工程师,任务被包装为“Quests”,并设有排行榜、连胜奖励与任务等级,使参与者兼具解题者和竞技者身份[10] - 平台强调“工程师优先”的社区文化,旨在为高技能参与者提供有归属感、认可度与专业认同的生态环境,而非单纯的任务派发系统[11] - 这种“游戏化+精英制”设计形成了独特护城河,平台不追求让所有人都参与,而是筛选能完成特定类型任务的顶尖工程师,从而保障数据质量[11] - 平台上线不久已支付超过100万美元的赏金,吸引了来自亚马逊、AMD等企业的高级工程师参与[15] 产品理念与冷启动过程 - 公司起点源于CEO Serena Ge在Cohere实习时意识到高质量编码数据供给是模型能力提升的瓶颈,传统标注方式无法满足模型所需的复杂度与专业性[12] - 公司将数据标注转变为具备挑战性质的题目,通过游戏化平台激励工程师贡献数据,这一理念使其成功入选硅谷最大孵化器Y Combinator的2024年冬季项目[13] - 公司始终将Shipd定位为“面向工程师的消费者产品,而不是数据标记操作”,将大量精力投入用户体验优化,确保用户“愿意来、愿意留”[15] - 商业化路径上,公司初期聚焦与高端AI实验室和工具型初创公司建立合作,包括OpenAI、Anthropic等基础模型实验室,依托早期投资人网络与口碑传播实现数据销售[15] 版权风险与合规机制 - 平台通过多层机制防护版权风险,包括贡献者原创声明、自动抄袭检测以及共识评审机制(即同行互评)[19] - 平台从源头控制任务来源,优先发布来自受控仓库的题目,避免涉及企业私有代码,部分任务要求工程师在沙盒环境中从零编写[19] - 在法律层面,公司通过“数据合同”和“许可协议”清晰定义数据的使用范围、归属权和责任边界[19] 行业竞争格局与公司对比 - 数据标注行业公司主要分为由人力资源公司转型而来(如Mercor、Turing)和新型数据公司转型而来两大类[24] - Mercor从AI招聘公司转型为数据标注服务商,依托其积累的医生、律师等专家资源,在RLHF和垂直领域标注任务方面展现出强竞争力[24][25] - Turing从远程工程师招聘业务扩展至AI基础设施服务,实现从人才服务向训练数据与人才管理一体化平台的转型[25] - Datacurve的直接竞争对手是同样走精细化高质量数据路线的Surge AI,后者采用human-in-the-loop机制,由领域专家配合定制化模型完成标注[18][25] - 公司未来计划将平台机制迁移到金融、医学、营销等垂直专业领域,以拓展业务边界[25]
海天瑞声:DeepSeek等AI新技术并未减少数据标注需求
搜狐财经· 2025-07-04 15:41
公司股东减持情况 - 公司股东及高管减持行为严格遵守证监会及交易所规定 已提前披露减持计划且减持比例和方式符合监管要求 减持主要系股东自身资金需求 [1] - 减持采用集中竞价和大宗交易两种方式 其中大宗交易不通过二级市场减持 不会直接影响二级市场价格 [1] - 公司实控人及管理层坚定看好行业前景 持续通过战略投入巩固核心竞争力 [1] AI新技术对数据标注行业影响 - DeepSeek等AI新技术未减少数据标注需求 反而推动行业向更高阶、更专业化方向发展 [1] - 大模型产业化加速推动金融、医疗、法律等专业领域高质量标注数据需求扩大 需要行业专家深度参与 [1] - AI正从单一文本向多模态(语音、视觉等)演进 催生增量数据需求 [1] - 模型精度提升对数据标注准确性、一致性要求更高 数据标注难度增加 [1] 公司经营状况 - 公司上半年经营情况正常并持续向好 具体财务数据以后续定期报告为准 [1] - 公司近期已通过分红等方式回馈投资者 后续将加强减持管理减少对二级市场影响 [1]
华人 AI Surge 欲融 10 亿美金估值 150 亿,Grammarly 收购 Superhuman,Figma 提交上市
投资实习所· 2025-07-02 11:54
Figma上市及业务表现 - Figma提交上市申请 过去12个月收入8.21亿美元 同比增长46% 毛利率达91% [1] - 福布斯2000强企业中78%使用Figma 76%客户使用至少2个产品 [1] - 公司持有现金15.4亿美元 包括Adobe支付的10亿美元分手费 [1] - 已投资7000万美元比特币ETF 计划通过USDC再投资3000万美元 [1] - 国际收入占比过半 85%周活跃用户来自美国以外地区 [2] Figma产品发展 - 推出多款AI产品 包括Figma Sites(网站构建) Figma Make(AI编程) Figma Buzz(图像生成) Figma Draw(矢量设计) [1] - 从设计工具扩展为全功能平台 [1] Grammarly收购动态 - Grammarly以14亿美元收购Coda后 再次收购AI邮件产品Superhuman [2] - Superhuman 2021年估值8.25亿美元 ARR约3500万美元 [2] - 产品帮助用户每周节省4小时邮件处理时间 回复速度提高1-2天 [2] - 已处理20亿次对话 使用60亿次快捷键 发送5亿条消息 [2] - Superhuman团队100余人将加入Grammarly 品牌和产品保留 [3] Superhuman发展历程 - 构建MVP和获取首个客户耗时18个月 初期每周仅引导4-5个新客户 [6] - 通过极致用户体验从Gmail和Outlook手中抢占市场 [5] Grammarly战略转型 - 收购旨在开发更先进AI代理 加速产品路线图 [3] - 重点投资AI和电子邮件领域 构建新协作沟通体验 [3] - 此前融资10亿美元 ARR超7亿美元 [6] Surge AI融资计划 - 计划以150亿美元估值融资10亿美元 最终估值可能更高 [6] - 创始人Edwin Chen曾任Google和Meta工程师 [8] - 专注于数据标注和RLHF 客户包括Google OpenAI Microsoft等科技巨头 [8] - 融资目的包括解决员工流动性 与Scale AI竞争客户 [8]
没融资收入超 Scale AI 的竞对创始人也是华人,一个 16 岁少年融了 100 万美金
投资实习所· 2025-06-20 13:37
AI行业并购与创业案例 - 创立仅6个月的AI Coding产品Base44以8000万美金被Wix收购[1] - 16岁少年自学编程开发AI产品已完成100万美金融资[13] Surge AI公司概况 - 无外部投资情况下实现10亿美金ARR 团队规模约100人且持续盈利[3] - 同期收入超过估值290亿美金的Scale AI(8.7亿美金)[13] - 创始人Edwin Chen为MIT数学与语言学背景 曾在Google/Facebook等公司负责机器学习团队[3] 行业痛点与创业契机 - 高质量人工标注数据稀缺 科技巨头内部标注流程耗时数月[4] - 现有标注质量堪忧 Google GoEmotions数据集30%标注错误[4] - 疫情期大量高素质人才失业为组建专业标注团队创造机会[5] Surge AI核心技术优势 - 专有质量控制技术 解决大语言模型对低质量数据的敏感性[6] - 领域专家标注团队 覆盖法律/医学/商业/STEM等专业领域[7] - 快速实验界面 支持API集成和RLHF工具对接[9] - 红队测试工具 持续发现AI模型安全漏洞[10] 战略合作与市场定位 - 深度参与Anthropic Claude 3模型训练 获联合创始人公开赞誉[11] - 定位高端数据标注市场 专注复杂AI训练任务[13] - 创立6个月实现10倍增长 差异化竞争策略见效[13]
挂牌示范园区、建立产教融合培训中心……武汉数据标注产业这样发展
长江日报· 2025-06-13 15:23
武汉市数据标注产业发展规划 - 武汉市出台《武汉市数据标注产业发展三年行动方案(2025—2027年)》以推动产业创新融合[1] - 武汉已聚集数据标注重点企业60余家并培育行业领先数据集和标注工具平台[5] - 两个武汉项目入选全国首批数据标注优秀案例[5] 产业支持措施 - 武汉建立数据标注产业项目库和企业库包含重点企业57家重点项目37个[5] - 搭建线上供需对接平台并组织线下活动促进产业链协同[5] - 采用市区共建模式挂牌数据标注示范园区配套人才融资研发等支持[5] 技术创新与人才发展 - 重点支持文本音频视频点云动作捕捉等标注技术的自主原创和二次开发[6] - 建立数据标注产教融合培训中心计划每年认证培训不少于600名实用技能人才[6] - 鼓励企业参与国家"两新""两重""数据要素x"项目争取政策资金支持[6]