Workflow
数据标注
icon
搜索文档
东北三省共建数据标注产业集群
辽宁日报· 2025-11-23 08:48
产业战略规划 - 辽宁、吉林、黑龙江三省将共建具备全球竞争力的数据标注产业集群,并谋划组建东北数据标注解决方案联合体 [1] - 东北地区将以专业化、智能化、国际化为导向,通过政府引导、企业主体、市场运作的协同共建模式,构建区域性产业集群体系 [2] - 联合体将整合各地资源和优势,为全国客户提供全栈式、高价值的解决方案,并联合开拓应用场景 [2] 产业发展现状 - 沈阳市作为国家级数据标注基地之一,已标注数据总量超过8323TB,形成134个高质量数据集,应用于76个大模型 [1] - 沈阳市参与制定国家标准2项、行业标准4项,引育数据标注企业65家,从业人员达1.18万余人,产业规模约25.9亿元 [1] - 产业加快数据要素价值释放,已交易数据集28个,交易金额达1.02亿元 [1] 应用与生态建设 - 数据标注被定义为人工智能训练过程中的关键环节,是将数据“原油”炼成“汽油”的关键工艺 [1] - 联合体将“打包”东北的工业、农业、文旅等全域产业升级需求,为区域内标注企业提供试验田和首用地 [2] - 目标是建设覆盖东北亚的数据标注产业,形成专业化分工协作、互联互通的产业生态 [2]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 16:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]
3位00后,估值700亿
36氪· 2025-10-28 20:09
公司融资与估值 - 公司完成2.5亿美元(约合人民币18亿元)新融资,估值达到100亿美元(约合人民币710亿元),是其今年2月20亿美元估值的5倍 [1] - 公司成立于2023年,至今合计融资额达3.5亿美元(约合人民币25亿元) [1] - 新融资由风投公司Felicis领投,Benchmark、General Catalyst和Robinhood Ventures等风投公司参投 [3] 业务发展与财务表现 - 公司核心业务为AI招聘,通过AI筛选简历并为候选人快速匹配岗位,后基于庞大人才网络拓展至数据标注和大模型评估业务 [3][8] - 公司17个月营收运行率从1美元增长至5亿美元(约合人民币36亿元) [1] - 截至今年2月,公司年度经常性收入已达到7000万美元(约合人民币4.97亿元) [3] - 公司管理的专家总数达30000名,所有专家的日薪总计超过150万美元(约合人民币1065万元) [3][9] 创始团队与公司背景 - 公司由三位00后创始人于2023年大二辍学后创立,他们分别是CTO Adarsh Hiremath(哈佛大学计算机科学专业)、CEO Brendan Foody和COO Surya Midha(均来自乔治城大学,分别为经济学和外交专业) [1][4] - CEO Brendan Foody在2021年曾创立云基础设施公司Serosin,成功将高性能计算机使用成本降低90% [4] 技术平台与运营模式 - 企业客户通过自然语言描述岗位需求,公司AI工具可在几秒内对数十万份简历、作品集、社交平台及代码库进行深度语义搜索以匹配最佳候选人 [5] - 公司首创AI生产力指数(APEX),用于评估AI模型执行具有经济价值知识工作的能力,涵盖投资银行、法律、咨询和医疗四个专业领域 [10] - APEX v1.0包含200个案例,由约100名顶级专家团队构建,专业人员完成其中任务平均需要3.5小时 [10][11] 市场竞争与行业动态 - 竞争对手Scale AI被Meta以140亿美元收购49%股份后,其部分客户和员工转向公司,促使公司收入翻倍 [14] - Scale AI已起诉公司涉嫌窃取商业机密,案件目前尚无定论 [14] - OpenAI发布的医疗大模型测试评估集HealthBench采用了公司的APEX体系,GPT-5在该评估中获得64.2%的最高分 [11]
泰安打造全流程数据标注生态圈
大众日报· 2025-10-27 11:26
小红书平台内容生态 - 平台内容从美妆时尚、旅游美食等泛生活分享扩展至二次元、游戏、娱乐等多元兴趣领域,成为年轻人的"线上兴趣班" [1] - 内容的呈现与分发依赖精准的数据审核与标注 [1] 数据标注行业与技术 - 数据标注是为原始数据(如图像、文本、音频、视频)打上有意义的标签,使机器学习模型能够学习 [1] - 山东菲利信数字科技有限公司自主研发采标一体化数据标注平台,界面简洁、操作便捷,支持图像、文本、语音及内容审核等多种业务类型 [1] - 公司通过该平台高效管理项目、标注员与质检流程,并与腾讯、阿里等巨头合作 [1] 泰安市数据标注产业格局 - 产业形成良好基础:一家头部企业引领、两大标注集群并进、一条完整产业链初具规模 [2] - 泰盈科技作为数字中后台运营服务行业领头羊,依托行业资源迅速打开数据标注市场 [2] - 百度智能云(泰山)人工智能基础数据产业基地与菲利信(泰山)数字经济产业基地构成两大集群 [2] - 已集聚30余家数据标注企业,形成从上游数据采集与治理,中游数据标注与加工,到下游人工智能训练与应用的全流程产业链 [2]
大连数字和软件服务交易会启幕
辽宁日报· 2025-10-25 08:59
行业活动概览 - 2025大连数字和软件服务交易会于10月24日启幕 主题为“数智赋能产业 创新引领未来” [1] - 交易会重点围绕人工智能 数据标注 工业互联网 车联网 低空经济 跨境电商六个前沿赛道开展分项活动 [1] - 交易会期间有8个数字经济重点合作项目签约 涵盖数字技术研发 软件创新应用 产业生态构建等多个核心领域 [1] 产业生态规划 - 大连高新区发布数据标注 人工智能 工业互联网 车联网等九大产业园生态规划 [1] - 大连市数据标注产业园揭牌并正式开园 集公共服务平台 人才培训中心 企业办公空间等功能于一体 [1] - 数据标注产业园专注于智能驾驶 医疗健康 具身智能 海洋经济 金融监管等领域 [1] 产业发展目标 - 数据标注产业园预计到2027年形成近万人规模的区域性数据服务枢纽 [1] - 目标是将该产业园打造成为国内最具影响力的数据标注产业基地之一 [1] 项目落地机制 - 交易会配套组织多项产业对接考察活动 围绕落地场景深入对接 [1] - 建立项目落地跟踪机制 以确保合作意向转化为实际成果 放大数交会长期效应 [1]
在美国,有多少硕博被当做鉴黄师?
虎嗅APP· 2025-10-19 21:20
AI行业劳动力现状 - AI行业资本投入巨大,出现一亿美金挖人才的现象[5] - 普通用户在不知情下成为AI训练免费劳动力,例如通过短视频反馈和人机验证为算法提供数据[8][9] - AI评估员和数据标注员构成行业重要但被忽视的劳动力群体[13] AI数据标注工作内容与要求演变 - 早期视觉模型数据标注是纯体力活,如图片拉框打点,计件付费且规则苛刻,框一个文本0.03元,日入150需框5000条[16] - 大语言模型评估需判断力、审美和领域知识,工作内容包括评估答案准确性、文学风格和伦理合规性[19] - 岗位要求显著提高,需硕士、博士或专业领域背景人员,如作家、教师、物理学博士[20][21] - 国内标注岗位要求本科学历,部分需985/211背景或特定专业知识[26] AI劳动力薪酬与待遇问题 - Google AI评估员时薪16~21美元,月薪约3000美元,低于美国联邦救济金水平[22] - Google AI工程师年薪10万美元起,远高于评估员薪酬[23] - 国内AI数据标注岗位薪资约7k~10k人民币,但职业发展受限,知识被一次性榨干[28][29] - 外包员工工作不稳定,项目结束即失业,绩效与正确率挂钩(低于90%取消绩效),工资可能拖欠[32][33] 外包模式与全球劳动力压榨 - 大厂通过外包满足数据标注需求,形成金字塔结构,顶层为算法天才,底层为高学历小时工[29] - 外包链条长,甲方包给乙方后层层转包至二包、三包,下游工作室为利润压缩规范[31] - 肯尼亚工人以低于2美元时薪标注暴力、色情内容,导致心理创伤[37] - 亚马逊无人超市依赖印度员工手动确认摄像头数据,多伦多送餐机器人由菲律宾工人远程操控[37] 行业价值观与劳动力尊重 - 硅谷存在技术至上、文科无用观念,轻视人文领域劳动价值[25] - AI发展依赖非计算机知识(如文学、哲学)确保模型伦理和品质,但相关劳动者未被充分重视[25] - 行业需尊重知识和劳动,避免高科技成为压榨工具,否则AI难以实现解放人类生产力的目标[39]
在美国,有多少硕博被当做鉴黄师?
虎嗅· 2025-10-19 18:55
AI行业人才投入与薪酬结构 - 资本圈投入巨大资金挖掘AI人才,金额可达一亿美金[1] - AI工程师在Google总部年薪可达10万美元以上,属于高薪岗位[25] - 与高薪技术岗位形成鲜明对比的是,AI评估员时薪仅为16-21美元,月薪约3000美元[23] AI数据标注与评估工作内容演变 - 早期视觉模型数据标注为纯体力劳动,如图片拉框打点,单文本框报酬0.03元人民币[15][16] - 大语言模型评估工作需判断答案准确性、资料引用准确性、语气专业性及文学创作质量,要求评估师具备判断力、审美和领域知识[20] - 数据标注工作存在严格规则,如车辆类型精准区分、标注误差不超过3像素,返工现象普遍[17] AI人力资源构成与资质要求 - Google承包商招募的AI评估员包括经验丰富的作家、硕士学历教师和物理学博士[22] - 国内数据标注岗位要求从大专提升至本科,部分岗位明确要求985/211院校及特定领域专业知识[32] - 具有211本985硕背景的应届生从事数据标注工作,薪资范围在7千至1万元人民币[34] 外包模式与劳动力管理现状 - 大厂通过外包满足数据标注大量、紧急的需求,避免组建正式团队的高成本[35] - 项目存在多层转包现象,从甲方到乙方再到二包、三包甚至四包[38] - 外包公司管理不规范,存在项目突然终止、加班无补偿、绩效与正确率挂钩(低于90%取消绩效)等问题[39][40] 全球AI产业链底层劳动者状况 - 肯尼亚工人以低于2美元时薪处理暴力、色情等有害内容,导致严重心理创伤[45] - 亚马逊无人超市Amazon Go依赖1000多名印度员工手动确认摄像头画面[46] - 多伦多送餐机器人由菲律宾工人在夜间远程操控,体现人类劳动力替代智能技术的成本优势[47] AI产业发展模式与社会影响 - 当前AI产业形成金字塔结构,顶层为少数算法天才,底层为大量高学历数据标注员[36] - 全球AI产业存在路径依赖,通过层层转包和劳动力压榨维持运转[43] - 科技公司更倾向于低成本使用人类执行标准化任务,而非开发完全自主的智能系统[47]
发展数据标注技术,把数据“原油”炼成“汽油”
人民日报· 2025-10-15 14:46
行业政策与规划 - 国务院提出支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业[1] - 国家发展改革委等部门提出到2027年数据标注产业年均复合增长率超过20%[2] - 国家数据局已指导7个城市建设数据标注基地,截至今年上半年带动相关产值超过83亿元[2] 产业定义与重要性 - 数据标注是通过给文本、语音、图片、视频等数据打标签,将人类知识转化为计算机语言的关键工艺[1] - 数据标注是人工智能高质量数据集建设的关键环节,能有效提升垂类大模型的专业领域性能[1] - 高质量数据可加速人工智能赋能千行百业,如在分子药物研发和工业质检场景中标记关键信息[2] 市场需求与增长 - 在人工智能大模型和政策驱动下,数据标注需求爆发式增长[2] - 有企业过去一年承接了2000多项数据标注项目需求,预计今年业务量将增长超过30%[2] - 数据标注产业已初步形成覆盖上游数据提供方、中游平台公司、下游服务商的产业链闭环[3] 技术与发展趋势 - 智能化标注技术不断突破,人机协同标注模式日益成熟,通过人工智能预标注提高效率和准确性[3] - 数据标注产业从劳动密集型转变为知识密集型,对从业者专业要求越来越高[3] - 被标注数据从文本、图像等单模态向多模态转变,领域从通识扩展到医疗、工业制造等专识领域[3] 当前阶段与未来方向 - 数据标注产业还处于初期阶段,需要各方群策群力共同培育产业生态[4] - 各地需加强政策落实和引导,搭建常态化供需对接服务平台[4] - 应用企业需以实际需求驱动数据标注能力体系建设,与标注企业共同开展工具研发和流程优化[4]
发展数据标注技术,把数据“原油”炼成“汽油”(新视点)
人民日报· 2025-10-15 06:12
行业政策与规划 - 国务院于2024年8月印发《关于深入实施"人工智能+"行动的意见》,明确提出支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业[1] - 国家发展改革委、国家数据局等部门于2024年12月印发《关于促进数据标注产业高质量发展的实施意见》,提出到2027年产业规模大幅跃升,年均复合增长率超过20%[2] - 国家数据局已指导安徽合肥、四川成都等7个城市建设数据标注基地,截至2025年上半年,基地建设数据集524个,服务大模型163个,带动相关产值超过83亿元[2] 行业定义与重要性 - 数据标注是对文本、语音、图片、视频等数据打标签,通过特征提取、分类、注释、标签化等操作,将人类知识转化为计算机可识别语言[1] - 数据标注被誉为将数据"原油"炼成"汽油"的关键工艺,可为数据注入新价值,是人工智能高质量数据集建设的关键环节[1] - 经过标注的高质量数据能有效提升垂类大模型的专业领域性能,加速人工智能赋能千行百业[1] 市场需求与增长 - 在人工智能大模型和相关政策驱动下,数据标注需求呈现爆发式增长[2] - 标贝科技在过去一年承接了2000多项数据标注项目需求,预计2025年业务量将增长超过30%[2] - 数据标注应用场景广泛,包括分子和药物智能研发中对原子、电荷等关键信息标记,以及工业质检中对产品缺陷尺寸、位置、类型等信息标记[2] 产业链与产业生态 - 数据标注产业链覆盖上游数据提供方、中游平台公司、下游服务商,中国已初步形成产业链闭环[3] - 产业集聚带动作用日益凸显,各地加速培育数据标注产业[3] - 产业处于初期阶段,需要加强政策落实和引导,搭建常态化供需对接服务平台,推动行业标准规范建设[4] 技术与发展趋势 - 技术迭代趋势明显,智能化标注技术不断突破,人机协同标注模式日益成熟,通过人工智能预标注数据,标注员承担关键决策角色以纠正模型错误[3] - 要求提升趋势显著,高质量数据集评判标准更复杂,产业从劳动密集型转变为知识密集型,对从业者专业要求越来越高[3] - 对象拓展趋势持续,被标注数据从文本、图像等单模态向多模态转变,领域从通识扩展到医疗、工业制造等专识领域[3]
19岁,她融资1.2亿
36氪· 2025-10-12 15:58
公司概况 - Serena Ge是一位19岁的华人00后,从滑铁卢大学计算机专业辍学创业,是AI数据公司Datacurve的联合创始人兼CEO [2][3] - 公司成立仅一年,累计融资额达1770万美元(约合人民币1.26亿元) [2][8] - 团队规模约10人,目前仍在招聘中 [5] 创业背景与契机 - 创始人高中时期曾开发攀岩App和青少年效率网页应用,具备早期创业经验 [3] - 在AI独角兽Cohere实习期间发现高质量专家级标注数据的市场缺口,成为创业直接动因 [3] - 2024年因AI智能体项目UncleGPT获得Y Combinator孵化器邀请后选择辍学创业 [3] 商业模式与核心优势 - 公司定位为AI大模型提供高质量的代码数据,破解"缺乏丰富、精心挑选的高质量标注数据"的行业瓶颈 [4] - 采用"赏金猎人"系统Shipd平台,吸引超过1400名程序员通过完成算法、测试等任务挑战获取5-50美元/任务的报酬,已发放赏金超100万美元 [4] - 核心竞争力在于通过游戏化平台提升用户体验和数据标记精准度,而非单纯依赖金钱激励 [4] - 成立两个月即实现收入超过100万美元,客户覆盖超一半基础模型实验室及Facebook、苹果、亚马逊、谷歌等科技巨头 [5] 融资进展 - 近期完成1500万美元A轮融资,由Chemistry VC领投,Y Combinator、Afore Capital、Homebrew等机构及DeepMind、OpenAI、Anthropic等公司投资人参与 [7] - 早期完成270万美元种子轮融资,投资方包括Y Combinator、Pioneer Fund及Coinbase前CTO Balaji Srinivasan [7] - Chemistry VC合伙人评价其为"投资过增长最快的初创公司之一",并在融资后签署公司史上最大合同 [7] 行业定位与竞争格局 - 公司被类比为AI数据领域的"卖铲人",专注于AI三大基石(数据、算法、算力)中的数据环节 [9] - 主要竞争对手包括Scale AI(Meta斥资约150亿美元入股后估值超290亿美元)和Surge AI(正进行10亿美元首轮融资,估值约240亿美元) [10] - 行业存在"有多少人工就有多少智能"的特点,数据标注公司因提供模型训练必需的"干净"数据而具有不可替代性 [8] 00后AI创业潮现象 - 同类00后创业案例频现:Axiom Math完成6400万美元融资(投后估值3亿美元)[11]、Sola Solutions获2100万美元融资[11]、Mercor寻求约百亿美元估值[12] - 国内清华00后创立的机器人公司零次方完成亿元级融资,灵初智能、UniX AI、重隼科技等年轻创始人不断涌现 [13] - 行业观点认为AI降低了创业门槛,00后创业者具备"没有包袱,学习快,动手更快"的独特优势 [14]