Workflow
高质量数据
icon
搜索文档
突破AI行业高质量数据缺乏的瓶颈,Surge AI营收超10亿美元
36氪· 2025-08-06 17:08
公司财务与融资状况 - 公司营收超过10亿美元,而其竞争对手ScaleAI同期营收为8.7亿美元 [1] - 公司目前已实现盈利 [1] - 公司计划进行首次融资,规模或高达10亿美元,目标估值超过150亿美元 [1] - 在首轮融资前,公司一直依靠自有资金实现滚动发展,此次融资将结合新股发行与老股转让 [3] 创始人背景与团队构成 - 创始人Edwin Chen毕业于麻省理工学院,曾在谷歌、Facebook和Twitter担任机器学习和数据相关的工程职位 [3] - 工程团队负责人Andrew Mauboussin是前Twitter机器学习工程师,毕业于哈佛大学计算机科学专业 [4] - 产品与增长负责人Bradley Webb是前Facebook数据运营负责人 [4] 核心业务与市场定位 - 公司专注于为AI模型提供高质量数据,其客户包括Google、Anthropic和OpenAI等顶尖人工智能研究机构 [18] - 公司认为在算法、算力、数据三大要素中,数据质量排在第一位,其次是计算能力,然后才是算法 [5] - 公司的一大特点是专注在数据的质量,而非数量 [10] 数据质量方法论 - 公司认为高质量数据来自人类的智慧和创造力,而非简单地满足清单上的条条框框 [13] - 公司高估了合成数据的作用,有客户试验生成的一两千万条合成数据中99%都没用 [12] - 公司主张让领域专家(如诗人、文学家)来评估数据质量,以确保深度和意义 [13] - 人类反馈被视为数据生产的金标准,但需要避免低质量的标注 [12] 技术平台与运营模式 - 公司构建了功能丰富、完全可定制的数据标注模板以取代传统电子表格 [14] - 公司提供简单易用的API,便于通过编程方式创建标注任务 [15] - 公司将质量控制视为对抗性问题,构建了精密的机器学习基础设施来标记并修正人为错误 [16] - 公司采用“人机回环”基础设施,随着客户数据增多,其算法能接管更多标注工作 [16] - 公司定位为“人机协同公司”,而非传统的“劳务公司” [17] 行业趋势与机遇 - 后训练阶段对模型差异性优势的重要性逐渐与预训练齐平,甚至更关键,且对高质量数据的渴求程度大于对数量的渴求 [19] - AI行业面临高质量数据缺乏的瓶颈,细分行业的宝贵数据常隐藏于未整理的数据孤岛中 [19] - 具身智能领域对高质量数据存在巨大需求,为该领域提供数据是一个潜在的创业机会 [19]
独家对话中国联通赵亚晖,AI时代的“数据燃料”是如何炼成的?
凤凰网· 2025-08-04 20:47
中国联通数据产业底座的核心能力 - 公司作为中国通信行业国家队,拥有海量通信数据资源,并在数据治理、安全流通与行业赋能方面形成特色道路 [1] - 软件研究院是公司自主研发主力,承担数字与智能创新中心职能,副院长赵亚晖负责业务、管理及大数据系统建设 [1] AI时代高质量数据集的战略布局 - 公司数据产业底座覆盖算力、算法、数据三大能力融合,重点建设高质量数据集,包括数据基础设施产品、行业特色数据集及场景化应用 [2] - 沉淀700PB企业数据资源,联合行业伙伴构建400TB以上通信领域及行业数据集,形成"三个一"体系框架(方法论+平台工具+数据集) [2] - 建成8个领域专业化数据集(网络运营、客户服务等),支撑27个大模型场景训练,信息通信数据集入选国资委首批央企高质量建设成果 [3] 数据治理与技术创新实践 - 建立数据集分级分类管理框架,实现全生命周期规范化运营,参与国家级标准制定 [3] - 自主研发全流程工具链,集成多模态数据处理算法与自动化标注引擎,获DataOps工具创新奖 [3] - 通过"数据采集-清洗-标注-质检-应用-评估"闭环处理链路,实现智能化端到端数据生产 [3] 行业赋能与场景化应用 - 对内构建上千个智能体覆盖七大领域(办公管理、市场营销等),涉及千余细分场景,超万人参与 [6] - 对外联合伙伴开发上百个行业应用(装备制造、医疗健康等),典型案例使数据报表制作时间从小时级缩短至分钟级 [6] - 通信数据具备实时性、准确性优势,已开放工业、金融等场景服务,强调数据与大模型场景结合是关键差异化点 [6] 数据安全与流通机制 - 内部部署数据分类分级平台、4A金库等工具,实现数据使用全程上链管控 [7] - 对外构建多重技术防护体系,开发安全态势监测等产品,参与国家可信数据空间建设,推动"可用不可见"流通模式 [7] - 开展隐私计算、区块链等技术探索,协同政府与行业完善数据确权、交易等配套机制 [7]