Workflow
合成数据
icon
搜索文档
0 融资、10 亿美元营收,数据标注领域真正的巨头,不认为合成数据是未来
Founder Park· 2025-07-29 19:49
在被 Meta 收购了近一大半股份、创始人 Alexandr Wang 加入 Meta 之后,Scale AI 被谷歌、OpenAI 等 大客户暂停合作,Surge AI 的优势更加明显,隐约要成为数据标注领域的领头者。 创始人兼 CEO Edwin Chen 是一个很独特的创始人,曾在谷歌、Facebook 和 Twitter 担任机器学习工程 师的他,对于数据有非常多有价值的深入思考。Edwin Chen 最近接受了几家播客的采访,对于创业和 模型的数据训练,输出了不少观点。 比如在他看来,创业是为了解决问题,而不是为了融资。合成数据现阶段被高估,高质量的数据仍旧是 壁垒。 以及,大语言模型竞技场(LMArena),某种意义上把模型训练方向带歪了。 在合成数据和榜单已经成为了「共识」的当下,Edwin Chen 的不少观点,都值得一听。我们整理了近 期 Edwin Chen 接受 No Priors、20VC 的访谈,精选了其中的一些内容。 比 Scale AI 更值得关注的 AI 数据标注公司出现了。 同样是华人创始人,2020 年创立,120 人左右的团队,去年营收达到 10 亿美元,至今没有融资, ...
互联网数据“耗尽”后,高质量训练数据从哪里获得?专家热议
南方都市报· 2025-07-29 09:53
7月28日,2025世界人工智能大会暨人工智能全球治理高级别会议在上海举行。在"大模型治理和有序发 展生态分论坛"上,多位专家围绕大模型时代的数据治理与伦理建设,共商人工智能健康发展路径。有 专家指出,互联网数据将在2026年左右被大模型训练"耗尽"已成行业共识,要建设新的高质量数据集, 应从垂直行业获取、通过"众包众创"方式与前沿学校学者开展合作等实现。 论坛现场 对未处理的初级数据,比如语音、图像、文本、视频等进行加工处理,进而转换为机器可识别信息的过 程,通常被称为数据标注。近年来,随着人工智能技术发展,数据标注成为大模型训练的必要环节,其 上游产业需求大量增加。 他强调,合成数据通常存在缺陷、误差、歧视等问题。原因在于合成数据也是基于现有数据生成或是受 到现有数据的影响。"如果算法有偏见的话,它可能会带来更大的数据偏见,导致'Garbage in garbage out'。"另一方面,合成数据存在伦理、公平性和隐私泄露的风险。"通过合成数据的'逆向工程',能够 猜到原本数据中包含的一些个人隐私。" 施佳樑也表示,如今行业内已基本达成共识,无论国内国外,2026年左右互联网数据即将被大模型训练 耗尽。那 ...
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
bootstrap 到十亿美元 ARR:Surge AI 这匹黑马如何颠覆 Scale 霸权 ?
海外独角兽· 2025-07-25 17:52
核心观点 - Surge AI 是一家专注于高质量数据标注的公司,2024年ARR突破10亿美元,超越行业巨头Scale AI的8.7亿美元收入[3] - 公司定位为AI模型提供高质量数据标注服务,尤其在NLP、对抗性训练和RLHF领域构建技术壁垒[3] - 客户覆盖Google、OpenAI、Anthropic等顶级科技公司,强调"数据质量决定野心的上限"[3] - Meta以140亿美元投资Scale AI后,公司启动首次外部融资计划募集10亿美元,目标估值超150亿美元[4] - 公司认为高质量数据是AGI竞赛的关键纽带,语义理解与人类洞察力融合是突破瓶颈的核心[4] 01 数据标注市场 - 行业分化为两类:BPO"人力中介"(如Genpact)和AI-native"加工厂"(如Scale AI、Surge AI)[11] - BPO模式依赖人力规模化但难以保证质量,AI-native模式通过技术实现10倍效率提升[11][12] - 客户核心关注点:数据质量、处理效率、成本、可扩展性、合规性等7大维度[12] - 合成数据被高估,实际应用中易出现"狭窄场景崩溃",人工数据在敏感领域仍具不可替代性[14][17] - 垂类数据(医疗、金融)成为增长点,通用领域需求趋缓[20][23] 02 创立Surge的初衷 - 创始人Edwin Chen因在Twitter遭遇数据标注低效问题(10,000条数据交付周期数月)而创立公司[24] - 公司组建由哲学家、工程师等构成的精英标注团队,开发任务分配软件提升效率[24] - 采用Bootstrap模式,成立一个月即盈利,拒绝硅谷"先融资后创业"的传统路径[25] - 核心竞争力源于"质量大于一切"原则,客户反馈"没有你就做不到这一点"成为行业口碑[25] 03 高质量交付背后的底层技术 - 通过母语级标注团队捕捉语言nuance(如反讽"Yay, cold McDonald's"),降低误标风险[28][29] - 设计人机协同工具链:AI预筛高风险样本→人工交叉验证(如"how dare you"语气修正)[30] - 引入红队测试机制模拟攻击场景,帮助客户识别模型安全漏洞[31] - 动态偏见管控:初期高比例审核(覆盖敏感群体)→后期降至2%,平衡偏见利弊[32][33] - 交付速度形成护城河,API支持新任务即时启动,质量审核周期领先同行[34] 04 客户案例1:OpenAI GSM8K数据集 - 为OpenAI构建8500道小学数学题数据集,要求每题包含2-8步推理且答案为整数[36][38] - 标注员需STEM背景,提交试写题目并通过审核,采用"双人独立解题"歧义检测机制[36][39] - 通过句子嵌入+余弦相似度过滤重复场景,最终数据集成为LLM推理能力评估标杆[40] 05 客户案例2:Anthropic训练Claude - 解决Anthropic三大痛点:高质量RLHF数据获取难、质控体系搭建难、工具开发资源占用[43][45] - 提供科学家团队设计的专有质控技术、领域专家标注团队和快速实验接口(1-2周评估)[46][48] - Anthropic联合创始人评价Surge为"绝佳合作伙伴",支撑AI对齐研究[51] 06 创始人团队 - Edwin Chen:MIT复合学科背景,前Google/Facebook工程师,发现GoEmotions数据集30%标签错误[56] - Andrew Mauboussin:哈佛毕业,前Twitter工程师,主导实时API和多语言数据收集[59][60] - Bradley Webb:Facebook前数据运营负责人,将合规性打造为公司核心壁垒[35][62]
无线合成数据助力破解物理感知大模型数据瓶颈,SynCheck获顶会最佳论文奖
机器之心· 2025-07-23 16:57
无线感知与合成数据技术 - 无线感知技术通过捕捉无线信号的反射特性,突破传统感官限制,实现无感监测与精准解析,重塑人机交互边界 [1] - 无线感知使机器能够感知墙壁后的动静、数米外的动作及人类难以察觉的微妙变化 [1] 大模型与物理世界交互 - 构建能够理解物理原理(如电磁场、光学、声学)并与物理世界交互的大模型面临数据稀缺挑战 [2] - 语言和视觉大模型可从海量文字和视频数据中学习,但物理世界交互数据采集难度大,难以支持大模型训练需求 [2] SynCheck 合成数据解决方案 - 北京大学与匹兹堡大学团队提出 SynCheck,通过生成与真实数据质量相近的合成数据解决数据稀缺问题 [3] - 研究提出两个创新质量指标:亲和力(衡量与真实数据的相似度)和多样性(评估覆盖真实数据分布的范围) [5] - 现有无线合成数据普遍存在亲和力不足问题,导致标签错误和任务性能下降 [9] 合成数据质量评估方法 - 研究通过贝叶斯分析和性能指标建立理论支撑的通用评估框架,引入“边际”概念实现跨数据集公平比较 [7] - 动态校正合成数据分布偏差,使模型性能保持稳定提升,最佳情况下性能提升达12.9% [13][15] 合成数据应用与性能突破 - 采用半监督学习框架结合合成与真实数据,过滤低亲和力样本并分配伪标签,无需修改生成模型流程 [11] - SynCheck 在质量无关方法导致性能下降13.4%的最坏情况下仍能实现4.3%的性能提升 [13] 学术界观点与未来方向 - 学术界对合成数据存在分歧,部分学者警示“模型崩塌”风险,另一部分认为验证器机制可规避风险 [17] - 研究团队未来将推动无线大模型训练范式革新,探索多元数据源融合及通用预训练框架 [18]
银河通用王鹤最新演讲:要善于运用合成数据,加速推动人形机器人新质生产力的大规模应用
贝壳财经· 2025-07-22 10:22
行业趋势 - 2025年是人形机器人和具身智能赛道发展的关键年份,产业端不断迭代新产品,一级市场初创公司成为投资者青睐标的[1] - 具身智能是推动制造业、生产性服务业及新质生产力的关键领域[10] - 全球具身智能领域快速发展,代表性事件包括多模态大模型推出和特斯拉发布人形机器人Optimus,中国目前约有200家人形机器人和具身智能企业[11] 技术发展 - 多模态模型的下一步发展方向是将机器人动作作为输出模态,形成VLA(Vision-Language-Action)大模型,使机器人能自主理解指令并执行任务[6] - 人形机器人要具备自主决策能力需要具身大模型支持,但数据短缺是制约大规模落地的根本原因,需要上百亿数据但现有公开数据集仅百万条量级[7] - 合成数据技术可解决数据短缺问题,通过在仿真器里进行大规模强化学习来提升具身大模型的训练效率和泛化效果[8] 企业实践 - 银河通用自研仿真数据合成管线,已积累亿级真实应用场景数据及百亿级合成仿真数据,其机器人Galbot能直接将所学技能泛化到真实世界[8] - 公司推出全球首个人形机器人智慧零售解决方案,在北京已有10家门店应用,计划2025年扩展到100家药店[23] - 具身大模型还可赋能四足机器人实现商场陪伴功能,基于合成数据技术生成端到端模型实现灵巧移动[24] 行业挑战 - 人形机器人行业面临两大挑战:出货量远低于汽车行业且无法像汽车那样售出后自动回传数据[8] - 传统数据采集方法存在存量不足和效率低下问题,无法满足具身智能发展需求[19] - 当前公开数据集仅100万条,与需要的上百亿条数据相差4-5个数量级,是行业发展最大瓶颈[20] 企业成就 - 银河通用成立于2023年5月,已完成数轮融资累计24亿元人民币[25] - 公司训练出世界首个以合成数据为唯一预训练动作数据的具身基础抓取大模型GraspVLA[23] - 公司技术可实现对一个任务仅需一天下午采集数据就能在同类物品间自动泛化,大幅降低数据成本[23]
宇树科技:1到3年内机器人或许可以去流水线上打螺丝
第一财经· 2025-07-16 22:44
链博会参展企业动态 - 宇树科技首次参展链博会 展出了人形机器人G1和Go2机器人两款明星产品 产品需通过遥控器操作并支持二次开发[1] - 英伟达首次参展链博会 展台展出了Omniverse Cosmos Mega等解决方案 Mega方案支持大规模场景中仿真复杂机器人[2] - 英伟达自动驾驶业务展出了辅助系统 安全系统和智能硬件相关成果 辅助系统可通过传感器渲染极端场景帮助厂商训练[3] 机器人行业发展 - 宇树科技工作人员表示 未来1到3年机器人可能从单一工业产品发展到复合化工业场景 3到10年可能进入生活场景如家务 老人护理等[2] - 机器人未来发展需解决电池续航 材料 自重 成本控制等多重问题[2] 自动驾驶技术进展 - 英伟达相关负责人表示 自动驾驶训练需要大量数据 但厂商常缺乏真实事故和突发情况数据样本[3] - 合成数据在自动驾驶训练中具有成本和扩展性优势[3] - 英伟达考虑与中国合作伙伴共同推动汽车供应链和行业发展[4]
实探链博会:英伟达、宇树首次参会,机器人展台受关注
第一财经· 2025-07-16 21:20
链博会机器人产品展示 - 宇树科技首次参展 展出人形机器人G1和Go2两款明星产品 产品需通过遥控器操作且需二次开发才能实现搬运等功能 [1] - 宇树科技参展目的是了解上下游供应链关系并收集市场反馈以完善微型机器人产品 [1] - 英伟达首次参展 展台展出机器人 自动驾驶 云计算等关键业务 包括Omniverse Cosmos Mega等解决方案 Mega方案支持大规模场景中仿真复杂机器人及传感器 [4] 机器人行业发展前景 - 行业认为未来1到3年机器人可从单一工业场景拓展至复合工业场景 如搬运后切换功能至流水线作业 [4] - 未来3到10年机器人或进入生活场景 如家务 养老等 需解决电池续航 材料 自重 成本等问题 [4] 自动驾驶技术进展 - 英伟达展出自动驾驶辅助系统 安全系统及智能硬件 通过合成数据解决厂商真实数据不足问题 合成数据具有成本及扩展性优势 [5] - 英伟达表示智能硬件与链博会主题契合 正探索与中国合作伙伴共同推动汽车供应链及行业发展 [5]
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心· 2025-07-11 17:22
数据短缺问题 - 公共数据产生速度预计到2028年将赶不上大模型训练的消耗速度而被耗尽[1] - 医疗、工业制造等特殊领域可用数据原本就少,数据短缺问题更严重[1] 现有解决方案的局限性 - 垂直领域中小企业倾向于使用现成大模型API,但无法直接合成垂域数据[4][5] - 大模型生成的数据与垂域实际数据存在巨大差距,无法满足垂域特性需求[7][8] - 垂域数据因隐私、知识产权等原因不能上传,增加了prompt工程难度[9] PCEvolve框架核心创新 - 只需少量标注样本即可在保护隐私同时进化出整个数据集[2] - 采用类似达尔文进化论的迭代进化框架:生成候选数据→选择淘汰→下一轮进化[11] - 设计基于指数机制的新型隐私保护方法,适配垂域少样本场景[11] 技术实现细节 - 利用开源Encoder基座模型将数据映射到特征空间计算距离[16] - 通过寻找聚类中心代表标签所有私有数据来降低计算成本[16] - 提出相似度度量h(d_s^c,D_p)来优化合成数据与垂域数据的绝对距离[18] 实验验证结果 - 在COVIDx数据集上精度达64.04%,相比初始49.34%提升显著[23] - 在Came17数据集上精度达69.10%,相比初始50.47%提升显著[23] - 在KVASIR-f和MVAD-l数据集上也分别达到50.95%和59.26%的精度[23]
银河通用创始人王鹤勾勒人形机器人产业新图景,合成数据破局具身智能落地
新浪证券· 2025-06-28 17:03
行业动态 - "具赋新能 智驱未来"青年科学家成果转化暨具身智能高质量发展研修会在上海智能工业中心开幕,百余位全球青年科学家与逾130位上市公司企业家参会 [1] - 具身智能作为让机器人具备理解物理世界并与之交互能力的尖端领域,近年来风头正劲,尤其在多模态大模型加持下,"端到端"的技术路线被视为通向"通用"的曙光 [3] - 具身智能的任务范畴比自动驾驶更广、所需数据量级更大、技术复杂度更高,但"端到端"之路依然值得坚持 [3] 技术突破 - 银河通用通过构建庞大的仿真合成数据集,生成海量虚拟操作轨迹与标签,攻克"仿真-真实"差距难题,打造出基于合成大数据预训练的端到端具身大模型 [5] - "GraspVLA"模型是全球首个完全依靠合成数据(10亿帧)预训练的视觉-语言-动作(VLA)大模型,在仿真环境中模拟了桌面场景下对近百万种物体的抓取 [7] - 模型能在完全未见过的真实环境与物体中仅凭语言指令就完成精准抓取,具备闭环实时动态调整能力和强抗干扰性 [7] - 合成数据方案带来革命性效率提升:仅需每人约2小时采集的200条真实数据微调,模型即可精确理解人类意图,并能零样本泛化到同类新物品 [9][10] 商业化应用 - 银河通用落地全球首个人形机器人智慧零售解决方案,由具身大模型机器人Galbot在实体门店中执行取货、送货、打包、库存管理等无人值守工作 [14] - 新门店部署仅需两天,无需数据采集,北京已有10家类似药店成功运行,并获100家药店订单,计划在北上广深快速部署至百家 [15] - 饮品店、咖啡店已投入运营,单日约400多单,失败率控制在极低的单日≤1单 [15] - 工业领域应用包括:国际车厂北京工厂的复杂零部件分拣任务,处理3x3x3复杂垛型的料箱搬运工作 [15] 数据挑战 - 全球最大具身智能数据集仅达百万条级别,与自动驾驶的单日数据量(头部车企单日可回流高达1亿条片段)相比相差数个量级 [4] - 人形机器人公司今年量产目标仅定在"超过1000台",离"一万台"仍有距离,与汽车百万级保有量相差两个数量级 [4] - 机器人的自由度(单臂6-7个,全身50-100个)远超汽车,意味着对数据的需求成倍增长,采集成本高昂(单人单日约采1000条) [4]