Workflow
Reinforcement Learning
icon
搜索文档
Uber launches an ‘AV Labs' division to gather driving data for robotaxi partners
TechCrunch· 2026-01-27 21:00
文章核心观点 - Uber成立名为Uber AV Labs的新部门 旨在为超过20家自动驾驶合作伙伴提供真实世界驾驶数据 以加速行业技术发展 目前暂不收费 [1][9] 自动驾驶行业趋势与数据需求 - 自动驾驶汽车正经历从基于规则操作向更多依赖强化学习的转变 这使得真实驾驶数据对训练系统变得极具价值 [3] - 最需要这些数据的正是那些已经自行收集了大量数据的自动驾驶公司 这表明解决极端边缘案例已成为一场数据量的竞争 [4] - 目前 自动驾驶公司的车队规模构成了其数据收集能力的物理上限 尽管许多公司使用模拟环境 但实际道路驾驶对于发现各种意外场景无可替代 [5] Uber AV Labs的运营模式与现状 - Uber不会重返自主研发机器人出租车的业务 该业务在2018年发生致命事故后已停止 并于2020年出售 新部门将使用配备传感器的自有车辆为Waymo Waabi Lucid Motors等合作伙伴收集数据 但尚未签署正式合同 [2] - 该部门目前规模较小 仅有一辆现代Ioniq 5测试车 团队仍在手动安装激光雷达、雷达和摄像头等传感器 预计部署100辆车上路收集数据仍需时间 [10][11] - 合作伙伴将不会获得原始数据 Uber AV Labs会对数据进行处理和加工 以适配合作伙伴的需求 这一“语义理解”层将被用于改进机器人出租车的实时路径规划 [11] 数据收集与处理的具体方法 - Uber计划采用“影子模式”作为中间步骤 将合作伙伴的驾驶软件接入AV Labs的车辆运行 当人类驾驶员的操作与影子模式下的自动驾驶软件决策不同时 会向合作伙伴标记这些情况 这有助于发现软件缺陷并训练模型更像人类驾驶 [12] - 该方法与特斯拉过去十年的做法类似 但Uber缺乏特斯拉每日数百万客户车辆全球行驶的规模 Uber计划基于合作伙伴需求进行更有针对性的数据收集 其业务覆盖600个城市可提供灵活性 [13][14] 对行业的影响与Uber的愿景 - 以Waymo为例 其自动驾驶车辆已运营或测试十年 但近期仍出现违规超越停靠校车的情况 访问更大量的驾驶数据有助于在问题出现时或出现前予以解决 [6] - Uber高管表示 从与合作伙伴的对话中得知 Uber能够收集的数据量远超他们自身可能收集的数据总和 [15] - 公司预计在一年内将新部门扩展至数百人 并希望快速推进 长远来看 整个网约车车队都可能被用于收集更多训练数据 [14] - 公司认为 推动合作伙伴的自动驾驶技术进步所带来的价值 远大于从此业务中直接获得的金钱收益 其目标是“民主化”这些数据 [9]
硅谷“钱太多”毁了AI ?!前OpenAI o1负责人炮轰:别吹谷歌,Q-Star 被炒成肥皂剧,7年高压被“逼疯”!
新浪财经· 2026-01-25 09:24
Jerry Tworek离职OpenAI的核心原因 - 核心人物Jerry Tworek于2026年1月离开OpenAI,其离职在内部引起巨大震动,被描述为“突然”且“重”[2][86] - 离职主要原因是希望从事有风险的基础研究,而OpenAI等大型AI公司已优先考虑用户增长等商业化指标,导致研究与产品开发脱节[2][86] - 在OpenAI的近七年里,公司从约30名员工成长为规模庞大的全球性公司,Jerry Tworek参与了包括Q-Star、Strawberry(后发展为o1推理模型)、GPT-4、ChatGPT以及早期代码模型和Chinchilla缩放规律在内的众多关键项目[13][14][86] 对OpenAI及行业现状的批评 - 指出OpenAI创新不足,原因包括:最佳模型的竞争异常激烈,公司需不断展现实力以留住用户并证明高昂的GPU成本合理性;僵化的组织结构(组织架构图)导致团队各自为政,跨团队研究难以开展[3][17][89] - 批评整个人工智能行业高度同质化,所有主要AI公司都在开发几乎相同的技术,产品几乎没有区别,迫使研究人员追求短期利益而非实验性突破[3][23][89] - 认为谷歌之所以能成功追赶OpenAI,本质上是OpenAI自身的失误,包括犯了一些错误、行动过于缓慢,未能充分利用原本拥有的巨大领先优势[3][55][89] 对行业研究环境与文化的观察 - 指出大模型行业的叙事已变得娱乐化,像“肥皂剧”或“真人秀”,技术进展被包裹在关于离职、跳槽和内部纷争的连续剧式叙事中,研究者像是在聚光灯下跑一场没有终点的马拉松[6][44][48][92] - 行业的高薪在某种程度上使研究者害怕失去工作,更倾向于追求短期、确定性的收益路径,而非鼓励冒险和大胆下注[28] - 认为研究结构、文化和协作方式比依赖某个特定“明星”研究者更重要,频繁跳槽的研究者往往反而不够高产[80][81] 看好的研究方向与未来展望 - 认为Transformer架构并非终点,行业存在“路径依赖”,呼吁进行“架构创新”,探索训练大模型的新方法[36] - 指出“持续学习”(Continual Learning)是将测试时与训练时真正融合的关键能力,是目前模型迈向AGI前最后几个关键要素之一[37] - 强调“推理模型”(如o1)是继GPT-4之后最重要的能力跃升,其核心是在对世界有深刻理解的基础模型上叠加规模化强化学习,未来应沿此方向前进[20][21][33] - 看好利用电子游戏等复杂环境训练AI智能体的方向,认为这是贴合人类智能、教授问题求解的有趣途径[31] 对竞争对手的评价 - 高度评价竞争对手Anthropic,认为其在过去一年展现出罕见的“清晰感”,尽管算力更少、团队更小,但异常专注、执行力极强,特别是在代码模型与代码Agent方向上取得了不是单纯堆规模的显著成果[4][5][61][62][90][91] - 认为Meta的战略可能不是追求模型层面的完全差异化,而是利用已成熟的AI技术(如Transformer)来构建全新的产品体验,这对其业务而言是合理策略[60][61] - 提及像John Carmack、Ilya Sutskever等人正在押注完全不同的、激进的新研究路线,这种探索值得被资助[28][29][30] AGI发展路径与时间线看法 - 个人对AGI时间线有所更新,此前认为规模化强化学习即是AGI,但现在认为还需整合持续学习、多模态感知等关键能力[38][39] - 认为要实现AGI还有很多必要步骤,但进展可能很快,时间线可能在2026至2029年之间,不会更久太多[39] - 强调当研究者看到像Q-Star早期迹象这样的全新技术出现时,感到担忧和谨慎是健康且负责任的反应[41]
硅谷“钱太多”毁了AI ?!前OpenAI o1负责人炮轰:别吹谷歌,Q-Star 被炒成肥皂剧,7年高压被“逼疯”!
AI前线· 2026-01-24 13:33
文章核心观点 - 文章通过OpenAI前核心研究员Jerry Tworek的离职访谈,揭示了当前大模型行业在激烈竞争下出现的创新瓶颈、研究商业化压力以及行业叙事娱乐化等问题,并探讨了未来AI研究的潜在突破方向 [3][4][6] OpenAI内部变化与Jerry Tworek的离职 - Jerry Tworek于2019年加入OpenAI,当时公司仅有约30名员工,他是现代AI浪潮背后最有影响力却最少露面的关键人物之一,参与了包括Q-Star、Strawberry(最终发展为o1推理模型)在内的许多最重要项目 [3] - 其离职在内部引起巨大震动,多位员工在社交媒体上表示“崩溃”和“难受” [3] - 离职主要原因是想从事有风险的基础研究,而这在OpenAI已不可能,因为公司优先考虑用户增长等商业指标,研究与产品开发之间存在日益加剧的分歧 [3] - 他认为在OpenAI的七年,每一年都像在一家完全不同的公司,经历了从30人小团队到全球数千人员工规模的巨大变化 [17][18][19] 大模型行业面临的挑战与问题 - **创新不足与同质化竞争**:所有主要AI公司都在开发几乎相同的技术,产品几乎没有区别,迫使研究人员追求短期利益而非实验性突破 [4] - **组织架构僵化**:团队各自为政,职责分明,跨团队研究难以开展,组织结构决定了哪些研究是可能的,最终导致公司“交付其组织架构图”,只做组织结构最容易支持的项目 [4][22][23] - **风险偏好降低**:公司需要不断展示最强模型以留住用户并证明高昂的GPU成本(未给出具体数字)的合理性,这影响了承担风险的“胃口” [4][22] - **行业叙事娱乐化**:整个行业被持续围观,技术进展被赋予额外意义,内部变化被解读成信号,研究现场被包裹进一层娱乐业式的叙事,像在聚光灯下跑一场没有终点的马拉松 [6][7][58] 对主要AI公司的评价与比较 - **OpenAI的失误**:谷歌之所以能在AI竞赛中成功追赶,本质上是OpenAI自身的失误,公司犯了一些错误,行动过于缓慢,没能充分利用原本拥有的巨大领先优势,导致一些关键推进“慢得不该那么慢” [4][5][67][68][72] - **Anthropic的清晰感**:在过去一年里展现出罕见的“清晰感”,算力更少、团队更小,却异常专注、执行力极强,特别是在代码模型与代码Agent方向上取得了不是靠简单堆规模取得的成果 [5][75][76] - **谷歌的追赶**:谷歌做出了许多正确决策,并凭借其在硬件、算力和人才储备上的巨大优势成功追赶,但OpenAI的领先最初靠的是对特定技术路线的强烈信念而非资源优势 [4][68][69] - **Meta的战略**:可能选择使用已熟悉的AI技术(如Transformer)来构建全新的产品体验,而非在模型层面追求完全不同的路线,这对其作为社交巨头而言是合理的策略 [74][75] 未来AI研究的潜在方向 - **超越Transformer的架构创新**:Transformer不可能是机器学习的最终架构,存在其他训练大模型的方法值得探索 [45][46] - **持续学习(Continual Learning)**:如何把测试时与训练时真正打通、融合,让模型能像人类一样从看到的数据中持续学习,这是实现AGI的关键能力要素之一 [47] - **世界模型与强化学习的结合**:在高质量世界模型之上大规模运行强化学习,是“毫无疑问正确”的方向,能教会模型仅靠预训练永远学不会的技能 [26][43][44] - **探索与利用的权衡**:行业需要像设计智能体一样,思考如何在研究中进行“探索与利用”的取舍,鼓励更多冒险和大胆的赌注,因为真正的进步正是这样发生的 [36][40] 对AGI(通用人工智能)的展望 - 对AGI时间线的判断有所更新,一年半前认为规模化强化学习即是AGI,但现在认为还需整合持续学习、多模态感知等能力 [49][50] - 不认为谈论AGI是离谱的,但按其定义当前模型仍不是AGI,实现“文明级里程碑”还有很多必要步骤 [49][50] - 预计AGI可能的时间点在2026至2029年之间,不会更久太多,因为投资在年复一年累积增长,人才池和探索的想法数量都在变多 [50] 对AI行业生态与文化的观察 - **高压环境**:在OpenAI工作甚至被描述为比创业压力更大,研究者需要像“做俯卧撑”一样锻炼心理韧性以应对持续高压 [7][61][92] - **人才流动与“明星驱动”**:湾区像一个巨大的转会市场,研究者在几家前沿实验室之间流动,但公司的结构、文化和协作方式比某个特定研究者的去留更重要 [6][96][97][98] - **资源分配问题**:许多有潜力的研究方向缺乏关注、算力和资源,且行业更擅长“从0到1”提出想法,而将不成熟的想法做到大规模可靠落地(从1到100)同样关键但资源往往分散 [84][85][92][93]
为什么自动驾驶领域内的强化学习,没有很好的落地?
自动驾驶之心· 2026-01-13 11:10
自动驾驶端到端技术发展现状与挑战 - 强化学习在自动驾驶决策中至关重要,但面临奖励机制设计的核心难题,即平衡安全与效率时易出现“奖励破解”问题,导致性能难以全面提升[2] - 自动驾驶的强化学习问题比具身智能更复杂,需在达成行驶目标的同时严格遵守驾驶规则,并解决长时序决策、多目标权衡、不确定交互建模及规则难以穷举的“灰色决策区”等挑战[2] - 强化学习进一步落地的关键在于设计能与强化学习良好配合的系统架构[3] - 主流依赖模仿学习的端到端方案存在轨迹不稳定等问题,核心原因是模型缺乏基于环境反馈的持续修正能力[4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练 → 闭环强化学习 → 规则兜底(时空联合规划),并引入导航信息,该体系涉及模型、算法、数据到规则,人才壁垒极高[5] 自动驾驶端到端领域人才市场状况 - 该领域因技术壁垒高、人才稀缺,薪资水平非常慷慨,拥有五年以上经验的头部人才薪资普遍在100万元人民币起步,且上不封顶[6] - 量产落地过程中需克服众多复杂场景的挑战,如拥堵加塞、静态偏航、碰撞场景等,并需精准判断何时进行数据挖掘或数据清洗[7] - 端到端自动驾驶是一个系统工程,而非单点技巧,行业面临现实问题:大量从业者仅有论文基础,缺乏量产落地的系统经验,即使已从事端到端开发的工程师,其解决实际落地场景的能力也普遍较弱[7] 端到端自动驾驶课程核心内容架构 - **课程概述与基础**:介绍感知任务合并与规控算法学习化等主流趋势,讲解一体化感知架构、经典规控学习化方案,并详细说明当前端到端的开源数据集与评测方式[13] - **两段式端到端算法**:讲解两段式框架的建模方式、感知与规划控制的信息传递机制,分析其优缺点,阐明下游消费的感知信息及消费方式,并通过PLUTO算法进行实战[14] - **一段式端到端算法**:介绍性能更优的一段式框架,因其可实现信息无损传递,课程涵盖基于VLA、基于Diffusion等多种方案,并通过VAD系列进行深入学习[15] - **导航信息集成**:讲解导航地图在引导、选路、选道中的关键作用,介绍主流导航地图格式与内容,以及其在端到端模型中的编码、嵌入方式,以更有效发挥其能力[16] - **强化学习算法应用**:指出纯模仿学习的不足,需结合强化学习以学习因果关系并实现泛化,本章重点介绍强化学习算法及其训练策略[17] - **轨迹输出优化实战**:进行NN Planner项目实战,包括基于模仿学习的算法(重点介绍扩散模型与自回归算法),并在监督微调后继续讲解基于强化学习的算法实战[18] - **量产兜底方案**:介绍量产中为保证轨迹稳定可靠的后处理兜底逻辑,包括轨迹平滑优化算法、多模态轨迹打分搜索算法等[19] - **量产经验分享**:从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以快速提升系统能力边界[20] 目标学员与课程要求 - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端等常见算法知识,掌握强化学习与扩散模型理论基础,并拥有Python、PyTorch及MMDetection3D框架的使用经验,同时需要自备算力在GeForce RTX 4090及以上的GPU[21][22]
我们在招募这些方向的合伙人(世界模型/4D标注/RL)
自动驾驶之心· 2026-01-12 17:20
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 公司作为国内自动驾驶领域的技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台 [2] 业务发展方向与人才需求 - 公司业务发展需要更多优秀伙伴加入 [3] - 主要业务方向涵盖自动驾驶产品经理 4D标注与数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿技术方向 [4] - 岗位职责主要面向B端与C端的自动驾驶培训合作 课程开发以及原创文章创作 [5] - B端客户面向企业 高校及研究院所 [5] - C端客户面向学生及求职人群 [5] 合作方式 - 有关待遇与合作方式的进一步沟通 可通过指定微信联系 [6]
毫无征兆,DeepSeek R1爆更86页论文,这才是真正的Open
36氪· 2026-01-09 11:12
论文核心更新与行业意义 - DeepSeek将R1模型的论文从22页大幅更新至86页,将其升级为一份开源社区可完全复现的详细技术报告,证明了仅通过强化学习即可显著提升AI推理能力 [1][2] - 此次更新被行业观察者视为一个重要里程碑,表明开源模型不仅能在性能上追平主流闭源模型,甚至在某些方面能为行业提供技术指引 [1][16] 模型性能与基准测试结果 - 在多项基准测试中,DeepSeek R1的表现与OpenAI o1模型相媲美,甚至超越了o1-mini、GPT-4o及Claude 3.5 Sonnet等模型 [5] - 在数学推理任务上表现突出:在AIME 2024测试中达到79.8%的通过率,与OpenAI o1-1217的79.2%基本持平;在MATH-500测试中以97.3%的通过率领先于o1-1217的96.4% [7][10] - 在编程任务上实力强劲:在Codeforces竞赛中评级达到2029,百分位为96.3%,解题能力超过93.6%的人类参赛者 [7][13] - 在人类偏好评估(Chatbot Arena)中,DeepSeek-R1在启用风格控制后,与OpenAI o1及Gemini-Exp-1206并列第一 [15][16] 技术方法与训练细节 - 公司采用了纯强化学习方法提升模型推理能力,并详细公布了训练数据配方:RL阶段使用了数学(26,000题)、代码(17,000条)、STEM(22,000)、逻辑(15,000)和通用(66,000)数据;SFT阶段使用了约800,000条数据 [4][19] - 训练成本透明化:DeepSeek-R1-Zero阶段消耗101,000 H800 GPU小时,SFT数据创建消耗5,000小时,DeepSeek-R1训练消耗41,000小时,总计约147,000 GPU小时,以美元计总成本约为29.4万美元 [4][23][24] - 成功实现了推理能力的知识蒸馏:将R1的推理能力迁移至参数量为1.5B、7B、8B、14B、32B、70B等多种规模的“学生”模型上,显著提升了同尺寸模型的性能 [20][21][22] 模型能力深度分析 - DeepSeek-R1-Zero在训练中展现出“智能涌现”现象:对于MATH数据集中高难度问题(4-5级),其准确率从训练初期的约0.55-0.78显著提升至0.90-0.95 [26] - 模型在训练过程中学会了反思行为:在生成长链文本时,使用“wait”、“mistake”、“however”等反思性词汇的频率相比训练初期增加了5到7倍 [28][29] 模型架构与对比 - DeepSeek-R1采用混合专家模型架构,激活参数为370亿,总参数量为6710亿,与DeepSeek-V3一致 [7][12] - 在多项综合评测中表现优异:在AlpacaEval 2.0中LC-winrate达到87.6%,在ArenaHard(GPT-4-1106)中达到92.3%,在长上下文问答任务FRAMES上准确率达到82.5% [7][10] 安全性评估 - 公司构建了全面的安全评估体系,包括官方风险控制、六项公开安全基准测试、内部安全测试集(1,120道题)、多语言安全评估(覆盖50种语言,共9,330题)以及越狱攻击稳健性评估 [31][32][38][42] - 在整体安全性上,DeepSeek-R1与其他前沿模型表现相当,但在涉及“知识产权”的HarmBench测试中表现欠佳 [35] - 启用风险控制系统后,模型在多语言环境下的整体安全得分达到85.9%,接近Claude-3.7-Sonnet的88.3% [35][42] - 越狱攻击测试显示,开源基础模型的越狱风险相对更高,但DeepSeek的风险控制系统能有效降低不安全回答的比例 [44][45] 关键成功因素与经验总结 - 强大的基础模型是RL训练取得显著收益的前提,公司实验表明从小规模模型起步未能获得实质性提升 [46] - 可靠且准确的验证器(奖励模型)对于防止奖励作弊至关重要,基于规则的奖励模型或使用大语言模型进行答案一致性判断是两种有效方式 [47] - 迭代式训练流水线需要监督微调与强化学习相结合,二者缺一不可,单独依赖任一方均存在局限 [48][50]
清库存,DeepSeek突然补全R1技术报告,训练路径首次详细公开
36氪· 2026-01-09 11:12
论文更新与信息披露 - 公司对近一年前发表于《Nature》的DeepSeek-R1论文进行了大规模更新,新增了64页技术细节,使论文总页数从22页增至86页 [1] - 此次更新并非简单的附录补充,而是对正文进行了大幅度翻修,信息量巨大,几乎相当于重写了一篇论文 [4] - 论文更新在发布前未进行任何消息透露,是由网友自行发现,更新时机恰逢原论文发布将满一周年 [25] 模型训练路径细节 - 公司系统性披露了DeepSeek-R1的完整四步训练路径:1) 使用数千条思维链数据对模型进行监督微调的冷启动;2) 引入语言一致性奖励的推理导向强化学习;3) 结合推理与通用数据的拒绝采样与再微调;4) 打磨有用性与安全性的对齐导向强化学习 [6] - 训练细节披露极为详尽,包括冷启动数据来源、两轮强化学习的具体作用以及奖励模型设置,被评价为教科书级别 [6] - 公司补充了对R1-Zero模型中“反思”能力涌现的分析,通过追踪“wait”、“mistake”等反思性词汇的出现频率,发现这些词汇在训练后期的出现次数比训练初期增长了大约5到7倍 [7] 安全架构与性能评估 - 为提升开源模型的安全性,公司构建了一个包含10.6万条提示的数据集,用于训练安全奖励模型 [9] - 公司设计了一套风险控制系统,包含潜在风险对话过滤和基于DeepSeek-V3模型的风险审查两个流程 [9][10] - 引入风险控制系统后,模型安全性得到显著提升,在内部构建的包含4大类、28个子类、总计1120道题目的安全评测数据集上,采用GPT-4o作为评判者进行评估 [16][19] - 在多项安全基准测试中,DeepSeek-R1的表现与前沿模型水平相近,例如其平均安全分数达到95.0% [14][16] 团队稳定性与行业对比 - 在AI行业人才竞争激烈的背景下,DeepSeek团队展现出极高的稳定性,原论文的18位核心贡献者在近一年后仍全部在职 [21] - 总计100多位作者中,仅5位被标记为已离开团队,甚至有一位此前离队的作者Ruiqi Ge已回归团队,使得标记星号作者数量从去年的6位减少至5位 [21][22] - 这与硅谷同行如Meta所面临的内部文化挑战和人才争夺战形成鲜明对比 [24] 技术影响与未来展望 - 此次详尽的技术细节披露,极大地推进了DeepSeek-R1模型的可复现性 [25] - 公司在论文发布近一年后仍进行如此大规模的实质性更新,在学术出版界中并不常见 [25] - 此次更新的时间点引发市场对公司可能即将在春节前后发布新产品(如R2或V4)的猜测 [26]
强化学习环境与科学强化学习:数据工厂与多智能体架构 --- RL Environments and RL for Science_ Data Foundries and Multi-Agent Architectures
2026-01-07 11:05
电话会议纪要研读分析 涉及的行业与公司 * **行业**:人工智能,特别是大语言模型与强化学习领域,以及相关的数据服务、环境构建、科学发现应用 * **主要AI实验室/公司**:OpenAI, Anthropic, Google DeepMind, xAI, Meta, DeepSeek, Kimi, Moonshot, Z.ai, Qwen * **数据/环境服务商**:Scale AI, Surge, Mercor, Handshake, Aboda.ai, Windsurf, Cursor, Habitat, DeepTune, Fleet, Vmax, Turing, Mechanize, Preference Model, Bespoke Labs, Prime Intellect, HUD, LLM Data Company * **RL即服务与科学应用公司**:RunRL, Osmosis, Applied Compute, ThinkingMachines Tinker, Periodic Labs 核心观点与论据 1. 强化学习规模化是当前AI能力提升的关键路径 * 过去18个月OpenAI模型性能的提升完全依赖于训练后优化与强化学习算力扩展[4] * 各实验室正全力聚焦于强化学习算力的规模化部署,预训练虽持续优化但非当前焦点[2] * OpenAI使用相同的基础模型GPT-4o,通过后训练和强化学习算力扩展推出了o1, o3及GPT-5系列旗舰模型[4] 2. 强化学习规模化面临数据与任务构建的挑战 * 强化学习需要持续的任务流供模型学习,但适用于强化学习的等效语料库尚未完全建立[7] * 大多数强化学习数据和任务必须从头构建,过程耗费大量人力[7] * 任务创建从易于评分的数学问题,已拓展至医疗健康和金融建模等新兴领域[8] 3. 催生了“RL环境”构建与数据工厂的新兴产业 * 已有超过35家公司专注于提供强化学习环境服务[23][24] * **UI Gyms**:公司雇佣海外开发者复制网站界面,每个网站环境成本约2万美元,OpenAI已为ChatGPT智能体训练购买了数百个网站[25][26][27] * **复杂软件平台环境**:包括Slack, Salesforce, AWS终端, Microsoft OneDrive, Gmail等,目标是让智能体自主操作[29] * **编程环境需求最高**:对编程环境的需求极高,以至于一些已倒闭的初创公司因其私有GitHub仓库的价值被收购[38] * 通过自动化流程从GitHub等平台筛选和构建任务,例如SWE-rebench从45万个初始任务中最终筛选出21,336个有效任务[40][43][44] * DeepSeek使用24,667个从GitHub提取的编码任务训练V3.2模型[47] 4. 评估标准从抽象智力转向现实世界效用 * OpenAI创建了GDPval评估,涵盖44个职业的1000多项任务,这些任务选自占经济总量5%以上的行业[10][11] * 任务由平均拥有14年经验的专家设计,人类完成每项任务平均需要数小时[11] * 目前最好的模型GPT-5.2在GDPval上得分约为71%,意味着其工作有71%的时间与人类专家输出持平或更受青睐[12] 5. 模型自主性与AI自动化研究成为长期目标 * 根本趋势是模型能够更长时间地自主运行[16] * OpenAI的目标是在2028年3月前拥有自主的人工智能研究员[16] * Anthropic预计到2027年,像Claude这样的系统将能够自主发现原本需要数年才能取得的突破[16] 6. 数据供应链因竞争与安全考量发生变化 * 历史上Scale AI是各大实验室最大的数据承包商之一,2024年收入超过14亿美元[19] * 被Meta收购后,多家AI实验室停止了与Scale的合作,以避免Meta获取其核心数据[21] * 数据承包商公司如Surge, Mercor, Handshake, Aboda.ai被用于跨专业领域招聘专家,Surge的年经常性收入据信已接近10亿美元[55] * 承包商负责设计任务,撰写解决方案,指定奖励信号,并对模型输出进行评分[53] 7. 主要AI实验室的采购与战略各有侧重 * **Anthropic**:激进买家,与超过十家RL环境公司合作,希望建立广泛的供应商生态系统以商品化产品,降低成本[74] * **OpenAI**:供应商来源更有限,但在数据净支出上超过其他实验室,正在组建内部人类数据团队以减少对第三方依赖[78] * **Google DeepMind**:采购流程分散,由不同团队的研究人员推动,重点关注编码和计算机使用,特别是ML相关环境[84] * **中国实验室**:处于强化学习规模化早期阶段,例如Qwen目前仅将约5%的预训练算力用于后训练,中国VC正积极扶持本土数据工厂竞争者[58][59] 8. 企业级“强化学习即服务”市场正在形成 * 一些初创公司为大型企业提供定制化的强化学习服务,使用Qwen等易于后训练的模型[104][105] * OpenAI推出了“强化微调”服务,但被认为不稳定且昂贵,需求流向成本低5倍的年轻初创公司[107][108][109] * Anthropic也正在进入该领域,并大规模采用亚马逊的Trainium芯片以降低HBM成本,优化服务利润[112][114][115] 9. 强化学习在科学发现领域具有巨大潜力 * 目标是创建基于物理实验奖励的闭环强化学习系统,模型利用工具测试假设并验证想法[120][122] * Periodic Labs正在建设大型物理实验室,为强化学习和中期训练生成实验验证的数据[137] * Meta发现中期训练的益处持续存在,为近期模型使用了1万亿标记进行中期训练,预计OpenAI使用量是其5到10倍[129][130] * 中期训练阶段会添加先前模型进行强化学习时收集的环境轨迹数据[132][133] 10. 自动化对就业的影响可能是增强而非取代 * OpenAI的GDPval研究发现,随着AI能力提升,人类专家完成任务更快,成本更低,人类得到了增强,而非被自动化取代[88] * 短期内,专家工作可能实现任务增强,而非完全自动化,软件工程等领域可能如此[89][90] * 对于短期,重复性任务,如呼叫中心工作,自动化取代的可能性更高[95] 其他重要但可能被忽略的内容 * **平台政治与访问限制**:谷歌降低了对其产品如Gmail的数据抓取限制,亚马逊等公司可能限制外部智能体访问其生态系统,以保护自身业务和广告收入[86][96][98][100] * **基础设施规模**:Kimi实验室开发的基础设施可支持同时实例化超过10,000个训练实例[48] * **中期训练的作用**:中期训练是持续的预训练,用于更新模型知识截止日期,提升特定领域知识,或为高计算量强化学习做准备,各项目数据被汇总并重新注入中期训练以提升整体性能[81][128] * **生物学应用的差异化路径**:OpenAI和Anthropic均已建立制药合作伙伴关系,但各自专注于解决药物发现流程中“识别候选药物”和“加速开发”的不同瓶颈环节[140]
OpenAI前首席科学家Ilya Sutskever:规模神话的终结,回到研究时代
36氪· 2026-01-04 13:13
行业核心观点 - 当前AI行业正从依赖扩大模型规模的“规模时代”回归到注重基础创新的“研究时代” [26][27][36] - 当前大型语言模型存在根本性缺陷,即在基准评测中表现优异但在真实世界应用中泛化能力不足,导致经济影响显著滞后 [7][8][37] - 实现通用人工智能或超级智能的时间线预计在5到20年之间,这比部分行业领袖的预测更为保守但仍代表剧烈变革 [33][34] 行业现状与挑战 - 全球对AI的投资规模巨大,例如将GDP的约1%投入该领域,但公众对其影响的感知仍较为抽象和滞后 [5][6] - 行业面临的核心困惑是模型在评测任务上表现卓越(如解决相当难的题目)与实际解决现实问题能力(如修复代码漏洞时陷入循环)之间存在巨大鸿沟 [8][37] - 人类研究者在设计强化学习训练环境时,过度关注提升基准测试分数,可能导致模型成为“奖励黑客”,即擅长考试但缺乏解决实际问题的稳健性 [12][13] 技术瓶颈与研究方向 - 模型泛化能力显著弱于人类,体现在样本效率低下(需要更多数据)和可教性差(难以通过简单交流进行指导) [22] - 人类拥有稳健的“价值函数”(可能与情感系统相关),能在决策过程中提供即时反馈,这是当前模型所缺乏的关键能力 [18][19][21] - 未来的突破可能依赖于理解并复现人类那种与生俱来的、能在全新领域(如数学、编程)快速可靠学习的能力 [22][23] 公司战略与动向 - Ilya Sutskever创立的新公司Safe Superintelligence (SSI)已融资30亿美元,估值达320亿美元,但此前战略高度保密,专注于直接研发超级智能 [2][28] - SSI最初的计划是避开产品市场竞争,专注于研究,但公司可能调整策略,在达成最终目标前发布一些演示性成果,以帮助社会理解和适应强大的AI [28][29][38] - 公司领导层强调研究“品位”的重要性,即追求基于对人类的正确理解、兼具美感、简洁和优雅的技术灵感 [30][31][32] 行业发展阶段判断 - 行业对预训练“规模定律”的理解被比喻为古代文明对太阳运动的测量:测量精确但原理不明,暗示单纯扩大规模已接近收益递减 [24][25][26] - 从2012年至2020年被定义为“研究时代”,2020年至2025年(可能有误差)是“规模时代”,而当前正再次回归“研究时代”,但计算资源已远胜从前 [26][27] - 当规模扩大带来的边际收益急剧下降(如花费10倍资金仅得1.1倍提升)时,行业必须重新聚焦基础研究 [27]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-31 08:31
行业整体动态 - 自动驾驶行业在整体下沉的关键节点竞争激烈 卷技术 卷成本 卷效率 [1] - 行业人才流动显著 上半年及当前有大量自动驾驶领域人才转行至具身智能 无人机等行业 L4/具身/无人机行业正在大批量招人 [1] - 自动驾驶作为相对成熟的AI领域 其算法人才非常受欢迎 头部企业如大疆 宇树 智元 哈啰等提供的薪资很到位 [1] - 自动驾驶从业者因具备使用大集群 解决各种复杂场景问题以及上下游协同能力强等经验 在其他相关行业备受青睐 [2] 公司业务发展 - 公司业务在年内进行了拓展 扩充了许多B端客户 并开始尝试从线上走向线下 [1] - 公司在C端的内容策略正从普适性内容逐渐转向专业化和精细化 [1] 技术发展趋势 - 自动驾驶头部技术收敛到几个大方向 包括一段式端到端 VLA 世界模型 强化学习 [3] - 行业中游厂商仍在攻坚OCC 无图技术 多传感器融合感知等领域 [3] - 相关技术公司计划在明年开放大量职位 [3] 行业社区与信息 - 自动驾驶之心付费社区的成员在年内正式突破4000人 [3] - 该社区提供技术路线发展 各类圆桌讨论 研报 职位信息等内容 [3]