预训练
搜索文档
Hinton加入Scaling Law论战,他不站学生Ilya
量子位· 2026-01-01 10:13
文章核心观点 - 针对Scaling Law(规模定律)的未来,AI领域的顶尖专家们存在观点分歧,但共识在于其发展路径需要演进,而非简单的规模线性扩展 [8][21][49] - 以Geoffrey Hinton和Demis Hassabis为代表的一方认为Scaling Law依然有效,当前面临的数据瓶颈可通过AI自我生成数据等方式解决 [10][15][22] - 以Ilya Sutskever和Yann LeCun为代表的一方认为,单纯依赖扩大模型参数、数据和算力的传统Scaling Law路径已遇到瓶颈,不足以实现根本性突破,未来需要转向新的研究范式 [23][25][41] Scaling Law不死派:Hinton与哈萨比斯的观点 - Geoffrey Hinton明确表示Scaling Laws依然有效,但当前面临数据缺失的最大挑战,因为大部分高价值数据锁在公司内部,免费互联网数据已基本耗尽 [10][11] - Hinton认为数据瓶颈将由AI自行解决,即模型通过推理生成自己的训练数据,他类比了AlphaGo和AlphaZero通过自我对弈生成数据的方式 [12][13][14] - 谷歌DeepMind CEO Demis Hassabis同样支持将当前系统规模化推向极致,认为这将是最终AGI系统的关键组成部分,甚至可能成为整个AGI系统本身 [16][17] - Hassabis倡导一种更系统、广义的规模化,即模型规模、训练范式、环境复杂度及系统架构需作为协同演进整体同步扩展,他强调构建“世界模型”和整合“搜索”与“规划”能力,让模型进入可交互环境以无限扩展数据 [19][20] Scaling Law不够用派:Ilya与LeCun的观点 - OpenAI前首席科学家Ilya Sutskever对继续扩展规模持怀疑态度,质疑当规模已经很大时,再扩大100倍是否就能彻底改变一切,认为仅靠更大规模无法带来根本性转折 [23][24][40] - Ilya指出过去十年深度学习的突破基于一个特定的尺度假设公式,但这个公式会改变,他认为目前主流的“预训练+Scaling”路线已明显遇到瓶颈,需要将注意力放回“研究范式本身”的重构,即“重新回到科研时代” [38][39][41] - Ilya通过一个脑损伤患者丧失情感处理能力导致决策困难的例子,暗示当前预训练模型可能缺失类似情感的关键能力,这使得Scaling Law是否“够用”存疑 [44][45] - Meta首席AI科学家Yann LeCun同样怀疑Scaling Law,认为不能简单假设更多的数据和计算能力就意味着更智能的人工智能,他一直认为大语言模型无法实现AGI [46][47][48] 行业共识与未来方向 - 尽管存在表面分歧,但顶尖研究人员观点有惊人共识:当前范式即便没有进一步突破也可能带来巨大经济社会影响;实现AGI/ASI可能需要更多研究突破(如持续学习、样本效率);分歧主要在于突破的具体内容及到来速度 [51][53] - 争论的本质可能不在于是否要Scaling,而在于“我们到底在Scaling什么”,即规模化对象需要从简单的参数、数据、算力扩展到更复杂的系统能力 [52] - OpenAI的o1模型核心成员Noam Brown提出,o1代表一种以推理计算为代表的全新Scaling,暗示Scaling Law的形式正在演变 [37]
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
量子位· 2025-12-31 11:37
文章核心观点 - 当前人工智能行业面临的核心瓶颈并非算力增长停滞,而是现有技术范式(以Transformer架构为核心)对持续增长的算力的吸收和转化效率正在下降,即“算力增长与智能增长之间的映射关系开始松动”[2][22] - 智能的本质可被工程化地定义为“对未来状态进行预测,并为预测结果承担实际后果的能力”,这解释了Next-Token Prediction的成功,也揭示了当前许多模型在真实世界应用中的短板[8][10] - 未来智能增长的关键在于寻找“扩展性更强的架构或Loss函数”,以在极端算力投入下(如300亿美元预算)稳定地将新增算力转化为可兑现的能力增量,而非仅仅追求效率优化(如更高的吞吐量)[23][26] 智能的本质与评估 - 智能的核心能力被定义为对未来状态的预测及承担后果的能力,这为评估智能提供了一个工程化、可验证的标准[8] - 这一视角解释了Next-Token Prediction能成为“智能发动机”的原因,也揭示了在封闭评测中表现优异的系统在真实不确定环境中暴露短板的问题[10] - 将智能凝聚为“预测”是为了划定一个工程上可对齐算力投入的核心能力维度,但规划、因果建模等能力是否能完全还原为预测仍是开放议题[10] 当前技术范式的成功与局限 - 过去十年大模型的智能跃迁依赖于三件事同时发生:GPU提供指数级增长的并行算力、Transformer架构能充分“吃下”这些算力、Next-Token Prediction提供了无限且统一的学习信号[15] - Transformer的成功不仅是算法胜利,更是模型架构与硬件体系(英伟达GPU)高度匹配的系统性结果,它是一台“伪装成神经网络的并行计算机”[6][16] - 该范式的有效性部分受益于语言任务本身高度符号化、序列化,且评测体系与训练目标高度一致的特性[17] - 在此范式下,从GPT-1到ChatGPT,算力增长、模型规模扩大与能力提升之间形成了相对稳定的正反馈链路[18][19] 智能增长的瓶颈所在 - 判断智能瓶颈的具体标准是:当一次训练的FLOPS从10^n变成10^{n+3}(即增长1000倍)时,是否还能稳定获得显著更强的模型[20] - 瓶颈的本质是“算力增长与智能增长之间的映射关系开始松动”,即现有范式对新增算力的吸收效率下降,而非算力红利消失[2][22] - FLOPS被视为最底层、最难被包装的算力尺度,比Token数、参数量等指标更能反映本质[21] - 真正的难点在于缺乏一种“扩展性更强的架构或Loss函数”,能把新增算力稳定地转化为能力增量[23] 对行业主流讨论的批判性视角 - 预训练、监督微调(SFT)、强化学习(RL)三者本质都是在计算梯度、更新参数,可被统一视为不同的“算力使用策略”[11][12] - 当前模型的主要智能来源是预训练阶段,根本原因是其消耗了最多的能源与计算[15] - 行业应关注“在算力持续投入的前提下,是否还能稳定地换取能力增长”这一更朴素的问题,而非陷入方法论之争[15] - Mamba等新架构提升了吞吐量,但解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”[6][23] 未来发展的潜在方向 - 未来AI基础设施的核心目标应是提升“并行计算体系在软硬件层面的整体扩展性”,而不仅仅是单点芯片性能,需维持或提升计算开销与通信开销的比值[24][25] - 探索方向包括:回归高精度计算(如FP32/FP64)、抛弃Adam优化器、采用更高阶优化器、探索更可扩展的架构或Loss函数、进行更多epoch与更深度的超参数探索[6][25] - 预训练所能承载的智能增长空间可能还远未走到尽头,关键在于找到在极端算力条件下持续变强的能力[26] - 只要还能找到更高效组织计算的方式,智能的上限就远未到来[27]
Dwarkesh最新播客:AI 进展年终总结
36氪· 2025-12-25 07:15
AI发展现状与AGI时间线 - 以强化学习为核心的“中训练”正成为大型语言模型的重点突破方向,前沿科技公司正通过此方法将大量具体技能预先植入模型[3] - 当前对强化学习中训练的极度乐观态度与宣称AGI临近的观点存在根本矛盾,如果模型已接近类人学习者,这种基于“可验证结果”的训练路径是走不通的[14] - 为模型预置大量具体技能的做法,恰恰是AGI还很远的证据,因为如果模型泛化能力很强,就不需要单独构建那么多强化学习环境来教它操作特定工具[3][16] AI模型能力与泛化挑战 - 人类劳动力的价值在于其训练成本不笨重,能根据需要灵活掌握新技能,而当前AI缺乏稳健高效的方法来习得工作中大量需要的公司特定、情境特定技能[4][23] - 每天人类需处理上百件需要判断力、情境感知及工作中习得技能的事情,仅靠预置一组固定技能,连一份工作都无法完全自动化[24] - 在机器人等领域,根本问题是算法而非硬件或数据,人类只需很少训练就能远程操控硬件完成有用工作,这反衬出当前AI缺乏类人学习核心[19] AI经济扩散与市场潜力 - 企业有很强动机雇佣AI劳动力,因为经过验证的AI员工可以无损无限复制,且不存在招聘中的“柠檬市场”问题[5][29] - 当前AI未在企业广泛部署、未在编程外创造大量价值,本质是模型能力不足,而非技术扩散需要时间,所谓“经济扩散滞后”是为能力不足找借口[6][28] - 如果AI能力真达到AGI水平,其扩散速度会快得惊人,企业完全愿意每年花费数万亿美元购买token,因为知识工作者年总薪酬高达数十万亿美元[29] 技术演进路径与规模定律 - 预训练阶段的扩展定律非常清晰,算力数量级提升会导致损失函数稳定下降[10] - 但将预训练规模化的乐观经验移植到带可验证奖励的强化学习上缺乏依据,有研究指出,要强化学习获得类似GPT级别的提升,总算力规模可能需要提升到一百万倍[11][33] - 持续学习将是AGI之后模型能力提升的主要驱动力,预计前沿团队明年会发布持续学习雏形功能,但达到人类水平可能还需5到10年[13][40] 评估框架与未来影响 - 将AI模型智能与“中位数人类”对比会系统性高估其能创造的价值,因为知识工作的巨大价值来自最顶尖的一小撮人[12][35] - 一旦模型真正达到顶级人类水平,其影响力可能是爆炸式的,因为这意味着服务器上运行着数十亿个类人智能体,能复制、融合彼此全部学习成果[12][25] - 模型在“看起来很厉害”上的进步速度符合短时间线派预测,但在“真正变得有用”上的进展速度更符合长时间线派判断[32]
深度|OpenAI最高职级华人Mark Chen独家回应与Gemini竞争、Meta人才战及AI核心策略
Z Potentials· 2025-12-20 12:03
文章核心观点 - OpenAI在激烈的人才争夺战中,凭借其AGI愿景和研究文化,成功保留核心人才,而非依赖高薪竞价 [3][5] - OpenAI坚持长期主义研究哲学,专注于探索下一个范式,而非被动应对竞争对手的短期产品发布 [14] - 公司认为预训练仍有巨大提升空间,规模化并未过时,并通过技术突破使模型性能实现质的飞跃 [6][69] - AI(特别是GPT-5 Pro)在数学、科学等前沿研究领域已展现出超越人类直觉的解题能力,科学发现自动化进程显著 [33][34][89] - OpenAI设定了明确的研究自动化目标:1年内利用AI实习生助力研究,2.5年内实现AI端到端独立研究 [6][78] 人才战略与文化 - **人才争夺现状**:Meta等竞争对手以激进策略(如每年约100亿美元资金)争夺AI人才,甚至采用送亲手熬的汤等个性化方式,但OpenAI在保护核心人才方面做得相当不错 [3] - **留任核心逻辑**:OpenAI不与Meta进行逐美元竞价,提供的待遇远低于对方,但核心人才因坚信公司的发展潜力和AGI愿景而选择留下 [5][6] - **人才观与归属感**:公司认为过度关注研究功劳会阻碍进步,但认可人才价值至关重要,因此坚持公开项目归属,旨在成为培养AI超级明星的摇篮 [6][97][99] - **内部凝聚力**:在公司经历“动荡期”时,研究人员展现出高度团结,超过90%的研究人员(约100人)签署请愿书以应对外部不确定性 [60] 研究管理与优先级 - **研究管理架构**:OpenAI的研究方向由首席研究官与Jako共同塑造,并负责决定算力分配 [11] - **项目优先级管理**:公司每1到2个月会对所有研究项目进行一次梳理,整理出约300个项目的大表格并进行排名,以确保拥有约500人的研究团队明确核心优先级 [11] - **资源分配原则**:用于探索性研究的算力比用于训练实际模型的算力还要多,公司聚焦于寻找下一个范式,而非重复他人成果或在基准测试上追赶 [12] - **决策挑战**:确定优先级最难的部分在于拒绝一些项目,需要明确传达核心重点以推动研究进展 [13] 技术路线与竞争底气 - **预训练的突破**:过去六个月,公司重点恢复了在预训练及其他功能上的能力,认为预训练还有很大发展空间,并已训练出性能更强的模型 [69] - **规模化信念**:公司认为规模化并未过时,对算力的需求没有放缓迹象,如果算力增加10倍,可以在几周内充分利用并产生实际价值 [69][79] - **应对竞争**:面对Gemini 3等竞争对手的产品,OpenAI内部已有性能相当的模型,并即将发布,后续会有更优秀的迭代产品,公司更注重长期的技术积累而非短期测试 [19][23][24] - **算法优势**:公司在数据效率等方面拥有非常强大的算法,认为竞争对手在此仍有很大提升空间 [80] AGI愿景与科学赋能 - **AGI进程看法**:对AGI的定义因人而异,但公司认为正处于实现AGI的过程中,最重要的指标是能否产生新的科学知识并推动科学前沿 [74] - **科学发现自动化**:自今年夏天以来,AI在推动科学前沿方面已发生巨大转变,例如GPT-5 Pro曾用30分钟解决物理学家论文中的难题 [33][74] - **赋能目标**:公司的目标不仅是自己赢得诺贝尔奖,更是构建工具和框架,让所有科学家都能利用AI加速研究,共同推动整个领域发展 [75] - **具体进展**:在数学和科学领域已有具体成果,例如针对开放式凸优化问题的GPT-5论文,表明AI正在解决核心的机器学习问题 [76] 公司运营与未来方向 - **公司本质**:OpenAI本质上仍然是一家纯粹的AI研究公司,其核心精神是不惜一切代价安全地推进AGI研究,坚信创造最佳研究后,盈利会随之而来 [15] - **研究自动化路线图**:目标是在一年内改变研究方式,让人类负责提出想法(外层循环),模型负责实现和调试;在2.5年内实现AI端到端独立研究 [78] - **硬件合作**:公司正与Jony Ive合作开发设备,核心理念是改进ChatGPT的记忆功能,使其能通过持续互动变得更智能 [82] - **对齐与安全**:对齐是未来一两年最大的挑战之一,公司在对齐研究上做了大量工作,并持续探索如何确保模型的思考过程与人类价值观一致 [100][101]
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 09:44
研究背景与目标 - 旨在通过构建可控合成数据框架,在完全解耦环境下定量分析预训练、中期训练和强化学习对模型推理泛化能力的因果影响,以明确后训练是否真正扩展了模型能力 [2] 核心研究方法 - 设计了一套基于GSM-Infinite的可控合成数据框架,将“推理结构”与“表面语境”完全解耦,以从源头控制数据分布、推理深度与语境广度 [10][12] - 通过控制有向无环图的边数来精确量化推理复杂度,并应用不同“语境模板”将抽象数学图渲染为自然语言问题,以考察模型是否真正学会推理逻辑 [12] - 定义了三个互不重叠的训练阶段以避免数据污染,并引入过程级验证来防止奖励破解,要求推理步骤和最终答案全对才判定通过 [13] 关键研究发现:强化学习的效用 - 强化学习并非总能提升推理能力,其效用取决于“能力边缘” [16] - 对于预训练已充分掌握的简单任务,强化学习只能提升pass@1,无法提升模型上限pass@128 [17] - 真正的能力跃迁发生在模型“能力边缘”的任务上,强化学习能带来显著的外推性泛化增益;若任务难度超出模型探索范围,强化学习的收益会消失 [17] - 强化学习的训练数据必须精心校准,瞄准模型的“能力边缘”,既不能太简单也不能太难 [18] 关键研究发现:预训练与情境泛化 - 如果预训练中完全没有接触过某种长尾语境,即便强化学习阶段大量训练,模型也无法实现有效迁移 [21] - 只要在预训练中混入极少量目标语境数据作为“种子”,强化学习就能在后训练阶段将其放大,实现强劲的跨语境泛化 [22] - 强化学习无法无中生有,需要预训练提供最基础的“原语”作为抓手 [23] 关键研究发现:中期训练的作用 - 在固定计算预算下,引入中期训练阶段比单纯增加强化学习步数效果更好 [26] - 中期训练起到了“分布桥梁”的作用,极大地提升了强化学习的样本效率和最终性能上限 [27] - 对于极难任务,“少量中期训练+大量强化学习”是最佳策略;对于中等难度任务,增加中期训练比重能带来更稳定的pass@1表现 [26] 关键研究发现:过程奖励机制 - 将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误,在长链条推理任务中带来稳定的pass@1提升 [29] - 过程级信号能够规范强化学习的搜索方向,确保能力提升建立在忠实推理基础之上 [30] 实践指导与结论 - 强化学习数据设计应针对模型的“能力边缘”构建数据集 [31] - 预训练策略必须确保长尾领域的原子能力有至少1%的覆盖率,为强化学习留出接口 [32] - 应根据目标任务的难度动态调整中期训练与强化学习的比例,攻克难题需要更多强化学习,提升稳定性需要更多中期训练 [33] - 研究结果阐明了预训练、中期训练和强化学习之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础 [5]
GPT-5.2提前泄露?今夜,OpenAI要拿Gemini 3祭天
36氪· 2025-12-11 16:17
OpenAI新产品GPT-5.2/Garlic动态 - 核心观点:OpenAI可能即将发布新一代模型GPT-5.2(内部代号Garlic),其首战场选在Cursor IDE,旨在编程和推理领域狙击谷歌的Gemini 3 [1][3] - 根据泄露信息,GPT-5.2是一款经过彻底重构的专用模型,而非GPT-5的简单微调版,承载着公司的关键使命 [6] - 该模型预计在编程和逻辑推理任务上的表现已超越Gemini 3和Anthropic的Opus 4.5 [6] - 在长程任务执行上表现亮眼,能理解整个代码仓库架构并自动同步调整相关文件,显著减少幻觉 [7] - 预计发布时间可能在2026年初,潜在版本号为GPT-5.2或GPT-5.5 [10][11] - ChatGPT官方账号发布内涵图,暗示GPT-5.2或Garlic发布在即 [11] OpenAI模型技术进展与战略调整 - 公司正在开发一个代号为“Shallotpeat”的更大模型,意在重做模型预训练的“土壤”以解决基础问题 [15] - 开发Shallotpeat过程中用于修复预训练错误的方案已被整合到Garlic模型中 [19] - 公司承认谷歌在预训练方面“最近做得非常出色”,并意识到解决自身预训练阶段的问题对保持竞争力至关重要 [21][23] - 为应对竞争压力,公司可能暂停追求通用人工智能(AGI)的进程,将资源集中于提升ChatGPT质量等更紧迫的目标 [25] - 公司计划在未来五年内投入超过一万亿美元建设基础设施 [25] 行业竞争格局:OpenAI vs. Google - OpenAI首席执行官的内部备忘录警告,谷歌在AI领域的进展可能给公司带来“暂时的经济逆风”,并承认相对于谷歌和Anthropic的领先优势正在缩小 [20] - 谷歌Gemini 3的发布给OpenAI带来了巨大压力,双方进入势均力敌的竞赛状态 [28][29] - 在算力资源有限的零和博弈下,OpenAI面临选择:是继续开发视频生成模型Sora,还是将算力集中到能产生直接收入的文本/推理模型GPT-5.2上,目前迹象表明公司选择了后者 [29] - 尽管面临竞争,在2025年苹果官方确认的免费App排行榜上,ChatGPT仍位列第一,而Gemini排名靠后 [25][27] 谷歌面临的算力挑战与策略调整 - 2025年12月初,谷歌AI Studio的免费层配额出现断崖式削减,导致开发者社区恐慌,例如Gemini 2.5 Pro免费配额归零,Gemini 2.5 Flash从每天上千次请求被削减至每天仅20次 [30][31] - 谷歌产品负责人证实,削减免费层是为了释放算力,以应对旗舰图像生成模型Nano Banana Pro(即Gemini 3 Pro Image)的巨大增长需求 [33][34] - Nano Banana Pro的架构设计对算力需求达到前所未有的高度,是导致此次算力资源重新分配的核心原因 [32] - 性能数据显示,Gemini 3 Pro Image在多项指标上显著优于GPT-Image 1等竞争对手 [33]
AI大家说 | 重磅嘉宾齐聚,近期Dwarkesh Podcast都聊了些什么?
红杉汇· 2025-12-11 08:04
文章核心观点 - 文章通过总结Dwarkesh Podcast中多位AI行业领袖的深度访谈,揭示了当前AI技术发展范式的关键转变、未来AGI的形态构想以及行业竞争格局的演变趋势[2] Ilya Sutskever的观点 - 认为无脑堆算力的“暴力美学”时代已经翻篇,预训练开始式微,数据快用光了,后续发展更依赖研究直觉,回到了需要“拼品味、拼直觉”的手搓时代[5] - 提出“情绪”是进化赋予人类的精准价值函数,让AI拥有“情绪”或“直觉”是通往真正智能的必经之路[6] - 认为真正的AGI更像一个“15岁的天才少年”,学习能力极强,并且未来智能体可以“合并智能”,瞬间获得海量经验[7] Satya Nadella的观点 - 提出模型厂商可能遭遇“赢家诅咒”,模型作为可替换的计算部件非常脆弱,而掌握“场景权”和用户数据流更为关键,微软通过将AI深度集成到Office和GitHub等应用来巩固优势[10] - 指出GitHub的未来定位是“AI智能体的总部”,通过控制代码仓库来管理由不同AI生成的代码,从而掌握AI时代的管理权[11] - 预测SaaS模式将终结,未来将转向为AI Agent提供“数字实体”、身份认证、安全环境和云端电脑等基础设施,并按AI“员工”数量或资源消耗收费[12][13] Andrej Karpathy的观点 - 认为当前大型语言模型是通过预训练模仿互联网数据产生的“幽灵”,拥有知识但缺乏肉体直觉和常识,并非像动物一样进化而来[16] - 批评强化学习效率极低,其奖励信号如同“透过吸管吸取监督信号”,无法对模型复杂的推理步骤提供精细反馈,导致幻觉和逻辑问题[17] - 提出未来AGI的“认知核心”可能只需10亿参数,主张将记忆与认知剥离,知识应存储于外部而非全部记在模型内部[18] 图灵奖得主Sutton的观点 - 指出当前LLM只是在模仿人类语言,缺乏对“客观真相”的追求,没有目标的系统只能称为“行为系统”而非“智能系统”[21] - 强调生物界不存在监督学习,未来的AI应像野兽一样从“体验流”中通过尝试-反馈来学习,而非依赖人类标注的数据[21] - 将AI的诞生视为宇宙从“复制时代”进入“设计时代”的第四道门槛,是人类首次创造出原理可知、可被随意修改的智能体,是宇宙级的质变[22] Sergey Levine的观点 - 认为机器人不需要全知全能的世界模型,只需具备为完成具体任务而生的“隧道视野”,强大的目标感本身就是感知过滤器[25] - 提出在物理世界中,“失忆”或“在当下”的不费脑子的快速反应是高级智能的表现,未来机器人架构可能是“健忘”的小脑配合“博学”的大脑[26] - 指出2009年自动驾驶失败的原因是车辆缺乏常识,而当前机器人浪潮的变量在于通过视觉语言模型获得了先验知识,使其能零样本处理边缘情况[27]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
36氪· 2025-12-04 10:58
公司战略与文化 - 公司本质上仍然是一家纯AI研究公司,核心目标是构建AGI,产品是研究自然流出的结果 [5][21][124] - 公司拥有约500名核心研究人员,内部同时进行约300个项目,通过每1-2个月梳理项目并分配算力来明确优先级 [5][14][15] - 公司采用自上而下押注方向与自下而上文化并存的研究模式,鼓励来自意想不到地方的好点子,并积极放大有前景的研究线索 [79][97] - 公司坚持开放文化,研究人员之间自由分享想法,认为通过速度压制对手比建立信息隔离更有效 [84] - 公司非常重视人才密度,并有意控制研究团队规模,认为甚至可能少于500人,同时通过管理实验确保高门槛 [129][130][131] - 公司在项目署名上持开放态度,被认为是行业内单位人数上对外部署名与个人功劳最大方的地方之一,旨在认可并打造AI超级明星 [133][134][136] 研究重点与进展 - 过去半年,公司研究重心重新聚焦于预训练,认为预训练领域仍有巨大潜力可挖掘,并对此非常有信心 [5][31][88][89] - 公司在“思考”(Reasoning)方向的研究已取得突破,并投入了巨量资源,该能力现已被广泛认为是不可或缺的 [20][86] - 公司内部已有性能达到Gemini 3的模型,并确定很快会发布,且能发布表现更好的下一代模型 [5][27] - 公司认为扩展定律(Scaling Law)并未失效,将继续扩大模型规模,并已有算法突破支持继续扩展 [89][114][116] - 公司设定了明确的研究目标:一年内让AI成为能提高效率的研究实习生;2.5年内实现AI端到端执行研究流程 [112][113] - 公司观察到AI在数学与科学领域产出实打实的新发现,标志着科研前沿推进发生了剧烈的阶段转变 [100][106] 竞争态势与人才争夺 - AI行业人才竞争激烈,Meta等公司采用激进的招聘策略(如高管亲自送汤),但公司在保护核心人才方面做得相当不错 [5][9] - 公司不会与竞争对手进行报价对标,即使面对远高于自身的报价倍数,许多人才仍因相信公司的研究路线和未来而选择留下 [11] - 公司也从竞争对手处学习激进的招聘方法,并积极争取明星人才,目标是为使命组建最强团队 [80] - 面对竞争对手发布新模型(如Gemini 3),公司会建立内部共识并进行试探,但强调不被竞争动态困住,坚持长期可持续的研究方式 [19][27] - 公司对DeepSeek等开源模型的崛起持冷静态度,认为应坚持自己的研究节奏持续创新,而非被外界叙事干扰 [128] 技术细节与算力需求 - 公司在“探索下一代范式”上投入的算力,比训练最终产物本身还要多 [16] - 公司的算力需求极为旺盛,如果今天多10倍算力,可能几周内就能全部用满,看不到需求放缓的迹象 [5][115] - 构建大型模型深度依赖工程能力,如优化内核速度、确保数值计算稳定等,没有这些则无法扩展到当前使用的GPU数量 [24][25] - 公司在数据效率相关算法上非常强,认为这是相对于竞争对手的一个优势 [116] - 公司在模型对齐与安全研究上投入巨大,特别关注随着模型能力增强可能出现的“谋划”(scheming)倾向,并设计了如不监督思考过程等重要工具来保持观察窗口 [137][140] 产品与未来展望 - 公司正在与Jony Ive合作开发硬件设备,旨在重新思考与AI的交互方式,使其具备更强记忆和持续学习能力 [117][118][119] - 未来的ChatGPT应具备更强的记忆和持续学习能力,能根据历史交互变得更聪明,而非每次重新思考 [118] - 公司推动“OpenAI for Science”计划,目标是打造工具与框架赋能全球科学家,加速诺贝尔奖级别的科学发现,而非仅让公司自身获奖 [101][102] - 公司认为AGI是一个过程而非某个具体完成点,更看重是否在持续产出新的科学知识和推进科学前沿 [99][100] - 公司认为当前正处于下一次工业革命的黄金时刻,变化将非常剧烈 [109][126]
聊DeepSeek、聊AI硬件、聊竞争对手,OpenAI首席研究官专访信息密度有点大
36氪· 2025-12-03 15:46
人才竞争与留存策略 - Meta在人才争夺上采取激进策略,每年投入数十亿美元用于招募,并试图挖走其直接管理团队中近半数成员,但多数人选择留下 [2] - 扎克伯格曾亲自向多位OpenAI员工送汤以招揽人才,作为回应,公司也开始向从Meta招募的员工送汤 [2] - 公司提供的薪酬倍数通常低于市场顶尖水平,但留住人才的关键在于员工对实现AGI共同愿景的信念,而非薪资竞争 [2] 研发资源分配与管理 - 公司内部同时推进的研究项目约300个,核心职责之一是对项目进行技术评估与优先级排序,并将有限算力分配给最有望推动AGI实现的项目 [3] - 公司将探索性研究置于首位,大量计算资源投入探索下一个范式,这部分投入经常超过最终模型训练本身的消耗 [3] - 管理挑战在于清晰拒绝非优先项目,通过透明原则保持研究组织高效运作,将算力集中于范式突破而非渐进迭代 [3] 技术发展重点与竞争优势 - 过去半年团队聚焦全方位提升预训练能力,实现关键环节突破,现已能在预训练领域与Gemini 3正面竞争 [5] - 当其他公司聚焦强化学习时,专注预训练成为公司的信息优势,近期模型因预训练强化而显著提升 [5] - 公司绝对会继续扩大模型规模,并已掌握支持进一步扩展的算法突破,在数据效率方面的算法非常强劲 [8] 对竞争与行业动态的应对 - 面对谷歌Gemini 3等竞争模型发布,团队关注但不会打乱自身节奏,将竞争对手发布视为行业方向一致的验证 [4] - 公司常用名为42问题的数学谜题测试模型,以考察数学推理与算法优化能力,但不会为在发布首日测试对手模型而熬夜 [4] - 面对DeepSeek开源模型冲击,公司选择坚守自身研究节奏,持续创新而非立即回应外界质疑 [10] AGI发展进程与衡量标准 - 关于AGI时间预测,公司更倾向将焦点从抽象时间预测转向具体进展指标,如是否产出新的科学知识和推进科学前沿 [6] - 公司认为正处在生产AGI的过程之中,自今年夏天起已观察到一个非常剧烈的阶段转变,AI在推动科学发现方面进入新阶段 [6] - AGI讨论往往陷入定义之争,即使内部也难以给出完全一致的定义,更倾向于用历史进程类比工业革命 [6] 未来技术路线图与目标 - 研究团队设定明确目标:一年内让AI成为研究实习生实质参与科研,两年半内实现AI端到端的完整研究能力 [7] - 当前流程由人类主导,但一年内将转变为人类把控方向,AI执行实现与调试的模式 [7] - 算力需求真实且迫切,如果今天多给3倍算力可立刻用完,多10倍几周内就能排满,看不到任何放缓迹象 [8] 硬件开发与交互体验演进 - 公司与知名设计师乔尼·艾维合作开发下一代AI硬件设备,旨在突破现有ChatGPT一问一答的交互局限 [9] - 未来设备应具备持续学习与记忆能力,能记住用户、理解意图、关联问题,并在每次互动中变得更聪明 [9] - 硬件设计流程与AI研究存在深层次相似性,均需经历大量探索、假设、试错与迭代,艾维是公司在品味上的鉴别者 [9]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
量子位· 2025-12-03 08:11
公司核心定位与战略 - 公司本质上仍是一家纯AI研究公司,核心使命是构建AGI[27][28][29] - 公司核心研究团队规模约500人,内部同时进行约300个项目[20][21] - 研究策略强调探索下一代范式而非复现竞争对手成果,在探索性研究上投入的算力超过训练最终产物本身[21][22][23] 人才竞争与组织文化 - 行业人才争夺激烈,Meta等公司采取激进挖角策略如高管亲自送汤,但公司在保护核心人才方面表现突出,半数被挖直接下属全部拒绝邀请[10][11][14] - 公司通过高人才密度和明确优先级管理保持竞争力,研究团队门槛极高,近期甚至故意不开放新招聘名额以维持组织精干[161][162][163] - 公司坚持对研究成果公开署名的政策,尽管可能增加人才被挖风险,但认为认可个人贡献对创新文化至关重要[164][166][167] 技术进展与竞争态势 - 公司内部已有性能达到Gemini 3的模型,并即将发布表现更好的下一代模型,在预训练方面有信心与Gemini 3正面对决[34][38][119] - 过去半年重点投入预训练领域,认为该领域仍有巨大潜力,完全不同意"规模扩展已死"的观点[38][116][118][119] - 模型在竞赛中表现突飞猛进,一年内从世界第100名跃升至前5名,在数学和科学领域展现出超人类水平能力[47][129][135] 研发资源管理 - 算力需求极其旺盛,若有10倍算力增加可在几周内全部用满,看不到需求放缓迹象[143][144] - GPU资源分配通过每1-2个月系统梳理300个项目优先级来决定,算力分配直接传达组织核心优先事项[20][21][24] - 研究领导层需具备极强技术判断力,持续做出正确技术决策是维持研究员尊重的关键[125][126] 未来研究方向 - 设立明确目标:一年内让AI成为研究助手,2.5年内实现端到端研究流程自动化[140][141] - 重点关注预训练、强化学习及系统整合方向,已有多个具突破潜力的核心想法准备规模化[154][155] - 对齐研究是核心挑战,通过不监督思考过程保留观察窗口,深入研究模型意图识别与价值对齐[167][170][171][173] 产品与生态布局 - 与Jony Ive合作开发硬件设备,探索更自然的AI交互方式,让模型具备持续学习用户偏好的能力[148][149] - 推出OpenAI for Science计划,目标赋能科学家群体而非自身获诺贝尔奖,推动科研范式变革[131][132][136] - 面对开源模型竞争保持既定研究节奏,强调持续创新而非被动回应市场热点[159][160]