预训练
搜索文档
深度|OpenAI最高职级华人Mark Chen独家回应与Gemini竞争、Meta人才战及AI核心策略
Z Potentials· 2025-12-20 12:03
文章核心观点 - OpenAI在激烈的人才争夺战中,凭借其AGI愿景和研究文化,成功保留核心人才,而非依赖高薪竞价 [3][5] - OpenAI坚持长期主义研究哲学,专注于探索下一个范式,而非被动应对竞争对手的短期产品发布 [14] - 公司认为预训练仍有巨大提升空间,规模化并未过时,并通过技术突破使模型性能实现质的飞跃 [6][69] - AI(特别是GPT-5 Pro)在数学、科学等前沿研究领域已展现出超越人类直觉的解题能力,科学发现自动化进程显著 [33][34][89] - OpenAI设定了明确的研究自动化目标:1年内利用AI实习生助力研究,2.5年内实现AI端到端独立研究 [6][78] 人才战略与文化 - **人才争夺现状**:Meta等竞争对手以激进策略(如每年约100亿美元资金)争夺AI人才,甚至采用送亲手熬的汤等个性化方式,但OpenAI在保护核心人才方面做得相当不错 [3] - **留任核心逻辑**:OpenAI不与Meta进行逐美元竞价,提供的待遇远低于对方,但核心人才因坚信公司的发展潜力和AGI愿景而选择留下 [5][6] - **人才观与归属感**:公司认为过度关注研究功劳会阻碍进步,但认可人才价值至关重要,因此坚持公开项目归属,旨在成为培养AI超级明星的摇篮 [6][97][99] - **内部凝聚力**:在公司经历“动荡期”时,研究人员展现出高度团结,超过90%的研究人员(约100人)签署请愿书以应对外部不确定性 [60] 研究管理与优先级 - **研究管理架构**:OpenAI的研究方向由首席研究官与Jako共同塑造,并负责决定算力分配 [11] - **项目优先级管理**:公司每1到2个月会对所有研究项目进行一次梳理,整理出约300个项目的大表格并进行排名,以确保拥有约500人的研究团队明确核心优先级 [11] - **资源分配原则**:用于探索性研究的算力比用于训练实际模型的算力还要多,公司聚焦于寻找下一个范式,而非重复他人成果或在基准测试上追赶 [12] - **决策挑战**:确定优先级最难的部分在于拒绝一些项目,需要明确传达核心重点以推动研究进展 [13] 技术路线与竞争底气 - **预训练的突破**:过去六个月,公司重点恢复了在预训练及其他功能上的能力,认为预训练还有很大发展空间,并已训练出性能更强的模型 [69] - **规模化信念**:公司认为规模化并未过时,对算力的需求没有放缓迹象,如果算力增加10倍,可以在几周内充分利用并产生实际价值 [69][79] - **应对竞争**:面对Gemini 3等竞争对手的产品,OpenAI内部已有性能相当的模型,并即将发布,后续会有更优秀的迭代产品,公司更注重长期的技术积累而非短期测试 [19][23][24] - **算法优势**:公司在数据效率等方面拥有非常强大的算法,认为竞争对手在此仍有很大提升空间 [80] AGI愿景与科学赋能 - **AGI进程看法**:对AGI的定义因人而异,但公司认为正处于实现AGI的过程中,最重要的指标是能否产生新的科学知识并推动科学前沿 [74] - **科学发现自动化**:自今年夏天以来,AI在推动科学前沿方面已发生巨大转变,例如GPT-5 Pro曾用30分钟解决物理学家论文中的难题 [33][74] - **赋能目标**:公司的目标不仅是自己赢得诺贝尔奖,更是构建工具和框架,让所有科学家都能利用AI加速研究,共同推动整个领域发展 [75] - **具体进展**:在数学和科学领域已有具体成果,例如针对开放式凸优化问题的GPT-5论文,表明AI正在解决核心的机器学习问题 [76] 公司运营与未来方向 - **公司本质**:OpenAI本质上仍然是一家纯粹的AI研究公司,其核心精神是不惜一切代价安全地推进AGI研究,坚信创造最佳研究后,盈利会随之而来 [15] - **研究自动化路线图**:目标是在一年内改变研究方式,让人类负责提出想法(外层循环),模型负责实现和调试;在2.5年内实现AI端到端独立研究 [78] - **硬件合作**:公司正与Jony Ive合作开发设备,核心理念是改进ChatGPT的记忆功能,使其能通过持续互动变得更智能 [82] - **对齐与安全**:对齐是未来一两年最大的挑战之一,公司在对齐研究上做了大量工作,并持续探索如何确保模型的思考过程与人类价值观一致 [100][101]
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 09:44
研究背景与目标 - 旨在通过构建可控合成数据框架,在完全解耦环境下定量分析预训练、中期训练和强化学习对模型推理泛化能力的因果影响,以明确后训练是否真正扩展了模型能力 [2] 核心研究方法 - 设计了一套基于GSM-Infinite的可控合成数据框架,将“推理结构”与“表面语境”完全解耦,以从源头控制数据分布、推理深度与语境广度 [10][12] - 通过控制有向无环图的边数来精确量化推理复杂度,并应用不同“语境模板”将抽象数学图渲染为自然语言问题,以考察模型是否真正学会推理逻辑 [12] - 定义了三个互不重叠的训练阶段以避免数据污染,并引入过程级验证来防止奖励破解,要求推理步骤和最终答案全对才判定通过 [13] 关键研究发现:强化学习的效用 - 强化学习并非总能提升推理能力,其效用取决于“能力边缘” [16] - 对于预训练已充分掌握的简单任务,强化学习只能提升pass@1,无法提升模型上限pass@128 [17] - 真正的能力跃迁发生在模型“能力边缘”的任务上,强化学习能带来显著的外推性泛化增益;若任务难度超出模型探索范围,强化学习的收益会消失 [17] - 强化学习的训练数据必须精心校准,瞄准模型的“能力边缘”,既不能太简单也不能太难 [18] 关键研究发现:预训练与情境泛化 - 如果预训练中完全没有接触过某种长尾语境,即便强化学习阶段大量训练,模型也无法实现有效迁移 [21] - 只要在预训练中混入极少量目标语境数据作为“种子”,强化学习就能在后训练阶段将其放大,实现强劲的跨语境泛化 [22] - 强化学习无法无中生有,需要预训练提供最基础的“原语”作为抓手 [23] 关键研究发现:中期训练的作用 - 在固定计算预算下,引入中期训练阶段比单纯增加强化学习步数效果更好 [26] - 中期训练起到了“分布桥梁”的作用,极大地提升了强化学习的样本效率和最终性能上限 [27] - 对于极难任务,“少量中期训练+大量强化学习”是最佳策略;对于中等难度任务,增加中期训练比重能带来更稳定的pass@1表现 [26] 关键研究发现:过程奖励机制 - 将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误,在长链条推理任务中带来稳定的pass@1提升 [29] - 过程级信号能够规范强化学习的搜索方向,确保能力提升建立在忠实推理基础之上 [30] 实践指导与结论 - 强化学习数据设计应针对模型的“能力边缘”构建数据集 [31] - 预训练策略必须确保长尾领域的原子能力有至少1%的覆盖率,为强化学习留出接口 [32] - 应根据目标任务的难度动态调整中期训练与强化学习的比例,攻克难题需要更多强化学习,提升稳定性需要更多中期训练 [33] - 研究结果阐明了预训练、中期训练和强化学习之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础 [5]
GPT-5.2提前泄露?今夜,OpenAI要拿Gemini 3祭天
36氪· 2025-12-11 16:17
OpenAI新产品GPT-5.2/Garlic动态 - 核心观点:OpenAI可能即将发布新一代模型GPT-5.2(内部代号Garlic),其首战场选在Cursor IDE,旨在编程和推理领域狙击谷歌的Gemini 3 [1][3] - 根据泄露信息,GPT-5.2是一款经过彻底重构的专用模型,而非GPT-5的简单微调版,承载着公司的关键使命 [6] - 该模型预计在编程和逻辑推理任务上的表现已超越Gemini 3和Anthropic的Opus 4.5 [6] - 在长程任务执行上表现亮眼,能理解整个代码仓库架构并自动同步调整相关文件,显著减少幻觉 [7] - 预计发布时间可能在2026年初,潜在版本号为GPT-5.2或GPT-5.5 [10][11] - ChatGPT官方账号发布内涵图,暗示GPT-5.2或Garlic发布在即 [11] OpenAI模型技术进展与战略调整 - 公司正在开发一个代号为“Shallotpeat”的更大模型,意在重做模型预训练的“土壤”以解决基础问题 [15] - 开发Shallotpeat过程中用于修复预训练错误的方案已被整合到Garlic模型中 [19] - 公司承认谷歌在预训练方面“最近做得非常出色”,并意识到解决自身预训练阶段的问题对保持竞争力至关重要 [21][23] - 为应对竞争压力,公司可能暂停追求通用人工智能(AGI)的进程,将资源集中于提升ChatGPT质量等更紧迫的目标 [25] - 公司计划在未来五年内投入超过一万亿美元建设基础设施 [25] 行业竞争格局:OpenAI vs. Google - OpenAI首席执行官的内部备忘录警告,谷歌在AI领域的进展可能给公司带来“暂时的经济逆风”,并承认相对于谷歌和Anthropic的领先优势正在缩小 [20] - 谷歌Gemini 3的发布给OpenAI带来了巨大压力,双方进入势均力敌的竞赛状态 [28][29] - 在算力资源有限的零和博弈下,OpenAI面临选择:是继续开发视频生成模型Sora,还是将算力集中到能产生直接收入的文本/推理模型GPT-5.2上,目前迹象表明公司选择了后者 [29] - 尽管面临竞争,在2025年苹果官方确认的免费App排行榜上,ChatGPT仍位列第一,而Gemini排名靠后 [25][27] 谷歌面临的算力挑战与策略调整 - 2025年12月初,谷歌AI Studio的免费层配额出现断崖式削减,导致开发者社区恐慌,例如Gemini 2.5 Pro免费配额归零,Gemini 2.5 Flash从每天上千次请求被削减至每天仅20次 [30][31] - 谷歌产品负责人证实,削减免费层是为了释放算力,以应对旗舰图像生成模型Nano Banana Pro(即Gemini 3 Pro Image)的巨大增长需求 [33][34] - Nano Banana Pro的架构设计对算力需求达到前所未有的高度,是导致此次算力资源重新分配的核心原因 [32] - 性能数据显示,Gemini 3 Pro Image在多项指标上显著优于GPT-Image 1等竞争对手 [33]
AI大家说 | 重磅嘉宾齐聚,近期Dwarkesh Podcast都聊了些什么?
红杉汇· 2025-12-11 08:04
文章核心观点 - 文章通过总结Dwarkesh Podcast中多位AI行业领袖的深度访谈,揭示了当前AI技术发展范式的关键转变、未来AGI的形态构想以及行业竞争格局的演变趋势[2] Ilya Sutskever的观点 - 认为无脑堆算力的“暴力美学”时代已经翻篇,预训练开始式微,数据快用光了,后续发展更依赖研究直觉,回到了需要“拼品味、拼直觉”的手搓时代[5] - 提出“情绪”是进化赋予人类的精准价值函数,让AI拥有“情绪”或“直觉”是通往真正智能的必经之路[6] - 认为真正的AGI更像一个“15岁的天才少年”,学习能力极强,并且未来智能体可以“合并智能”,瞬间获得海量经验[7] Satya Nadella的观点 - 提出模型厂商可能遭遇“赢家诅咒”,模型作为可替换的计算部件非常脆弱,而掌握“场景权”和用户数据流更为关键,微软通过将AI深度集成到Office和GitHub等应用来巩固优势[10] - 指出GitHub的未来定位是“AI智能体的总部”,通过控制代码仓库来管理由不同AI生成的代码,从而掌握AI时代的管理权[11] - 预测SaaS模式将终结,未来将转向为AI Agent提供“数字实体”、身份认证、安全环境和云端电脑等基础设施,并按AI“员工”数量或资源消耗收费[12][13] Andrej Karpathy的观点 - 认为当前大型语言模型是通过预训练模仿互联网数据产生的“幽灵”,拥有知识但缺乏肉体直觉和常识,并非像动物一样进化而来[16] - 批评强化学习效率极低,其奖励信号如同“透过吸管吸取监督信号”,无法对模型复杂的推理步骤提供精细反馈,导致幻觉和逻辑问题[17] - 提出未来AGI的“认知核心”可能只需10亿参数,主张将记忆与认知剥离,知识应存储于外部而非全部记在模型内部[18] 图灵奖得主Sutton的观点 - 指出当前LLM只是在模仿人类语言,缺乏对“客观真相”的追求,没有目标的系统只能称为“行为系统”而非“智能系统”[21] - 强调生物界不存在监督学习,未来的AI应像野兽一样从“体验流”中通过尝试-反馈来学习,而非依赖人类标注的数据[21] - 将AI的诞生视为宇宙从“复制时代”进入“设计时代”的第四道门槛,是人类首次创造出原理可知、可被随意修改的智能体,是宇宙级的质变[22] Sergey Levine的观点 - 认为机器人不需要全知全能的世界模型,只需具备为完成具体任务而生的“隧道视野”,强大的目标感本身就是感知过滤器[25] - 提出在物理世界中,“失忆”或“在当下”的不费脑子的快速反应是高级智能的表现,未来机器人架构可能是“健忘”的小脑配合“博学”的大脑[26] - 指出2009年自动驾驶失败的原因是车辆缺乏常识,而当前机器人浪潮的变量在于通过视觉语言模型获得了先验知识,使其能零样本处理边缘情况[27]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
36氪· 2025-12-04 10:58
公司战略与文化 - 公司本质上仍然是一家纯AI研究公司,核心目标是构建AGI,产品是研究自然流出的结果 [5][21][124] - 公司拥有约500名核心研究人员,内部同时进行约300个项目,通过每1-2个月梳理项目并分配算力来明确优先级 [5][14][15] - 公司采用自上而下押注方向与自下而上文化并存的研究模式,鼓励来自意想不到地方的好点子,并积极放大有前景的研究线索 [79][97] - 公司坚持开放文化,研究人员之间自由分享想法,认为通过速度压制对手比建立信息隔离更有效 [84] - 公司非常重视人才密度,并有意控制研究团队规模,认为甚至可能少于500人,同时通过管理实验确保高门槛 [129][130][131] - 公司在项目署名上持开放态度,被认为是行业内单位人数上对外部署名与个人功劳最大方的地方之一,旨在认可并打造AI超级明星 [133][134][136] 研究重点与进展 - 过去半年,公司研究重心重新聚焦于预训练,认为预训练领域仍有巨大潜力可挖掘,并对此非常有信心 [5][31][88][89] - 公司在“思考”(Reasoning)方向的研究已取得突破,并投入了巨量资源,该能力现已被广泛认为是不可或缺的 [20][86] - 公司内部已有性能达到Gemini 3的模型,并确定很快会发布,且能发布表现更好的下一代模型 [5][27] - 公司认为扩展定律(Scaling Law)并未失效,将继续扩大模型规模,并已有算法突破支持继续扩展 [89][114][116] - 公司设定了明确的研究目标:一年内让AI成为能提高效率的研究实习生;2.5年内实现AI端到端执行研究流程 [112][113] - 公司观察到AI在数学与科学领域产出实打实的新发现,标志着科研前沿推进发生了剧烈的阶段转变 [100][106] 竞争态势与人才争夺 - AI行业人才竞争激烈,Meta等公司采用激进的招聘策略(如高管亲自送汤),但公司在保护核心人才方面做得相当不错 [5][9] - 公司不会与竞争对手进行报价对标,即使面对远高于自身的报价倍数,许多人才仍因相信公司的研究路线和未来而选择留下 [11] - 公司也从竞争对手处学习激进的招聘方法,并积极争取明星人才,目标是为使命组建最强团队 [80] - 面对竞争对手发布新模型(如Gemini 3),公司会建立内部共识并进行试探,但强调不被竞争动态困住,坚持长期可持续的研究方式 [19][27] - 公司对DeepSeek等开源模型的崛起持冷静态度,认为应坚持自己的研究节奏持续创新,而非被外界叙事干扰 [128] 技术细节与算力需求 - 公司在“探索下一代范式”上投入的算力,比训练最终产物本身还要多 [16] - 公司的算力需求极为旺盛,如果今天多10倍算力,可能几周内就能全部用满,看不到需求放缓的迹象 [5][115] - 构建大型模型深度依赖工程能力,如优化内核速度、确保数值计算稳定等,没有这些则无法扩展到当前使用的GPU数量 [24][25] - 公司在数据效率相关算法上非常强,认为这是相对于竞争对手的一个优势 [116] - 公司在模型对齐与安全研究上投入巨大,特别关注随着模型能力增强可能出现的“谋划”(scheming)倾向,并设计了如不监督思考过程等重要工具来保持观察窗口 [137][140] 产品与未来展望 - 公司正在与Jony Ive合作开发硬件设备,旨在重新思考与AI的交互方式,使其具备更强记忆和持续学习能力 [117][118][119] - 未来的ChatGPT应具备更强的记忆和持续学习能力,能根据历史交互变得更聪明,而非每次重新思考 [118] - 公司推动“OpenAI for Science”计划,目标是打造工具与框架赋能全球科学家,加速诺贝尔奖级别的科学发现,而非仅让公司自身获奖 [101][102] - 公司认为AGI是一个过程而非某个具体完成点,更看重是否在持续产出新的科学知识和推进科学前沿 [99][100] - 公司认为当前正处于下一次工业革命的黄金时刻,变化将非常剧烈 [109][126]
聊DeepSeek、聊AI硬件、聊竞争对手,OpenAI首席研究官专访信息密度有点大
36氪· 2025-12-03 15:46
人才竞争与留存策略 - Meta在人才争夺上采取激进策略,每年投入数十亿美元用于招募,并试图挖走其直接管理团队中近半数成员,但多数人选择留下 [2] - 扎克伯格曾亲自向多位OpenAI员工送汤以招揽人才,作为回应,公司也开始向从Meta招募的员工送汤 [2] - 公司提供的薪酬倍数通常低于市场顶尖水平,但留住人才的关键在于员工对实现AGI共同愿景的信念,而非薪资竞争 [2] 研发资源分配与管理 - 公司内部同时推进的研究项目约300个,核心职责之一是对项目进行技术评估与优先级排序,并将有限算力分配给最有望推动AGI实现的项目 [3] - 公司将探索性研究置于首位,大量计算资源投入探索下一个范式,这部分投入经常超过最终模型训练本身的消耗 [3] - 管理挑战在于清晰拒绝非优先项目,通过透明原则保持研究组织高效运作,将算力集中于范式突破而非渐进迭代 [3] 技术发展重点与竞争优势 - 过去半年团队聚焦全方位提升预训练能力,实现关键环节突破,现已能在预训练领域与Gemini 3正面竞争 [5] - 当其他公司聚焦强化学习时,专注预训练成为公司的信息优势,近期模型因预训练强化而显著提升 [5] - 公司绝对会继续扩大模型规模,并已掌握支持进一步扩展的算法突破,在数据效率方面的算法非常强劲 [8] 对竞争与行业动态的应对 - 面对谷歌Gemini 3等竞争模型发布,团队关注但不会打乱自身节奏,将竞争对手发布视为行业方向一致的验证 [4] - 公司常用名为42问题的数学谜题测试模型,以考察数学推理与算法优化能力,但不会为在发布首日测试对手模型而熬夜 [4] - 面对DeepSeek开源模型冲击,公司选择坚守自身研究节奏,持续创新而非立即回应外界质疑 [10] AGI发展进程与衡量标准 - 关于AGI时间预测,公司更倾向将焦点从抽象时间预测转向具体进展指标,如是否产出新的科学知识和推进科学前沿 [6] - 公司认为正处在生产AGI的过程之中,自今年夏天起已观察到一个非常剧烈的阶段转变,AI在推动科学发现方面进入新阶段 [6] - AGI讨论往往陷入定义之争,即使内部也难以给出完全一致的定义,更倾向于用历史进程类比工业革命 [6] 未来技术路线图与目标 - 研究团队设定明确目标:一年内让AI成为研究实习生实质参与科研,两年半内实现AI端到端的完整研究能力 [7] - 当前流程由人类主导,但一年内将转变为人类把控方向,AI执行实现与调试的模式 [7] - 算力需求真实且迫切,如果今天多给3倍算力可立刻用完,多10倍几周内就能排满,看不到任何放缓迹象 [8] 硬件开发与交互体验演进 - 公司与知名设计师乔尼·艾维合作开发下一代AI硬件设备,旨在突破现有ChatGPT一问一答的交互局限 [9] - 未来设备应具备持续学习与记忆能力,能记住用户、理解意图、关联问题,并在每次互动中变得更聪明 [9] - 硬件设计流程与AI研究存在深层次相似性,均需经历大量探索、假设、试错与迭代,艾维是公司在品味上的鉴别者 [9]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
量子位· 2025-12-03 08:11
公司核心定位与战略 - 公司本质上仍是一家纯AI研究公司,核心使命是构建AGI[27][28][29] - 公司核心研究团队规模约500人,内部同时进行约300个项目[20][21] - 研究策略强调探索下一代范式而非复现竞争对手成果,在探索性研究上投入的算力超过训练最终产物本身[21][22][23] 人才竞争与组织文化 - 行业人才争夺激烈,Meta等公司采取激进挖角策略如高管亲自送汤,但公司在保护核心人才方面表现突出,半数被挖直接下属全部拒绝邀请[10][11][14] - 公司通过高人才密度和明确优先级管理保持竞争力,研究团队门槛极高,近期甚至故意不开放新招聘名额以维持组织精干[161][162][163] - 公司坚持对研究成果公开署名的政策,尽管可能增加人才被挖风险,但认为认可个人贡献对创新文化至关重要[164][166][167] 技术进展与竞争态势 - 公司内部已有性能达到Gemini 3的模型,并即将发布表现更好的下一代模型,在预训练方面有信心与Gemini 3正面对决[34][38][119] - 过去半年重点投入预训练领域,认为该领域仍有巨大潜力,完全不同意"规模扩展已死"的观点[38][116][118][119] - 模型在竞赛中表现突飞猛进,一年内从世界第100名跃升至前5名,在数学和科学领域展现出超人类水平能力[47][129][135] 研发资源管理 - 算力需求极其旺盛,若有10倍算力增加可在几周内全部用满,看不到需求放缓迹象[143][144] - GPU资源分配通过每1-2个月系统梳理300个项目优先级来决定,算力分配直接传达组织核心优先事项[20][21][24] - 研究领导层需具备极强技术判断力,持续做出正确技术决策是维持研究员尊重的关键[125][126] 未来研究方向 - 设立明确目标:一年内让AI成为研究助手,2.5年内实现端到端研究流程自动化[140][141] - 重点关注预训练、强化学习及系统整合方向,已有多个具突破潜力的核心想法准备规模化[154][155] - 对齐研究是核心挑战,通过不监督思考过程保留观察窗口,深入研究模型意图识别与价值对齐[167][170][171][173] 产品与生态布局 - 与Jony Ive合作开发硬件设备,探索更自然的AI交互方式,让模型具备持续学习用户偏好的能力[148][149] - 推出OpenAI for Science计划,目标赋能科学家群体而非自身获诺贝尔奖,推动科研范式变革[131][132][136] - 面对开源模型竞争保持既定研究节奏,强调持续创新而非被动回应市场热点[159][160]
OpenAI大溃败,GPT-5「换皮」GPT-4o,两年半预训练0突破
36氪· 2025-12-01 10:12
OpenAI研发进展与挑战 - 自2024年5月GPT-4o发布后,公司顶尖团队尚未完成一次为下一代前沿模型设计的大规模预训练[3][5] - 过去两年半时间,公司没有真正扩大预训练的规模[7] - 第五代旗舰模型GPT-5及GPT-5.1的技术根基可能仍未突破GPT-4o的范畴,而非基于全新前沿模型的大规模预训练[1][12][25] 具体项目遇挫详情 - 秘密项目Orion原定以GPT-5面世,但因训练未达预期被降级为GPT-4.5发布[11] - Orion大规模预训练时间超过3个月,打破行业通常1-2个月的常规,且性能提升主要局限在语言能力,代码能力甚至不如旧模型且成本更高[14][17] - GPT-4.5基于Orion模型,追求更强的语言能力、更稳的对话体验和更大知识库,情商成为关键词,代码虽有提升但并非主菜[17][18] 模型性能与行业对比 - GPT-5发布后业界反响唏嘘,被视为GPT-4.5的进一步优化版而非颠覆性飞跃[20] - 技术社区观点认为GPT-5更像是GPT-4o的功能增强版,即便命名为GPT-4.2也毫不违和[34][35] - 相比前代GPT-4.5,GPT-5很可能消耗了更少的训练算力[36] - 根据基准测试数据,谷歌Gemini 3 Pro在多项指标上超越GPT-5.1,例如Humanity's Last Exam(37.5% vs 26.5%)、ARC-AGI-2(31.1% vs 17.6%)、MathArena Apex(23.4% vs 1.0%)等[31] 战略转向与内部调整 - 公司将更多精力转向推理模型,这种模型计算量更大但有望输出更优质回答[34] - 公司内部共识已从追求“统治一切”的超级模型转变为模型专业化和多样化,认可需要针对特定任务的专用模型[54] - 公司正打造代号为“Shallotpeat”的新一代大语言模型,专门修复预训练过程中遇到的种种疑难杂症[46][50] - 公司重点发展智能体开发工具“Agent Builder”,将智能体划分为探索型/非定向工作和流程型/SOP导向工作两类[60][62] 竞争对手动态与行业影响 - 谷歌在预训练领域取得新突破,给Gemini 3带来空前推理深度,而谷歌和Anthropic仍在扩大预训练并增强强化学习[25][31] - 公司内部备忘录承认谷歌在大语言模型特别是预训练方面表现出色,承认竞争对手重新崛起和企业需求降温打破了其无敌光环[27][29] - 公司计划在圣诞节前夕发布一系列新模型,包括Image Gen v2、IMO和IOI金牌多模态模型、GPT-5.2 Codex等[72][73]
Ilya辟谣Scaling Law终结论
AI前线· 2025-11-30 13:33
AI发展范式转变 - 单纯依靠算力规模扩张的"大力出奇迹"时代可能已经结束,即使资源增加100倍也未必能带来AI能力的质变[2] - AI发展正从"规模扩张时代"重新回到"研究驱动的时代",但这次研究建立在前期积累的超大算力基础之上[16][42][45] - 当前AI进展的瓶颈已从"算力"转向"想法本身",行业内公司数量远多于真正新颖的思路[16][60] 当前AI模型的局限性 - 现有大模型出现明显断层:在基准测试中成绩惊人,但在简单真实任务中经常翻车,智能表现脆弱[16][17] - 模型泛化能力远逊于人类,既体现在需要海量数据、样本效率极低,也体现在教授复杂任务非常困难[16][47] - 强化学习可能让模型变得过于单一目标驱动,过度聚焦评测分数反而削弱了向真实应用场景泛化的能力[16][19] 未来AI发展方向 - 实现通用人工智能可能还需要更多突破,持续学习和样本效率是常被提及的两个方向[5] - 价值函数被认为是重要发展方向,能让AI更高效地学习,预计未来会广泛应用[37][46] - 人类学习机制为AI发展提供重要启示,人类拥有强大的内部价值函数和鲁棒的学习机制[55][56] AI经济影响与部署策略 - 即使没有进一步研究突破,当前技术范式也足以产生巨大的经济和社会影响[5] - 最强大的AI部署关键在于能够把在整个经济体系中各个实例的学习结果合并起来,这种集体知识汇聚可能触发智能爆炸[16][81] - AI部署应该采用渐进式方式,让社会逐步接触和适应,而不是一次性推出完全成熟的超级智能[72][73][85] 行业竞争格局 - 行业内专家共识远多于分歧,普遍认为通用人工智能大概率会在20年内实现,而非需要100多年[5][111] - 当前AI行业公司数量多于真正新颖的思路,竞争格局呈现同质化趋势[60][113] - 随着AI能力提升,不同公司可能会在技术路径和对齐策略上逐渐收敛[115][116] 研究资源分配 - 用于研究的算力需求相对可控,AlexNet仅用2块GPU,Transformer初期实验使用8-64块GPU[61] - 大公司算力被分割到不同模态和产品线,真正用于纯研究的算力差距并不像表面数字那么大[63][66] - 研究时代需要的是思维多样性而非简单算力堆砌,思维多样性比同质化复制更重要[124]
AI大神伊利亚宣告 Scaling时代终结!断言AGI的概念被误导
混沌学园· 2025-11-28 20:35
AI发展范式转变 - AI发展正从"扩展时代"回归"研究时代",仅靠堆砌算力已无法实现突破[2][18] - 当前算力规模已达到前所未有的水平,但再投入100倍资源也难以带来质变[18] - 行业将重新进入探索状态,需要尝试多种新方法并观察有趣现象[20] AI技术瓶颈与突破方向 - 当前顶尖AI存在严重的"评估表现"与"现实应用"脱节问题,核心在于模型泛化能力远不如人类[3][21] - 人类情绪相当于AI的"价值函数",能为决策提供即时反馈,这是AI缺失的关键能力[3][9] - 价值函数能让强化学习更高效,通过预训练让模型获得"情绪驱动的决策能力"是重要方向[9][21] - 人类拥有比AI更好的学习算法,在样本效率和持续学习上具有明显优势[3][27] 研究公司战略定位 - SSI定位为纯粹的"研究公司",不参与算力竞赛,专注于突破性研究[3][35] - 公司已筹集30亿美元资金,专注于研究而非产品开发,盈利模式将随研究推进自然显现[33][35] - 公司计划在"直奔超智能"与"渐进部署"间寻找平衡点,避免日常市场竞争干扰[36] 超级智能定义与发展路径 - 超级智能被定义为"能够学会做所有事"的成长型心智,而非掌握所有技能的成品[42][43] - 超级智能会像15岁少年一样在实践中学习,通过部署实现持续成长[41][44] - 广泛部署可能引发快速经济增长,实现"普遍高收入"的短期效果[46][57] AI治理与安全理念 - 主张通过"渐进式部署和公开展示"让人们感受AI能力与风险[3][49] - 建议构建关心所有"有情生命"的AI,认为这比只关心人类更根本且更简单[3][51] - 当AI变得更强大时,公司和政府会更有意愿采取安全措施,行业合作将加强[50] 技术发展趋势预测 - 预训练导致各公司模型同质化,强化学习才是产生差异化的路径[4] - 人类神经元可能比想象中进行了更多计算,这可能是AI尚未掌握的优势[30] - 研究进展受想法和实现能力双重制约,当前算力已足够支撑想法验证[32]