预训练
搜索文档
技术指数级发展,可怕的是全世界竟无察觉
虎嗅APP· 2026-02-18 17:47
文章核心观点 - Anthropic公司CEO达里奥·阿莫代伊认为,人工智能技术正以指数级速度发展,公众对此严重低估[2] - 他90%确信在2035年前,甚至在“一两年内”,人类将迎来“数据中心里的天才国度”,即拥有超人类智能水平的AI系统[2][7] - 尽管AI能力将实现巨大飞跃,但其在经济中的扩散和影响需要时间,这解释了公司在算力投资上采取“负责任”的谨慎态度[14] 技术发展速度与AGI时间线 - 过去三年,AI模型能力从“聪慧的高中生”进化到能完成“博士和专业级别的工作”,在编程方面甚至超过了人类水平[2][4] - 对于“数据中心里的天才国度”的到来,公司CEO有90%的把握在十年内实现,而对于可验证的任务(如端到端编程),认为“一两年内”就能实现[7] - “数据中心里的天才国度”被定义为拥有5000万个诺贝尔奖得主的脑力,每个AI实例都能以超人类速度运行,在多个学科领域超越诺贝尔奖得主智力水平[7] 规模扩展的核心要素 - 技术发展的核心驱动力遵循“规模扩展”假设,与“苦涩的教训”观点一致,即智能主要取决于原始算力、数据数量与质量、训练时间、可扩展的目标函数等要素,而非特定的算法聪明才智[4] - 预训练和强化学习都显示出对数线性的扩展定律,随着任务复杂度和数据广泛性的增加,模型的泛化能力会越来越强[5] - 将预训练和强化学习类比为“进化”,而模型的上下文学习则类比为“短期学习”[6] AI对生产力的影响与就业 - 在Anthropic内部和许多用户中,已有90%的代码由AI编写,但这并不意味着90%的软件工程师会失业[8] - AI替代人类工作是一个完整的谱系:从辅助编写代码,到端到端完成整个软件工程任务(包括编译、测试、写备忘录等),再到工程师转向更高层次的工作如管理,最终才可能导致对软件工程师需求的减少[8] - 预计在一到两年内,AI就能达到端到端完成软件工程任务的水平[8] - 有两个指数在同时发生:模型能力的指数增长,以及模型在经济中扩散的指数增长,后者扩散速度比历史上任何技术都快[9] 模型能力泛化与持续学习 - 在计算机使用能力基准测试OSWorld上,AI的得分从一年前的约15%提升到了目前的65%~70%[11] - 让AI精通像人类一样“使用电脑”是处理复杂任务(如视频编辑)的关键,这需要模型达到“数据中心里的天才国度”的水平[11] - 当前通过预训练、强化学习和上下文学习(例如提供100万个token的上下文),可能就足以让模型获得广泛的知识和技能,达到“天才国度”的水平[12] - 实现更长的上下文(如1亿token)主要是一个工程和推理问题,可以通过在更长上下文上训练来解决[12] 算力投资策略与商业逻辑 - 尽管预测AGI迫在眉睫,但公司在算力投资上表现谨慎,关键在于理解技术突破与经济“扩散”之间存在时间滞后[14] - 建设数据中心有1-2年的提前期,当前决策影响的是2027年的能力,因此必须在“抓住强劲上升机会”和“避免在增长稍慢时破产”之间取得平衡[14][15] - 整个AI行业的算力投入正在快速增长,今年全球建设算力约10到15吉瓦,且该数字每年增长约3倍,预计到2028/2029年将达到数万亿美元量级[15] - 公司收入呈现指数级增长:2023年从0到1亿美元,2024年从1亿到10亿美元,2025年从10亿到90-100亿美元,2026年初趋势仍在继续[8] 行业盈利模式与定价 - AI行业存在盈利悖论:每个已部署的模型都能赚钱(推理业务毛利率超过50%),但公司整体亏损,因为巨额投入已用于训练下一代成本更高的模型[19] - 预计在拥有“数据中心里的天才国度”后,模型训练规模进入平稳阶段,公司才能实现整体盈利[19] - API按token收费的模式将持续,因为技术持续进步催生新应用场景[23] - 未来将出现按效果付费或按小时计费等多元商业模式,因为不同token的价值差异巨大,从价值“几分钱”的简单回答到价值“数千万美元”的关键建议都存在[23] 应用开发与机器人技术 - Claude Code(内部曾称Claude CLI)的成功源于公司内部使用自身模型加速研发的需求,在内部验证后快速推向市场[24] - 一旦实现“数据中心里的天才国度”,机器人技术将被“彻底改变”,包括机器人的设计和控制,并带来数万亿美元的收入,其扩散同样迅速[21] AI安全与治理 - 短期内需要确保有限的行业参与者都进行对齐工作并配备保障措施(如生物分类器)[25] - 长期需要建立治理架构,以维护人类自由的同时监控大量AI系统,可能包括以维护公民自由方式构建的AI监控系统[25] - 公司为Claude设定了一套“宪法”价值观,这比一长串规则更能保证行为一致性和更好地处理边缘情况,是“可修正性”和“内在价值观”的平衡[26] - 价值观的制定可通过三个层面:公司内部迭代、不同公司宪法竞争形成市场反馈、以及纳入更广泛的社会反馈(如民意调查)[27]
Meta内部备忘录:全新Avocado成公司迄今“最强能力”大模型
新浪财经· 2026-02-05 18:08
Meta AI 新模型“Avocado”的技术进展与内部评估 - 下一代大语言模型“Avocado”已完成预训练,被内部备忘录评价为“Meta迄今能力最强的预训练基础模型”[2][7] - 备忘录称,尽管Avocado尚未完成后训练,但其在知识储备、视觉感知及多语言能力上,已与顶尖的后训练模型持平[2][7] - 在文本相关任务中,Avocado的计算效率较上一代模型Maverick提升10倍,较另一版本Behemoth提升超100倍[4][9] Meta AI业务的重组与资本投入 - 公司于去年6月以143亿美元收购Scale AI,其CEO王士立加入并负责统领新成立的Meta超级智能实验室[3][9] - 公司近期预测,2026年包含AI算力成本在内的资本支出将较2025年增长约73%,达到1150亿至1350亿美元[3][9] - 技术效率的提升(如获取更高质量数据、投入基础设施、采用确定性训练)有助于降低AI研发的能耗与成本[4][10] 高管公开表态与未来展望 - 首席技术官安德鲁・博斯沃思在达沃斯论坛暗示了效率提升,并称AI模型“表现非常出色”[5][10] - 首席执行官马克・扎克伯格在财报电话会议上表示,预计首批模型会表现不错,更重要的是展现快速的发展轨迹,并计划今年持续推出新模型[5][10] - 博斯沃思同时指出,要开发出面向消费者的可用模型,仍需进行大量的后训练工作[5][10] 历史背景与潜在挑战 - 2025年,上一代大模型Llama 4表现未达预期,迫使公司推迟发布,最终推出的Maverick与Scout版本令部分开发者失望[3][8] - 在Avocado正式发布前,其内部乐观评估能否经受外界检验尚无定论,考虑到过去的坎坷经历,内部过度宣传也存在风险[3][8]
腾讯混元3年变形始末
第一财经· 2026-01-12 11:00
腾讯混元大模型战略与人才争夺 - 公司自研大模型混元的目标是对标全球最顶尖的大模型[8] - 2025年下半年,公司从OpenAI挖来姚顺雨,其被任命为首席AI科学家,直接向总裁刘炽平汇报,这是公司首次将大语言模型变为“一把手工程”[20][21] - 姚顺雨加入后,公司加速了人才招募,重点瞄准DeepSeek、月之暗面、字节跳动和阿里巴巴这四家基座模型团队的候选人[12] - 为抢夺人才,公司提供极具竞争力的薪酬,例如将字节跳动2-2职级候选人的薪酬提升200%,部分候选人年薪从250-300万元提升至300万元以上[10][13] - 公司于2025年4月成立了独立的大语言模型部与多模态模型部,12月进一步调整组织架构,新成立AI Infra部、AI Data部等,以匹配大模型研发需求[45] 组织架构调整与历史挑战 - 公司是国内大厂中最晚推出自研大模型的公司,起步缓慢与2022年公司经历的多重低谷有关,包括游戏业务版号总量同比减少32%[24][25] - 在大模型研发启动后的近三年里,公司长时间未为混元团队匹配到合适的技术领导者,前任负责人张正友(计算机视觉背景)和蒋杰(广告技术背景)的技术方向与大语言模型核心的自然语言处理关联不深[32][33] - 混元团队最初为虚拟团队,成员来自不同部门,职责与权限混乱,向上汇报链路长,向下管理复杂,资源获取效率低[34][35] - 随着新架构确立和姚顺雨上任,原有的AI Lab被逐渐弱化,其语音与自然语言处理研究方向将被裁撤,AI Lab反过来成为混元的下属部门[46] 模型研发策略与行业趋势 - 相较于前任,姚顺雨更加重视模型的后训练,并计划“从数据开始重新训练混元”,同时明确要降低内部模型的“发版速度”,以打磨好整体模型[18] - 大模型开发被视作一种“实验科学”和系统工程,需要一号位对模型从预训练到后训练有整体实验构想,而非仅靠技术骨干分工合作[23][32] - 行业落后者赶超的最优路径是效仿成熟做法,例如Google在Gemini 2.0中放弃自研的Encoder+Decoder架构,转向与OpenAI一致的Decoder only架构后,模型竞争力显著提升[47][48] - DeepSeek开源模型V3和R1为行业提供了类GPT-4和类o1模型的“配方”,加速了全球类似模型的推出[49][50] - 2025年12月,公司发布混元2.0模型,总参数为4060亿,但其被视为姚顺雨入职前的成果,姚顺雨预计将主导训练一个参数量更大的新版本,时间可能需大半年[52]
Hinton加入Scaling Law论战,他不站学生Ilya
量子位· 2026-01-01 10:13
文章核心观点 - 针对Scaling Law(规模定律)的未来,AI领域的顶尖专家们存在观点分歧,但共识在于其发展路径需要演进,而非简单的规模线性扩展 [8][21][49] - 以Geoffrey Hinton和Demis Hassabis为代表的一方认为Scaling Law依然有效,当前面临的数据瓶颈可通过AI自我生成数据等方式解决 [10][15][22] - 以Ilya Sutskever和Yann LeCun为代表的一方认为,单纯依赖扩大模型参数、数据和算力的传统Scaling Law路径已遇到瓶颈,不足以实现根本性突破,未来需要转向新的研究范式 [23][25][41] Scaling Law不死派:Hinton与哈萨比斯的观点 - Geoffrey Hinton明确表示Scaling Laws依然有效,但当前面临数据缺失的最大挑战,因为大部分高价值数据锁在公司内部,免费互联网数据已基本耗尽 [10][11] - Hinton认为数据瓶颈将由AI自行解决,即模型通过推理生成自己的训练数据,他类比了AlphaGo和AlphaZero通过自我对弈生成数据的方式 [12][13][14] - 谷歌DeepMind CEO Demis Hassabis同样支持将当前系统规模化推向极致,认为这将是最终AGI系统的关键组成部分,甚至可能成为整个AGI系统本身 [16][17] - Hassabis倡导一种更系统、广义的规模化,即模型规模、训练范式、环境复杂度及系统架构需作为协同演进整体同步扩展,他强调构建“世界模型”和整合“搜索”与“规划”能力,让模型进入可交互环境以无限扩展数据 [19][20] Scaling Law不够用派:Ilya与LeCun的观点 - OpenAI前首席科学家Ilya Sutskever对继续扩展规模持怀疑态度,质疑当规模已经很大时,再扩大100倍是否就能彻底改变一切,认为仅靠更大规模无法带来根本性转折 [23][24][40] - Ilya指出过去十年深度学习的突破基于一个特定的尺度假设公式,但这个公式会改变,他认为目前主流的“预训练+Scaling”路线已明显遇到瓶颈,需要将注意力放回“研究范式本身”的重构,即“重新回到科研时代” [38][39][41] - Ilya通过一个脑损伤患者丧失情感处理能力导致决策困难的例子,暗示当前预训练模型可能缺失类似情感的关键能力,这使得Scaling Law是否“够用”存疑 [44][45] - Meta首席AI科学家Yann LeCun同样怀疑Scaling Law,认为不能简单假设更多的数据和计算能力就意味着更智能的人工智能,他一直认为大语言模型无法实现AGI [46][47][48] 行业共识与未来方向 - 尽管存在表面分歧,但顶尖研究人员观点有惊人共识:当前范式即便没有进一步突破也可能带来巨大经济社会影响;实现AGI/ASI可能需要更多研究突破(如持续学习、样本效率);分歧主要在于突破的具体内容及到来速度 [51][53] - 争论的本质可能不在于是否要Scaling,而在于“我们到底在Scaling什么”,即规模化对象需要从简单的参数、数据、算力扩展到更复杂的系统能力 [52] - OpenAI的o1模型核心成员Noam Brown提出,o1代表一种以推理计算为代表的全新Scaling,暗示Scaling Law的形式正在演变 [37]
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
量子位· 2025-12-31 11:37
文章核心观点 - 当前人工智能行业面临的核心瓶颈并非算力增长停滞,而是现有技术范式(以Transformer架构为核心)对持续增长的算力的吸收和转化效率正在下降,即“算力增长与智能增长之间的映射关系开始松动”[2][22] - 智能的本质可被工程化地定义为“对未来状态进行预测,并为预测结果承担实际后果的能力”,这解释了Next-Token Prediction的成功,也揭示了当前许多模型在真实世界应用中的短板[8][10] - 未来智能增长的关键在于寻找“扩展性更强的架构或Loss函数”,以在极端算力投入下(如300亿美元预算)稳定地将新增算力转化为可兑现的能力增量,而非仅仅追求效率优化(如更高的吞吐量)[23][26] 智能的本质与评估 - 智能的核心能力被定义为对未来状态的预测及承担后果的能力,这为评估智能提供了一个工程化、可验证的标准[8] - 这一视角解释了Next-Token Prediction能成为“智能发动机”的原因,也揭示了在封闭评测中表现优异的系统在真实不确定环境中暴露短板的问题[10] - 将智能凝聚为“预测”是为了划定一个工程上可对齐算力投入的核心能力维度,但规划、因果建模等能力是否能完全还原为预测仍是开放议题[10] 当前技术范式的成功与局限 - 过去十年大模型的智能跃迁依赖于三件事同时发生:GPU提供指数级增长的并行算力、Transformer架构能充分“吃下”这些算力、Next-Token Prediction提供了无限且统一的学习信号[15] - Transformer的成功不仅是算法胜利,更是模型架构与硬件体系(英伟达GPU)高度匹配的系统性结果,它是一台“伪装成神经网络的并行计算机”[6][16] - 该范式的有效性部分受益于语言任务本身高度符号化、序列化,且评测体系与训练目标高度一致的特性[17] - 在此范式下,从GPT-1到ChatGPT,算力增长、模型规模扩大与能力提升之间形成了相对稳定的正反馈链路[18][19] 智能增长的瓶颈所在 - 判断智能瓶颈的具体标准是:当一次训练的FLOPS从10^n变成10^{n+3}(即增长1000倍)时,是否还能稳定获得显著更强的模型[20] - 瓶颈的本质是“算力增长与智能增长之间的映射关系开始松动”,即现有范式对新增算力的吸收效率下降,而非算力红利消失[2][22] - FLOPS被视为最底层、最难被包装的算力尺度,比Token数、参数量等指标更能反映本质[21] - 真正的难点在于缺乏一种“扩展性更强的架构或Loss函数”,能把新增算力稳定地转化为能力增量[23] 对行业主流讨论的批判性视角 - 预训练、监督微调(SFT)、强化学习(RL)三者本质都是在计算梯度、更新参数,可被统一视为不同的“算力使用策略”[11][12] - 当前模型的主要智能来源是预训练阶段,根本原因是其消耗了最多的能源与计算[15] - 行业应关注“在算力持续投入的前提下,是否还能稳定地换取能力增长”这一更朴素的问题,而非陷入方法论之争[15] - Mamba等新架构提升了吞吐量,但解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”[6][23] 未来发展的潜在方向 - 未来AI基础设施的核心目标应是提升“并行计算体系在软硬件层面的整体扩展性”,而不仅仅是单点芯片性能,需维持或提升计算开销与通信开销的比值[24][25] - 探索方向包括:回归高精度计算(如FP32/FP64)、抛弃Adam优化器、采用更高阶优化器、探索更可扩展的架构或Loss函数、进行更多epoch与更深度的超参数探索[6][25] - 预训练所能承载的智能增长空间可能还远未走到尽头,关键在于找到在极端算力条件下持续变强的能力[26] - 只要还能找到更高效组织计算的方式,智能的上限就远未到来[27]
Dwarkesh最新播客:AI 进展年终总结
36氪· 2025-12-25 07:15
AI发展现状与AGI时间线 - 以强化学习为核心的“中训练”正成为大型语言模型的重点突破方向,前沿科技公司正通过此方法将大量具体技能预先植入模型[3] - 当前对强化学习中训练的极度乐观态度与宣称AGI临近的观点存在根本矛盾,如果模型已接近类人学习者,这种基于“可验证结果”的训练路径是走不通的[14] - 为模型预置大量具体技能的做法,恰恰是AGI还很远的证据,因为如果模型泛化能力很强,就不需要单独构建那么多强化学习环境来教它操作特定工具[3][16] AI模型能力与泛化挑战 - 人类劳动力的价值在于其训练成本不笨重,能根据需要灵活掌握新技能,而当前AI缺乏稳健高效的方法来习得工作中大量需要的公司特定、情境特定技能[4][23] - 每天人类需处理上百件需要判断力、情境感知及工作中习得技能的事情,仅靠预置一组固定技能,连一份工作都无法完全自动化[24] - 在机器人等领域,根本问题是算法而非硬件或数据,人类只需很少训练就能远程操控硬件完成有用工作,这反衬出当前AI缺乏类人学习核心[19] AI经济扩散与市场潜力 - 企业有很强动机雇佣AI劳动力,因为经过验证的AI员工可以无损无限复制,且不存在招聘中的“柠檬市场”问题[5][29] - 当前AI未在企业广泛部署、未在编程外创造大量价值,本质是模型能力不足,而非技术扩散需要时间,所谓“经济扩散滞后”是为能力不足找借口[6][28] - 如果AI能力真达到AGI水平,其扩散速度会快得惊人,企业完全愿意每年花费数万亿美元购买token,因为知识工作者年总薪酬高达数十万亿美元[29] 技术演进路径与规模定律 - 预训练阶段的扩展定律非常清晰,算力数量级提升会导致损失函数稳定下降[10] - 但将预训练规模化的乐观经验移植到带可验证奖励的强化学习上缺乏依据,有研究指出,要强化学习获得类似GPT级别的提升,总算力规模可能需要提升到一百万倍[11][33] - 持续学习将是AGI之后模型能力提升的主要驱动力,预计前沿团队明年会发布持续学习雏形功能,但达到人类水平可能还需5到10年[13][40] 评估框架与未来影响 - 将AI模型智能与“中位数人类”对比会系统性高估其能创造的价值,因为知识工作的巨大价值来自最顶尖的一小撮人[12][35] - 一旦模型真正达到顶级人类水平,其影响力可能是爆炸式的,因为这意味着服务器上运行着数十亿个类人智能体,能复制、融合彼此全部学习成果[12][25] - 模型在“看起来很厉害”上的进步速度符合短时间线派预测,但在“真正变得有用”上的进展速度更符合长时间线派判断[32]
深度|OpenAI最高职级华人Mark Chen独家回应与Gemini竞争、Meta人才战及AI核心策略
Z Potentials· 2025-12-20 12:03
文章核心观点 - OpenAI在激烈的人才争夺战中,凭借其AGI愿景和研究文化,成功保留核心人才,而非依赖高薪竞价 [3][5] - OpenAI坚持长期主义研究哲学,专注于探索下一个范式,而非被动应对竞争对手的短期产品发布 [14] - 公司认为预训练仍有巨大提升空间,规模化并未过时,并通过技术突破使模型性能实现质的飞跃 [6][69] - AI(特别是GPT-5 Pro)在数学、科学等前沿研究领域已展现出超越人类直觉的解题能力,科学发现自动化进程显著 [33][34][89] - OpenAI设定了明确的研究自动化目标:1年内利用AI实习生助力研究,2.5年内实现AI端到端独立研究 [6][78] 人才战略与文化 - **人才争夺现状**:Meta等竞争对手以激进策略(如每年约100亿美元资金)争夺AI人才,甚至采用送亲手熬的汤等个性化方式,但OpenAI在保护核心人才方面做得相当不错 [3] - **留任核心逻辑**:OpenAI不与Meta进行逐美元竞价,提供的待遇远低于对方,但核心人才因坚信公司的发展潜力和AGI愿景而选择留下 [5][6] - **人才观与归属感**:公司认为过度关注研究功劳会阻碍进步,但认可人才价值至关重要,因此坚持公开项目归属,旨在成为培养AI超级明星的摇篮 [6][97][99] - **内部凝聚力**:在公司经历“动荡期”时,研究人员展现出高度团结,超过90%的研究人员(约100人)签署请愿书以应对外部不确定性 [60] 研究管理与优先级 - **研究管理架构**:OpenAI的研究方向由首席研究官与Jako共同塑造,并负责决定算力分配 [11] - **项目优先级管理**:公司每1到2个月会对所有研究项目进行一次梳理,整理出约300个项目的大表格并进行排名,以确保拥有约500人的研究团队明确核心优先级 [11] - **资源分配原则**:用于探索性研究的算力比用于训练实际模型的算力还要多,公司聚焦于寻找下一个范式,而非重复他人成果或在基准测试上追赶 [12] - **决策挑战**:确定优先级最难的部分在于拒绝一些项目,需要明确传达核心重点以推动研究进展 [13] 技术路线与竞争底气 - **预训练的突破**:过去六个月,公司重点恢复了在预训练及其他功能上的能力,认为预训练还有很大发展空间,并已训练出性能更强的模型 [69] - **规模化信念**:公司认为规模化并未过时,对算力的需求没有放缓迹象,如果算力增加10倍,可以在几周内充分利用并产生实际价值 [69][79] - **应对竞争**:面对Gemini 3等竞争对手的产品,OpenAI内部已有性能相当的模型,并即将发布,后续会有更优秀的迭代产品,公司更注重长期的技术积累而非短期测试 [19][23][24] - **算法优势**:公司在数据效率等方面拥有非常强大的算法,认为竞争对手在此仍有很大提升空间 [80] AGI愿景与科学赋能 - **AGI进程看法**:对AGI的定义因人而异,但公司认为正处于实现AGI的过程中,最重要的指标是能否产生新的科学知识并推动科学前沿 [74] - **科学发现自动化**:自今年夏天以来,AI在推动科学前沿方面已发生巨大转变,例如GPT-5 Pro曾用30分钟解决物理学家论文中的难题 [33][74] - **赋能目标**:公司的目标不仅是自己赢得诺贝尔奖,更是构建工具和框架,让所有科学家都能利用AI加速研究,共同推动整个领域发展 [75] - **具体进展**:在数学和科学领域已有具体成果,例如针对开放式凸优化问题的GPT-5论文,表明AI正在解决核心的机器学习问题 [76] 公司运营与未来方向 - **公司本质**:OpenAI本质上仍然是一家纯粹的AI研究公司,其核心精神是不惜一切代价安全地推进AGI研究,坚信创造最佳研究后,盈利会随之而来 [15] - **研究自动化路线图**:目标是在一年内改变研究方式,让人类负责提出想法(外层循环),模型负责实现和调试;在2.5年内实现AI端到端独立研究 [78] - **硬件合作**:公司正与Jony Ive合作开发设备,核心理念是改进ChatGPT的记忆功能,使其能通过持续互动变得更智能 [82] - **对齐与安全**:对齐是未来一两年最大的挑战之一,公司在对齐研究上做了大量工作,并持续探索如何确保模型的思考过程与人类价值观一致 [100][101]
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 09:44
研究背景与目标 - 旨在通过构建可控合成数据框架,在完全解耦环境下定量分析预训练、中期训练和强化学习对模型推理泛化能力的因果影响,以明确后训练是否真正扩展了模型能力 [2] 核心研究方法 - 设计了一套基于GSM-Infinite的可控合成数据框架,将“推理结构”与“表面语境”完全解耦,以从源头控制数据分布、推理深度与语境广度 [10][12] - 通过控制有向无环图的边数来精确量化推理复杂度,并应用不同“语境模板”将抽象数学图渲染为自然语言问题,以考察模型是否真正学会推理逻辑 [12] - 定义了三个互不重叠的训练阶段以避免数据污染,并引入过程级验证来防止奖励破解,要求推理步骤和最终答案全对才判定通过 [13] 关键研究发现:强化学习的效用 - 强化学习并非总能提升推理能力,其效用取决于“能力边缘” [16] - 对于预训练已充分掌握的简单任务,强化学习只能提升pass@1,无法提升模型上限pass@128 [17] - 真正的能力跃迁发生在模型“能力边缘”的任务上,强化学习能带来显著的外推性泛化增益;若任务难度超出模型探索范围,强化学习的收益会消失 [17] - 强化学习的训练数据必须精心校准,瞄准模型的“能力边缘”,既不能太简单也不能太难 [18] 关键研究发现:预训练与情境泛化 - 如果预训练中完全没有接触过某种长尾语境,即便强化学习阶段大量训练,模型也无法实现有效迁移 [21] - 只要在预训练中混入极少量目标语境数据作为“种子”,强化学习就能在后训练阶段将其放大,实现强劲的跨语境泛化 [22] - 强化学习无法无中生有,需要预训练提供最基础的“原语”作为抓手 [23] 关键研究发现:中期训练的作用 - 在固定计算预算下,引入中期训练阶段比单纯增加强化学习步数效果更好 [26] - 中期训练起到了“分布桥梁”的作用,极大地提升了强化学习的样本效率和最终性能上限 [27] - 对于极难任务,“少量中期训练+大量强化学习”是最佳策略;对于中等难度任务,增加中期训练比重能带来更稳定的pass@1表现 [26] 关键研究发现:过程奖励机制 - 将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误,在长链条推理任务中带来稳定的pass@1提升 [29] - 过程级信号能够规范强化学习的搜索方向,确保能力提升建立在忠实推理基础之上 [30] 实践指导与结论 - 强化学习数据设计应针对模型的“能力边缘”构建数据集 [31] - 预训练策略必须确保长尾领域的原子能力有至少1%的覆盖率,为强化学习留出接口 [32] - 应根据目标任务的难度动态调整中期训练与强化学习的比例,攻克难题需要更多强化学习,提升稳定性需要更多中期训练 [33] - 研究结果阐明了预训练、中期训练和强化学习之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础 [5]
GPT-5.2提前泄露?今夜,OpenAI要拿Gemini 3祭天
36氪· 2025-12-11 16:17
OpenAI新产品GPT-5.2/Garlic动态 - 核心观点:OpenAI可能即将发布新一代模型GPT-5.2(内部代号Garlic),其首战场选在Cursor IDE,旨在编程和推理领域狙击谷歌的Gemini 3 [1][3] - 根据泄露信息,GPT-5.2是一款经过彻底重构的专用模型,而非GPT-5的简单微调版,承载着公司的关键使命 [6] - 该模型预计在编程和逻辑推理任务上的表现已超越Gemini 3和Anthropic的Opus 4.5 [6] - 在长程任务执行上表现亮眼,能理解整个代码仓库架构并自动同步调整相关文件,显著减少幻觉 [7] - 预计发布时间可能在2026年初,潜在版本号为GPT-5.2或GPT-5.5 [10][11] - ChatGPT官方账号发布内涵图,暗示GPT-5.2或Garlic发布在即 [11] OpenAI模型技术进展与战略调整 - 公司正在开发一个代号为“Shallotpeat”的更大模型,意在重做模型预训练的“土壤”以解决基础问题 [15] - 开发Shallotpeat过程中用于修复预训练错误的方案已被整合到Garlic模型中 [19] - 公司承认谷歌在预训练方面“最近做得非常出色”,并意识到解决自身预训练阶段的问题对保持竞争力至关重要 [21][23] - 为应对竞争压力,公司可能暂停追求通用人工智能(AGI)的进程,将资源集中于提升ChatGPT质量等更紧迫的目标 [25] - 公司计划在未来五年内投入超过一万亿美元建设基础设施 [25] 行业竞争格局:OpenAI vs. Google - OpenAI首席执行官的内部备忘录警告,谷歌在AI领域的进展可能给公司带来“暂时的经济逆风”,并承认相对于谷歌和Anthropic的领先优势正在缩小 [20] - 谷歌Gemini 3的发布给OpenAI带来了巨大压力,双方进入势均力敌的竞赛状态 [28][29] - 在算力资源有限的零和博弈下,OpenAI面临选择:是继续开发视频生成模型Sora,还是将算力集中到能产生直接收入的文本/推理模型GPT-5.2上,目前迹象表明公司选择了后者 [29] - 尽管面临竞争,在2025年苹果官方确认的免费App排行榜上,ChatGPT仍位列第一,而Gemini排名靠后 [25][27] 谷歌面临的算力挑战与策略调整 - 2025年12月初,谷歌AI Studio的免费层配额出现断崖式削减,导致开发者社区恐慌,例如Gemini 2.5 Pro免费配额归零,Gemini 2.5 Flash从每天上千次请求被削减至每天仅20次 [30][31] - 谷歌产品负责人证实,削减免费层是为了释放算力,以应对旗舰图像生成模型Nano Banana Pro(即Gemini 3 Pro Image)的巨大增长需求 [33][34] - Nano Banana Pro的架构设计对算力需求达到前所未有的高度,是导致此次算力资源重新分配的核心原因 [32] - 性能数据显示,Gemini 3 Pro Image在多项指标上显著优于GPT-Image 1等竞争对手 [33]
AI大家说 | 重磅嘉宾齐聚,近期Dwarkesh Podcast都聊了些什么?
红杉汇· 2025-12-11 08:04
文章核心观点 - 文章通过总结Dwarkesh Podcast中多位AI行业领袖的深度访谈,揭示了当前AI技术发展范式的关键转变、未来AGI的形态构想以及行业竞争格局的演变趋势[2] Ilya Sutskever的观点 - 认为无脑堆算力的“暴力美学”时代已经翻篇,预训练开始式微,数据快用光了,后续发展更依赖研究直觉,回到了需要“拼品味、拼直觉”的手搓时代[5] - 提出“情绪”是进化赋予人类的精准价值函数,让AI拥有“情绪”或“直觉”是通往真正智能的必经之路[6] - 认为真正的AGI更像一个“15岁的天才少年”,学习能力极强,并且未来智能体可以“合并智能”,瞬间获得海量经验[7] Satya Nadella的观点 - 提出模型厂商可能遭遇“赢家诅咒”,模型作为可替换的计算部件非常脆弱,而掌握“场景权”和用户数据流更为关键,微软通过将AI深度集成到Office和GitHub等应用来巩固优势[10] - 指出GitHub的未来定位是“AI智能体的总部”,通过控制代码仓库来管理由不同AI生成的代码,从而掌握AI时代的管理权[11] - 预测SaaS模式将终结,未来将转向为AI Agent提供“数字实体”、身份认证、安全环境和云端电脑等基础设施,并按AI“员工”数量或资源消耗收费[12][13] Andrej Karpathy的观点 - 认为当前大型语言模型是通过预训练模仿互联网数据产生的“幽灵”,拥有知识但缺乏肉体直觉和常识,并非像动物一样进化而来[16] - 批评强化学习效率极低,其奖励信号如同“透过吸管吸取监督信号”,无法对模型复杂的推理步骤提供精细反馈,导致幻觉和逻辑问题[17] - 提出未来AGI的“认知核心”可能只需10亿参数,主张将记忆与认知剥离,知识应存储于外部而非全部记在模型内部[18] 图灵奖得主Sutton的观点 - 指出当前LLM只是在模仿人类语言,缺乏对“客观真相”的追求,没有目标的系统只能称为“行为系统”而非“智能系统”[21] - 强调生物界不存在监督学习,未来的AI应像野兽一样从“体验流”中通过尝试-反馈来学习,而非依赖人类标注的数据[21] - 将AI的诞生视为宇宙从“复制时代”进入“设计时代”的第四道门槛,是人类首次创造出原理可知、可被随意修改的智能体,是宇宙级的质变[22] Sergey Levine的观点 - 认为机器人不需要全知全能的世界模型,只需具备为完成具体任务而生的“隧道视野”,强大的目标感本身就是感知过滤器[25] - 提出在物理世界中,“失忆”或“在当下”的不费脑子的快速反应是高级智能的表现,未来机器人架构可能是“健忘”的小脑配合“博学”的大脑[26] - 指出2009年自动驾驶失败的原因是车辆缺乏常识,而当前机器人浪潮的变量在于通过视觉语言模型获得了先验知识,使其能零样本处理边缘情况[27]