GPT系列
搜索文档
OpenAI翁家翌:梯度之外,下一个AI训练范式有着落了?
机器之心· 2026-05-09 11:04
文章核心观点 - 一种名为“启发式学习”的新方法,通过AI编程代理自动维护和迭代基于规则的程序系统,能够在多个复杂任务中达到或超越深度强化学习的性能,这标志着一种潜在的新范式转移 [1][3][6] - AI编程代理显著降低了传统手写规则系统的维护成本,使得原本因维护困难而被低估的启发式方法,现在具备了长期发展和持续迭代的可行性 [2][12][16] - 启发式学习通过将历史经验显式地固化在代码、测试和记录中,为解决持续学习中的灾难性遗忘问题提供了一种更工程化的路径 [2][15][18] - 未来的发展方向是结合神经网络与启发式系统,利用后者快速处理在线数据并积累经验,再周期性内化到神经网络中,形成互补的混合智能系统 [3][26][29] 异常现象 - 最初仅为测试游戏环境而编写的廉价启发式规则,在AI编程代理的迭代下,于多个经典任务中取得了超预期的顶尖成绩 [7] - 在打砖块游戏中,策略分数从387分迭代至理论最高分864分 [8] - 在四足机器人控制任务中,纯Python程序策略得分超过6000分,达到常见深度强化学习的量级 [8] - 在机器人跑步任务中,策略迭代至5局复测均值11836.7分,同样进入深度强化学习的结果区间 [8] - 在整套Atari 57个游戏的批量测试中,无人值守的编码代理流程所达到的中位数HNS游戏得分,在100万环境步附近已远高于PPO等深度强化学习算法的早期曲线 [8] Heuristic Learning - 启发式学习是一种新的学习框架,其策略由代码构成,更新由编码代理直接修改代码完成,而非通过梯度更新神经网络参数 [11] - 与深度强化学习相比,启发式学习具备可解释性、样本效率高、可回归验证、可约束过拟合以及有助于避免灾难性遗忘等良好性质 [15] - 其核心在于,AI编程代理改变了手写规则系统的维护成本曲线,使得一套包含策略、状态表示、反馈入口、实验记录和更新机制的“启发式系统”值得被长期拥有和持续生长 [10][12][14] 为什么 Heuristic Learning 以前没发展起来 - 传统上,由人类手工维护的专家系统或规则系统,在规模扩大后维护成本极高,容易出现“打补丁”式的恶性循环,最终导致系统难以维护 [13][16] - 问题的核心并非启发式方法无效,而是缺乏足够的人力资源来持续“喂养”和迭代系统 [16] - AI编程代理的出现,如同为系统提供了一条可持续输送“智力”的管道,从根本上改变了维护成本曲线,使得启发式系统的持续迭代成为可能 [16] Heuristic Learning 怎么做 Continual Learning - 启发式学习并未自动解决持续学习问题,但它将“防止遗忘”转变为一个更工程化的挑战 [18] - 在该框架下,旧的能力可以通过回归测试、固定种子的回放、明确的失败记录等方式被显式地固化在系统中,这与神经网络将经验隐式压缩在参数中的方式截然不同 [19][20] - 一个健康的启发式系统需要两个关键操作来维持:一是吸收新反馈,二是压缩历史补丁,将其重构为更简单、可维护的表示,这本质上是维护一个能持续吸收反馈的软件系统 [21][22][23] Heuristic System 的复杂度 - 启发式系统的复杂度并非由代码行数决定,而是由“耦合复杂度”衡量,即编码代理在一次更新中需要同时照顾多少相互牵连的状态、规则、测试和反馈 [24] - 降低耦合复杂度的关键在于良好的模块化设计、完整的测试覆盖、可观测的日志以及可复现的状态,这些工程实践能将部分认知负担转移到环境中 [24] - 编码代理的能力(如模型强度、上下文长度、工具质量)决定了其能处理多高的耦合复杂度,而只增长不压缩的系统最终会因复杂度超出维护能力而腐化 [24][28] 下一个范式? - 文章提出,从预训练、RLHF到大尺度RL,每一次范式转移都在拓展“可验证”问题的边界,而启发式学习可能是下一轮转移,其核心是“凡是可以被持续迭代的,都开始能被解决” [3][6][26] - 启发式学习的能力存在边界,受限于代码的表达能力,难以处理复杂感知和长程泛化任务(例如,无法用纯代码解决ImageNet分类)[26] - 最具前景的方向是结合神经网络与启发式系统:用启发式系统作为System 1,快速在线处理数据、积累可回归的经验;再周期性将这些经验内化,用于更新作为System 2的神经网络(如LLM代理),形成分层、互补的混合智能架构 [26][29][30][31]