Workflow
AlphaGo之父找到创造强化学习算法新方法:让AI自己设计
机器之心·2025-10-28 12:31

研究核心观点 - 谷歌DeepMind团队开发出一种名为DiscoRL的新方法,能够通过元学习自主发现性能达到SOTA水平的强化学习规则 [1] - 该方法发现的规则在经典Atari基准测试上超越了所有现有方法,并在多个高难度基准测试上优于多种SOTA强化学习算法 [4] - 研究结果表明,未来实现高级AI所需的强化学习算法可能不再依赖人工设计,而是能够从智能体自身经验中自动涌现与进化 [5] 研究方法 - 发现方法涉及智能体优化和元优化两种类型的优化,智能体参数通过更新策略和预测至强化学习规则产生的目标进行优化 [7] - 团队定义了没有预定义语义、富有表现力的预测空间,通过元网络进行元学习来找出智能体需要优化的内容 [9] - 元网络作为函数决定智能体应将其预测和策略更新至的目标,其输入输出选择保留了手工设计RL规则的理想特性 [12][14][15][16][17] - 智能体参数被更新以最小化其预测和策略与元网络目标之间的距离,使用KL散度作为距离函数 [19] - 元优化目标是发现一个RL规则,使智能体在各种训练环境中最大化奖励,通过梯度上升优化元参数 [22][23] 实验结果 - 在57款Atari游戏基准测试中,Disco57取得13.86的IQM分数,超越了所有现有RL规则,运行效率远高于当前最先进的MuZero [26][27][29] - Disco57在ProcGen基准上优于所有已发表方法,包括MuZero和PPO,尽管在发现期间从未与ProcGen环境交互过 [33] - Disco57在Crafter上取得有竞争力表现,在NetHack NeurIPS 2021挑战赛中获得第3名,且未使用任何领域特定知识 [34][35] - 使用103个更具多样性环境发现的Disco103规则,在Atari基准表现相似,同时在多个基准上提高了分数,在Crafter上达到人类水平表现 [37] - 最佳规则是在每个Atari游戏约6亿步内发现的,相当于在57个Atari游戏上仅进行3次实验,比手动发现RL规则更有效率 [40] 技术分析 - 定性分析显示,被发现的预测在收到奖励或策略熵发生变化等显著事件前会出现峰值 [45] - 信息分析表明,与策略和价值相比,被发现的预测包含更多关于即将到来的高额奖励和未来策略熵的信息 [46] - 研究发现DiscoRL使用引导机制的证据,未来的预测被用来构建当前预测的目标,这种机制对性能至关重要 [47] - 使用价值函数可极大改善发现过程,而在预定义预测外发现新预测语义也至关重要 [41][42]