研究核心观点 - Google DeepMind团队提出名为DiscoRL的方法,使智能体能自主发现强化学习规则,无需人工设计[1] - 该方法通过多代智能体在不同环境中的交互经验来实现,相关论文已发表于《Nature》期刊[1] - 实验表明,自主发现的规则在多个基准测试中超越现有主流人工设计算法,预示未来RL算法可能由机器主导发现[2][18] 技术方法 - 方法涉及两种优化:智能体优化其策略和预测以趋向RL规则生成的目标,元优化则更新RL规则目标以最大化智能体累积奖励[3] - 智能体输出策略、观测预测、动作预测等结果,元网络为其生成学习目标,智能体据此更新自身[5] - 元优化让多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度并调整参数,智能体参数会定期重置以加速表现提升[6] 性能评估结果 - 在57款Atari游戏上元训练出的Disco57规则,其IQM得分达到13.86,超越了MuZero、Dreamer等所有现有强化学习规则[8] - Disco57在未接触过的16个ProcGen二维游戏上超越所有已发表方法,在Crafter基准有竞争力,在NetHack挑战赛获第三名且未用领域知识[9] - 基于103个环境发现的Disco103规则在Atari表现与Disco57相当,在Crafter达到人类水平,在Sokoban接近MuZero最先进性能[11] 效率与扩展性 - Disco57最优版本在每个Atari游戏约6亿步内被发现,相当于57个游戏进行3轮实验,比传统人工设计高效得多[14] - 随着训练环境数量与多样性增加,DiscoRL在未见过基准上的性能也随之提升,规则性能取决于数据与计算量[14][17] - 所发现的RL规则在实际运行效率上显著优于最先进的MuZero[8]
DeepMind再登Nature:AI Agent造出了最强RL算法