DeepMind再登Nature:AI Agent造出了最强RL算法
论文链接:https://www.nature.com/articles/s41586-025-09761-x 这表明,未来用于构建高级 AI 的 RL 算法,可能不再需要人工设计,而是能够由智能体自身的经验自动发现。 Agent 「凭啥」自主发现 RL 算法? 人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化 学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。 针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法。 在大型实验中,DiscoRL 不仅在 Atari 基准测试中超越所有现有规则,更在未曾接触过的挑战性基准测试中超越人工设计,击败了多项主流 RL 算法。相 关研究论文已发表在权威科学期刊 Nature 上。 据论文描述,他们的发现方法涉及两种优化:智能体优化与元优化。 智能体参数通过更新其策略和预测来优化,使其趋向于 RL 规则生成的目标。同时,通过更新 RL 规则的目标来优化其元参数, ...