9年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

核心观点 - OpenAI研究科学家Dan Roberts预测强化学习将在未来AI模型构建中发挥更大作用，并最终可能创造出能够发现新科学的模型 [2] - 通过扩展强化学习规模，AI模型可能在未来9年内实现AGI（人工通用智能），甚至重现爱因斯坦级别的科学发现 [57][56] 模型性能与扩展 - OpenAI发布的o1和o3模型展示了测试时间扩展的重要性，模型表现随思考时间增加而提升 [6][7][9][12] - o3模型能够在一分钟内完成复杂的物理计算（如量子电动力学问题），而人类专家需要3小时 [14][19][31] - 模型性能与训练量呈正相关，强化学习将成为未来训练的主导方法 [34][37][40] 强化学习的未来方向 - OpenAI计划颠覆传统预训练与强化学习的比例，将强化学习从“樱桃”变为“超大樱桃” [42] - 公司计划筹集5000亿美元用于大规模计算基础设施扩建，以支持强化学习的扩展 [46][48] - 测试时间计算和强化学习训练将成为扩展科学的新方向 [53] AI科学发现的潜力 - 当前AI模型已能重现教科书级计算，但目标是为科学前沿做出贡献 [31] - 提问方式可能是限制AI科学发现的关键因素，需要优化问题设计 [54] - 根据趋势预测，到2034年AI可能具备8年连续计算能力，相当于爱因斯坦发现广义相对论的时间 [56][57]