Workflow
OaK架构
icon
搜索文档
AI已迷失方向?强化学习教父Sutton最新发布OaK架构,挑战当前AI范式,提出超级智能新构想
AI科技大本营· 2025-08-22 16:05
人工智能发展现状 - 人工智能产业已发展壮大但迷失方向[1] OaK架构核心设计 - 架构基于模型的强化学习并具备持续学习能力[3] - 每个学习权重配备专门步长参数并通过在线交叉验证进行元学习[3] - 通过FC-STOMP五步路径持续创造状态和时间抽象概念[3] - 架构核心由海量选项构成[10] - 知识表现为执行选项后世界变化的预测模型[10] 核心理念特征 - 强调运行时学习而非设计时学习[14] - 采用大世界视角具备领域通用性[16] - 完全依赖经验积累而非特殊训练阶段[16] - 支持开放式复杂性仅受计算资源限制[16] - 世界必然远大于智能体包含数十亿其他智能体[19] - 智能体所有功能都只能是近似非精确[19] - 世界最终呈现非平稳性特征[20] 技术实现路径 - 通过八步并行流程实现运行时学习[27][29] - 学习主策略与价值函数[29] - 生成新状态特征[29] - 对特征进行排序维护[29] - 为高排名特征创建子问题[29] - 为子问题学习选项解决方案[29] - 学习选项的转换模型[29] - 使用模型进行规划改进策略[29] - 持续管理评估所有组件[29] - 采用尊重奖励的特征达成子问题机制[31] - 通过FC-STOMP五步形成发现闭环[36] - 特征构建激发问题选项模型发现[36] - 新组件促进更抽象特征形成[36] 关键技术挑战 - 持续深度学习存在灾难性遗忘问题[37] - 新状态特征生成即表示学习问题尚未完全解决[38] 理论框架基础 - 遵循奖励假说理论基石[22][25] - 目标定义为对标量奖励信号累积和期望值的最大化[22][25] - 证明多目标等复杂机制不会增加通用性[25] 架构意义 - 提供首个关于知识起源的机制性答案[42] - 解释概念形成源于解决自创子问题[42] - 将推理定义为基于高层次模型的规划[42] - 阐明玩耍目的是发现认知基石子问题[42] - 构建无人类标签的感知运作机制[42]
强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
机器之心· 2025-08-19 17:45
强化学习与OaK架构 - 强化学习之父Richard Sutton提出OaK架构作为实现通用人工智能(AGI)和超级智能的路径,该架构基于经验学习并强调开放式抽象[1][2] - OaK架构目前仍是一个愿景,需要突破持续深度学习等关键技术才能实现[6][86] - 架构名称来源于两个核心概念:Options(选项)和Knowledge(知识),通过构建子问题和状态转移模型实现智能演进[78][80] 智能体设计原则 - 理想智能体应具备通用性、经验性和开放式抽象能力,不预设特定领域知识[13][23] - 强调运行时学习而非设计时预设,因世界复杂性无法预先建模[22][38] - 采用奖励假设作为目标形式化方法,简单标量奖励足以引导复杂智能行为[44][47][51] 技术实现路径 - 架构实现需完成八个步骤:从基础强化学习到特征生成、子问题构建、规划执行等[82] - 关键挑战包括持续深度学习中的灾难性遗忘问题,目前仅部分解决方案[89] - 状态特征生成是核心难题,需突破表示学习和元学习等传统方法局限[93][96] 行业应用前景 - 架构强调的计算资源瓶颈而非数据量限制,符合当前AI发展趋势[43] - 选项模型和高级规划能力可提升AI系统在复杂场景的决策水平[141][145] - 开放式抽象机制为AI系统自主演进提供理论框架[160]