OaK架构 - 财报，业绩电话会，研报，新闻

OaK架构

搜索文档

36氪· 2025-09-16 18:43

通用验证器的技术背景与需求 - 通用验证器被视为大模型能力提升的关键技术旨在突破传统RLVR在开放性领域应用的局限性[2] - RLVR技术依赖二元奖励机制在数学、编程等有标准答案的领域效果显著但在医疗、教育、创意等主观领域表现不佳[2] - 通用验证器需具备多维度评估能力将非结构化经验数据转化为有效学习信号可能引发强化学习范式革新[2] 基于评分细则的验证器开发路径 - ScaleAI提出Rubrics as Rewards框架通过"专家立法-模型释法-AI执法"三步构建多维评分体系[12][14] - RaR方法使Qwen2 5-7B模型在医疗领域得分从0 0818提升至0 3194 性能提升近四倍[21] - 在HealthBench-1k测试中 RaR相比Simple-Likert方法实现28%相对性能提升接近需专家撰写参考答案的Reference-Likert方法效果[22] - 蚂蚁集团与浙江大学开发Rubicon系统包含超10,000个评分标准使用5,000+样本训练使Qwen-30B模型在开放式基准测试中实现5 2%绝对提升[27] - Rubicon通过否决机制、饱和度感知聚合和非线性函数解决奖励黑客问题和跷跷板效应采用分阶段训练提升模型综合能力[28][30] 增强裁判模型的验证方法 - 阿里夸克团队提出Writing-Zero方法通过强制生成批判性分析提升评分可靠性解决传统奖励模型存在的Reward Hacking问题[36][38] - 采用BRPO算法进行成对比较偏好训练在WritingBench测试集上达到8 29分优于基准模型的6 89分[40][43] 基于模型自评的验证路径 - SEALab提出VeriFree方法用模型自身对答案的自信度作为奖励信号在Qwen3-8B测试中效果媲美传统强化学习方法[45][52] - UC Berkeley开发INTUITOR框架通过自确定性指标实现无监督强化学习在MATH500测试集达到61 2%准确率接近GPRO的63 6%[55][59] - INTUITOR训练后的模型展现跨领域泛化能力在LiveCodeBench代码任务上实现65%相对性能提升[60] 技术路径的局限性与发展方向 - 立法式验证方法依赖专家构建领域特定框架扩展性存在挑战[24][69] - 内观式验证方法受限于预训练知识边界无法验证未见过的外部事实[69] - Richard Sutton提出的OaK架构设想完全基于运行时经验的智能系统通过8步循环实现自主认知构建[70][76] - 当前RaR的评分细则与INTUITOR的自信度指标分别对应OaK架构中子问题和价值函数的早期雏形[78]

AI已迷失方向？强化学习教父Sutton最新发布OaK架构，挑战当前AI范式，提出超级智能新构想

AI科技大本营· 2025-08-22 16:05

人工智能发展现状 - 人工智能产业已发展壮大但迷失方向[1] OaK架构核心设计 - 架构基于模型的强化学习并具备持续学习能力[3] - 每个学习权重配备专门步长参数并通过在线交叉验证进行元学习[3] - 通过FC-STOMP五步路径持续创造状态和时间抽象概念[3] - 架构核心由海量选项构成[10] - 知识表现为执行选项后世界变化的预测模型[10] 核心理念特征 - 强调运行时学习而非设计时学习[14] - 采用大世界视角具备领域通用性[16] - 完全依赖经验积累而非特殊训练阶段[16] - 支持开放式复杂性仅受计算资源限制[16] - 世界必然远大于智能体包含数十亿其他智能体[19] - 智能体所有功能都只能是近似非精确[19] - 世界最终呈现非平稳性特征[20] 技术实现路径 - 通过八步并行流程实现运行时学习[27][29] - 学习主策略与价值函数[29] - 生成新状态特征[29] - 对特征进行排序维护[29] - 为高排名特征创建子问题[29] - 为子问题学习选项解决方案[29] - 学习选项的转换模型[29] - 使用模型进行规划改进策略[29] - 持续管理评估所有组件[29] - 采用尊重奖励的特征达成子问题机制[31] - 通过FC-STOMP五步形成发现闭环[36] - 特征构建激发问题选项模型发现[36] - 新组件促进更抽象特征形成[36] 关键技术挑战 - 持续深度学习存在灾难性遗忘问题[37] - 新状态特征生成即表示学习问题尚未完全解决[38] 理论框架基础 - 遵循奖励假说理论基石[22][25] - 目标定义为对标量奖励信号累积和期望值的最大化[22][25] - 证明多目标等复杂机制不会增加通用性[25] 架构意义 - 提供首个关于知识起源的机制性答案[42] - 解释概念形成源于解决自创子问题[42] - 将推理定义为基于高层次模型的规划[42] - 阐明玩耍目的是发现认知基石子问题[42] - 构建无人类标签的感知运作机制[42]

强化学习之父Richard Sutton最新演讲揭示OaK架构：通向超级智能的八步愿景

机器之心· 2025-08-19 17:45

强化学习与OaK架构 - 强化学习之父Richard Sutton提出OaK架构作为实现通用人工智能(AGI)和超级智能的路径，该架构基于经验学习并强调开放式抽象[1][2] - OaK架构目前仍是一个愿景，需要突破持续深度学习等关键技术才能实现[6][86] - 架构名称来源于两个核心概念：Options(选项)和Knowledge(知识)，通过构建子问题和状态转移模型实现智能演进[78][80] 智能体设计原则 - 理想智能体应具备通用性、经验性和开放式抽象能力，不预设特定领域知识[13][23] - 强调运行时学习而非设计时预设，因世界复杂性无法预先建模[22][38] - 采用奖励假设作为目标形式化方法，简单标量奖励足以引导复杂智能行为[44][47][51] 技术实现路径 - 架构实现需完成八个步骤：从基础强化学习到特征生成、子问题构建、规划执行等[82] - 关键挑战包括持续深度学习中的灾难性遗忘问题，目前仅部分解决方案[89] - 状态特征生成是核心难题，需突破表示学习和元学习等传统方法局限[93][96] 行业应用前景 - 架构强调的计算资源瓶颈而非数据量限制，符合当前AI发展趋势[43] - 选项模型和高级规划能力可提升AI系统在复杂场景的决策水平[141][145] - 开放式抽象机制为AI系统自主演进提供理论框架[160]