元控制器 - 财报，业绩电话会，研报，新闻

元控制器

搜索文档

36氪· 2026-02-27 18:51

谷歌AI研究：元控制器与内部强化学习 - 谷歌团队通过引入元控制器操控模型内部残差流，使智能体在稀疏奖励环境中学会了“跳跃式思考” [1] - 该研究揭示了大模型内部可自发形成类似人脑的层次化决策机制，为AI在需要多步的复杂任务提供了全新的训练范式 [1] - 研究标志着AI研究从单纯优化模型输出，转向理解和操控模型内部认知过程 [22] 传统方法的局限与问题 - 传统大模型依赖逐词生成（token-by-token）的探索方式，在奖励稀疏的复杂长序列任务中难以完成 [2] - 这导致智能体需要外挂规划器才能完成复杂任务，如同蒙眼走迷宫，只有到达终点才能获得反馈 [1][2] - 在需要多个正确步骤才能获得奖励的“组合式任务”中，传统方法难以让智能体掌握层次化解决问题的能力 [4] 元控制器的工作原理与架构 - 元控制器通过接收基模型的残差流，能够生成一系列简单的内部控制器 [5] - 每个内部控制器对应一个时序抽象动作，并附带终止条件，通过按时间组合多个控制器，智能体能够在新任务上实现高效探索 [5] - 通过自监督的下一步动作预测，元控制器发现如何生成时间上稀疏变化的简单内部控制器序列 [7] - 元控制器能通过变分推理自动识别有意义的行为模块，相当于无监督发现抽象动作 [9] - 元控制器能动态控制抽象动作的持续时间，并能将学到的抽象动作重新组合以解决新任务 [9] 内部强化学习范式与效果 - 内部强化学习在元控制器发现的抽象动作空间中进行学习，与传统在原始动作空间学习的强化学习不同，搜索空间大幅减小 [11] - 在需要组合泛化的任务中，内部强化学习的成功率显著高于所有基线方法，包括先前最先进的分层强化学习方法CompILE [11] - 智能体学会将长序列任务分解为可重用的子程序，使搜索空间变小，奖励不再稀疏 [13] - 该方法通过对动作空间降维，将高维残差流空间压缩到低维抽象空间，并在抽象时间尺度上操作，使得在抽象层面进行奖励分配更加高效 [13] “觉醒-睡眠”训练循环的实现 - 该研究可视为“觉醒-睡眠”训练循环的具体实现 [15] - “睡眠”阶段对应自回归基础模型的预训练，模型通过下一个token预测的目标，在大量未标注行为数据上进行自监督学习 [15] - “觉醒”阶段则是元控制器及其驱动的内部强化学习，学习如何操控基础模型的内部残差流激活以生成抽象动作 [16] - 研究发现，只有当基础自回归模型在元控制器训练期间被冻结时，才会涌现出与子目标对齐的正确切换表征 [20] - 这印证了分阶段、迭代式训练的理论优越性，符合“先睡眠（构建模型）、后觉醒（学习控制）”的方案 [21] 研究的理论意义与潜在应用 - 研究表明，预测下一个词的训练方式结合元控制器，能够诱导出层次化的时间抽象，这与人类的问题解决方式高度相似 [22] - 该研究在不依赖手动奖励塑形的情况下解决需要多步才能完成的任务，是迈向能够导航复杂、开放式搜索空间的自主智能体的关键一步 [22] - 与稀疏自编码器等解释性方法相比，元控制器直接通过残差流干预降低预测误差，具有内部记忆，支持长时间跨度的干预，且能够发现可解释的、长时间持续的干预策略 [22] - 该技术潜在应用广泛，包括让机器人执行需要多步协调的复杂任务、自主分解复杂数学问题为推理步骤、以及在稀疏奖励环境中进行高效科学探索和假设检验 [23] - 该内部强化学习范式尤其适合需要长期规划和组合推理的场景，为实现真正通用的智能系统提供了新路径 [24]