Workflow
无动作遗憾
icon
搜索文档
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
具身智能之心· 2025-07-19 17:46
实时强化学习技术突破 - 核心观点:Mila实验室提出实时强化学习框架,解决现有算法在延迟敏感环境中的动作延迟和缺失问题,实现高频连续任务的即时响应[9][33] - 技术背景:传统强化学习采用"回合制"交互模式,存在环境暂停和智能体暂停假设,难以适应实时变化场景[5][6] 无动作遗憾解决方案 - 交错推理框架:通过异步多过程推理自适应调整并行时序,使1亿参数大模型能在每个环境步执行动作,完全消除无动作遗憾[13][16][17] - 性能验证:在Game Boy/Atari实时模拟中测试,1亿参数模型成功完成《宝可梦:蓝》的快速捕捉任务[18][19] 延迟遗憾解决方案 - 并行计算机制:借鉴CPU流水线技术,一次性计算所有网络层,将推理吞吐量从每Nδ秒提升至每δ秒[22][23][27] - 时序跳跃连接:最新观测值仅需单次δ延迟即可到达输出层,总延迟从Nδ降至δ[24][25][29] 技术协同应用价值 - 互补性:交错推理解决大模型动作输出稳定性,时序跳跃连接降低内部延迟,两者结合实现模型规模与延迟解耦[32][33] - 应用场景:适用于机器人协作(如厨师机器人)、自动驾驶、高频金融交易等毫秒级响应领域[2][33][34] 实验数据与性能 - 基准测试:在俄罗斯方块等实时游戏中,异步推理使大模型性能下降速度减缓,延迟遗憾效应显著降低[28] - 架构优化:通过过去动作/状态增强输入恢复马尔可夫特性,同步减少延迟和优化遗憾[31]
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
机器之心· 2025-07-17 17:31
机器之心报道 编辑:陈陈 实时强化学习来了!AI 再也不怕「卡顿」。 设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型,但更重要的是它们必须跟上瞬息万变的 节奏 —— 食材需要在精准时机添加,煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟,蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定 性,并做出即时适应性调整。 实时强化学习 然而,现有的强化学习算法多基于一种理想化的交互模式:环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为: 环境暂停假设:当智能体进行计算决策和经验学习时,环境状态保持静止; 智能体暂停假设:当环境状态发生转移时,智能体暂停其决策过程。 这种类似「回合制游戏」的假设,严重脱离现实,难以应对持续变化、延迟敏感的真实环境。 下图突出显示了智能体在实时环境中出现的两个关键困难,而这些在标准的回合制 RL 研究中是不会遇到的。 首先,由于动作推理时间较长,智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略,称之为无动作遗憾(inaction regret)。 第二个困难是,动作是基于过去的 ...