无动作遗憾 - 财报，业绩电话会，研报，新闻

无动作遗憾

搜索文档

具身智能之心· 2025-07-19 17:46

实时强化学习技术突破 - 核心观点：Mila实验室提出实时强化学习框架，解决现有算法在延迟敏感环境中的动作延迟和缺失问题，实现高频连续任务的即时响应[9][33] - 技术背景：传统强化学习采用"回合制"交互模式，存在环境暂停和智能体暂停假设，难以适应实时变化场景[5][6] 无动作遗憾解决方案 - 交错推理框架：通过异步多过程推理自适应调整并行时序，使1亿参数大模型能在每个环境步执行动作，完全消除无动作遗憾[13][16][17] - 性能验证：在Game Boy/Atari实时模拟中测试，1亿参数模型成功完成《宝可梦：蓝》的快速捕捉任务[18][19] 延迟遗憾解决方案 - 并行计算机制：借鉴CPU流水线技术，一次性计算所有网络层，将推理吞吐量从每Nδ秒提升至每δ秒[22][23][27] - 时序跳跃连接：最新观测值仅需单次δ延迟即可到达输出层，总延迟从Nδ降至δ[24][25][29] 技术协同应用价值 - 互补性：交错推理解决大模型动作输出稳定性，时序跳跃连接降低内部延迟，两者结合实现模型规模与延迟解耦[32][33] - 应用场景：适用于机器人协作（如厨师机器人）、自动驾驶、高频金融交易等毫秒级响应领域[2][33][34] 实验数据与性能 - 基准测试：在俄罗斯方块等实时游戏中，异步推理使大模型性能下降速度减缓，延迟遗憾效应显著降低[28] - 架构优化：通过过去动作/状态增强输入恢复马尔可夫特性，同步减少延迟和优化遗憾[31]

强化学习的两个「大坑」，终于被两篇ICLR论文给解决了

机器之心· 2025-07-17 17:31

机器之心报道编辑：陈陈实时强化学习来了！AI 再也不怕「卡顿」。设想这样一个未来场景：多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型，但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加，煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟，蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定性，并做出即时适应性调整。实时强化学习然而，现有的强化学习算法多基于一种理想化的交互模式：环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为：环境暂停假设：当智能体进行计算决策和经验学习时，环境状态保持静止；智能体暂停假设：当环境状态发生转移时，智能体暂停其决策过程。这种类似「回合制游戏」的假设，严重脱离现实，难以应对持续变化、延迟敏感的真实环境。下图突出显示了智能体在实时环境中出现的两个关键困难，而这些在标准的回合制 RL 研究中是不会遇到的。首先，由于动作推理时间较长，智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略，称之为无动作遗憾（inaction regret）。第二个困难是，动作是基于过去的 ...