Q-chunking - 财报，业绩电话会，研报，新闻

Q-chunking

搜索文档

机器之心· 2025-07-14 12:08

强化学习与模仿学习结合 - 强化学习在长时间跨度和稀疏奖励任务中表现不佳，探索能力不足[2][3] - 模仿学习通过观察专家行为并模仿策略，适用于状态和动作空间巨大且难以设计奖励函数的场景[4] - 加州大学伯克利分校提出Q-chunking方法，将模仿学习中的动作分块技术引入强化学习[4] Q-chunking方法核心 - 解决两个核心问题：提升探索效率和时间连贯动作序列，实现快速值传播[5] - 使用动作分块实现快速价值回传，并通过时间连贯动作进行有效探索[6] - 在离线数据集上进行100万步预训练，再使用在线数据更新并进行另外100万步训练[6] 方法设计与实现 - Q-chunking扩展Q-learning至时间扩展动作空间，预测连续h步动作序列[15] - 块状策略和块状Q函数实现无偏的h步值传播，消除传统n步回报的离策略偏差[16][17] - 施加行为约束保证时间连贯性，使策略接近离线数据分布[18][19] 实验与性能 - 在6个稀疏奖励机器人操作任务中测试，包括OGBench和robomimic基准任务[23] - QC在离线阶段表现竞争力，在线阶段样本效率高，尤其在cube-triple和quadruple任务中性能远超基线方法[25] - 消融实验显示QC和QC-FQL显著优于n步回报基线方法，突显时间扩展动作空间学习的重要性[27] 动作分块的优势 - QC生成时间上更连贯的动作，状态覆盖和探索效果更好[28] - 定量评估显示QC动作时间连贯性明显高于BFN，解释其更高样本效率[29][32]