Workflow
信息瓶颈
icon
搜索文档
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
量子位· 2025-03-31 12:35
ROUSER团队 投稿 量子位 | 公众号 QbitAI 在视觉强化学习中,许多方法未考虑序列决策过程,导致所学表征缺乏关键的长期信息的空缺被填补上了。 来自中科大的研究人员在信息瓶颈 (Information Bottleneck) 框架下,提出了 一种新颖的鲁棒动作价值表征学习方法ROUSER 。 作者从理论上证明了ROUSER 能够使用学习到的鲁棒表征准确估计动作价值 ,从而避免了智能体在测试环境中的决策能力遭到削弱。 具体而言,ROUSER通过最大化表征与动作价值之间的互信息,来保留长期信息; 同时,最小化表征与状态-动作对之间的互信息,以滤除无关特征。 由于动作价值是未知的,ROUSER提出将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征。 实验结果表明,在包括背景干扰与颜色干扰的12项任务中,ROUSER于其中的11项任务上优于多种当前的先进方法。 这导致这些方法难以捕捉序列数据中关键的长期信息,而这正是视觉强化学习泛化能力的核心因素之一。 为了针对性地解决这类问题,作者在信息瓶颈 (Information Bottleneck) 框架下,提出了鲁棒动作价值表征学习方法 (ROU ...