Workflow
ROSKA框架
icon
搜索文档
提出机器人自主学习新范式,深大团队最新顶会论文,刷新6大复杂任务SOTA
量子位· 2025-03-14 19:22
文章核心观点 - 深圳大学李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学提出奖励函数与策略协同进化框架ROSKA,该框架在多个高维度机器人任务中表现优异,相比现有SOTA方法有显著性能提升,成果被人工智能顶级会议AAAI 2025收录 [1][2][3] 分组1:ROSKA框架提出背景 - 机器人技术应用广泛,但多自由度机器人控制领域传统强化学习方法依赖人工设计奖励函数,对开放环境下机器人自主学习构成挑战 [3] - 传统奖励函数设计依赖专家经验,周期长、成本高,大语言模型虽提供新思路,但现有方法训练效率低、浪费计算资源 [5] 分组2:ROSKA框架特点 - 创新融合大语言模型推理与代码生成能力,实现奖励函数与强化学习策略协同进化 [3] - 采用奖励 - 策略协同进化机制,将奖励函数设计与策略优化紧密结合形成动态闭环,减少数据使用量并提升策略性能 [6] - 通过将奖励函数和策略进化过程结合,相互促进、共同优化,提高训练效率和策略适应性、可塑性 [8] - 在策略进化部分融合历史最优策略和随机策略生成新策略候选,用贝叶斯优化方法确定最优融合比例 [9][10] 分组3:实验情况 - 在Isaac Gym仿真环境中对六个代表性机器人任务评估,涵盖简单运动控制到复杂物体操作 [11] - 采用人类归一化得分作为评价指标,ROSKA在所有任务中HNS超人类专家基线,性能优于人类设计奖励函数 [12] 分组4:实验结果 - 相比SOTA方法Eureka,ROSKA在HNS指标上平均改进率达95.3%,在ShadowHand任务提升154.6%,在ShadowHandUpsideDown任务提升184.07% [13] - 在仅使用89%训练样本情况下,相比现有SOTA方法在多个高维度机器人任务上平均性能提升95.3%,验证强大适应能力 [2][14]