COLA(强化学习方法)
搜索文档
机器人训练,北京男大有了技能玩法
量子位· 2025-11-08 12:10
技术突破 - 提出全新强化学习方法COLA,仅依赖机器人本体感知(关节角度、力度反馈、位置/速度等内部数据)实现人机协作搬运,无需摄像头、激光雷达等外部传感器[10][17][23][25] - COLA设计实现单一统一策略,机器人可自主切换领导者或跟随者角色,人类发力稳定时配合跟随,物体倾斜时主动调整维持平衡[18][19] - 训练采用高度动态闭环环境,模拟人类突然转向、物体重量变化、手部打滑等突发状况,形成决策-反馈-再决策循环[21] 性能优势 - 在真实世界测试中,COLA对所有物体类型(规则箱子、柔性担架等)和运动模式(直线、转弯)均实现稳健协作搬运[35][36] - 人类参与者实验显示,COLA在高度跟踪和平滑性评分均达3.96分,显著高于基线方法Locomotion(2.96/2.61)和Vanilla MLP(3.09/3.09)[39][40] - 以领导者思路设计的COLA-L表现突出,比跟随者COLA-F更能分担负载并保持稳定[34] 成本与适用性 - 摒弃外部传感器降低硬件成本和系统复杂度,避免采购和软硬件集成投入[29] - 本体感知设计使机器人免受光线昏暗等环境干扰,交互方式变为拍拍头、拉拉身体等直接物理互动,无需遥控或语音[8][24] 团队背景 - 核心团队来自北京通用人工智能研究院、香港大学、北京理工大学,成员包括Yushi Du、Yixuan Li、Baoxiong Jia等[41][42][43][46] - 通讯作者Wei Liang为北京理工大学教授,领导PIE实验室,研究方向含计算机视觉和虚拟现实[49][50] - 团队近年多篇论文入选顶会,如CoRL 2025接收统一力与位置控制研究[47]