Physical Constraints in Robotics

搜索文档
ETH最新CMDP框架亮相ANYmal四足机器人首次实现与人类羽毛球“过招”
机器人大讲堂· 2025-06-03 18:52
机器人与人类协作的物理约束突破 - 核心问题在于突破物理约束以提升机器人系统稳定性和安全性,苏黎世联邦理工学院提出CMDP框架通过约束强化学习显著减少约束违反并提升足式机器人运动性能 [1] - CMDP框架已应用于ANYmal四足机器人,实现人机羽毛球对打交互,相关论文发表在《Science Robotics》[2] CMDP框架研究目标与方法 - 传统基于模型的控制方法在高维动态系统中面临挑战,深度强化学习通过数据驱动提供新思路,但需解决物理约束整合问题 [3] - CMDP框架引入成本函数,将约束条件转化为优化目标的一部分,形成带约束的马尔可夫决策过程,确保机器人最大化累积奖励的同时不超预设成本阈值 [7] 五种一阶约束策略优化算法比较 - P3O通过惩罚项处理约束但灵活性不足,PPO-Lagrangian理论收敛性好但参数调整复杂,IPO严格约束下表现优但计算复杂度高 [9][10] - CRPO简单有效但可能收敛慢,FOCOPS理论性能优但实现复杂 [10] - 实验数据显示N-P3O(归一化P3O)在约束违反(0.49±0.88次/回合)和奖励(24.13±1.14)上综合表现最优 [4][14] 实验验证与结果 - 实验基于ANYmal C机器人,设置关节速度限制(6.0 rad/s)、扭矩限制(75 Nm)等约束条件,使用PyTorch框架在NVIDIA GPU服务器运行 [12] - N-P3O策略在穿越障碍物等复杂场景中约束违反率显著低于传统PPO策略(533.44±108.94次/回合),且轨迹跟踪误差更小 [17][19] 行业应用与未来方向 - 约束强化学习通过CMDP框架简化策略优化流程,提升系统稳定性与安全性,避免硬件损坏或安全事故 [20] - 算法选择需综合考虑稳定性、性能及实际场景需求,N-P3O因低违反率和稳定性能成为优选 [20] 相关机器人企业 - 工业机器人领域包括埃斯顿自动化、埃夫特机器人等12家企业 [25] - 服务与特种机器人企业涵盖亿嘉和、普渡机器人等6家,医疗机器人领域涉及元化智能、天智航等12家 [25] - 人形机器人企业如优必选科技、宇树等18家,具身智能企业包括跨维智能、银河通用等16家 [25][26] - 核心零部件企业涉及绿的谐波、因时机器人等24家 [28]