马尔可夫决策过程

搜索文档
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 17:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]
重磅!上海交大团队顶刊发文,革新轮腿星球车规划算法
机器人大讲堂· 2025-05-15 19:10
轮腿式星球车 , 具有多构型运动能力,有效继承了传统星球车轮式构型的移动速度、能量消耗、负载能力 优势 , 同时具备 腿式构型 的 地形适应性和 运动 灵活性 。 也因此, 多自由度轮腿混合式主动悬架星球 探 测车 近年来 逐渐成为各个国家和实验室的研究焦点。 然而,轮腿式星球车的高机动性在带来优势的同时,也带来了新的问题。它使得规划算法的复杂程度大幅 增加,特别是在密集障碍环境中,规划算法需要综合考虑机器人的几何特征、运动能力以及与环境交互的 特征。这对传统的路径规划方法而言,无疑是一项严峻的挑战。 ▍ 提出新思路,融合马尔可夫决策模型与 GF 集理论 针对上述难题,上海交通大学 何俊教授 研究团队 进行了深入研究,并 提出了 基于 扩展马尔可夫决策过 程的路径规划方法。 该研究创新性地融合了 GF 集理论与 构态 拓扑理论, 通过 构建离线运动规划库以 量化 不同动作特征的 能量消耗与 风险 ;引入 " 足端运动相关节点 " 描述 机器人与环境的交互关系;同 时 扩展传统 马尔可夫 模型至二阶性质, 以 解决路径转向时的碰撞 问题 。 此外, 研究 团队 还 提出信 息引导 的 值迭代算法,结合四叉树地图 ...