Workflow
上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障
机器之心·2025-07-08 08:04

研究团队与背景 - 作者团队由上海交通大学和苏黎世大学的研究人员组成,包括第一作者张宇昂(研究方向为可微分物理机器人、多目标追踪和AIGC)、共同一作胡瑜(研究方向为无人机视觉导航)和宋运龙博士(研究方向为强化学习、最优控制)[1] - 通讯作者为上海交通大学的林巍峣教授和邹丹平教授[1] - 研究成果已在《Nature Machine Intelligence》在线发表[3] 技术突破 - 提出了一种融合无人机物理建模与深度学习的端到端方法,首次将可微分物理训练的策略成功部署到现实机器人中[2] - 实现了无人机集群自主导航,在鲁棒性、机动性上大幅领先现有方案[2] - 训练一次,多机共享权重,零通信协同飞行[7] - 在单机场景中,网络模型在未知复杂环境中的导航成功率高达90%,相比现有最优方法展现出更强的鲁棒性[9] - 在真实树林环境中,无人机飞行速度高达20米/秒,是基于模仿学习的现有方案速度的两倍[10] - 所有测试环境均实现zero-shot零样本迁移,无需GPS或者VIO提供定位信息即可运行,并能适应动态障碍物[10] 技术细节 - 使用12×16超低分辨率深度图作为输入[12] - 仅使用3层CNN的超小神经网络实现端到端自主飞行,可部署于150元廉价嵌入式计算平台[12] - 抛弃复杂无人机动力学,用极简质点动力学模型,通过可微物理引擎训练端到端网络[12] - 端到端可微仿真训练:策略网络直接控制无人机运动,通过物理模拟器实现反向传播[21] - 轻量设计:整套端到端网络参数仅2MB,可部署在150元的计算平台(不到GPU方案的5%成本)[21] - 高效训练:在RTX 4090显卡上仅需2小时即可收敛[21] 多机协同表现 - 在多机协同场景中,将网络模型部署到6架无人机上执行同向穿越复杂障碍和互换位置任务[14] - 策略在同向穿越门洞、动态障碍物和复杂静态障碍物的场景中展示了极高的鲁棒性[14] - 在多机穿越门洞互换位置的实验中,展现出了无需通信或集中规划的自组织行为[14] 方法对比 - 当前具身智能的主流训练范式主要分为两类:强化学习(RL)与模仿学习(IL),但这两类方法在效率与可扩展性方面均存在明显瓶颈[30] - 强化学习多采用model-free策略,完全不考虑环境或控制对象的物理结构,导致数据利用率极低,影响训练的收敛速度与稳定性[31] - 模仿学习依赖大量高质量的专家演示作为监督信号,获取这类数据通常代价昂贵,且难以覆盖所有可能场景[31] - 本研究提出的基于可微分物理模型的训练框架,有效融合了物理先验与端到端学习的优势[30] 训练效率与性能 - 在相同硬件平台上,本方法在约2小时内即可实现收敛,训练时间远低于PPO与Agile所需的训练周期[39] - 仅使用约10%的训练数据量,本方法在策略性能上就超越了使用全量数据的PPO + GRU方案[39] - 在训练过程中,本方法展现出更低的方差与更快的性能提升,收敛曲线显著优于两类主流方法[39] - 在真实或近似真实的避障任务中,本方法的最终避障成功率显著高于PPO与Agile,表现出更强的鲁棒性与泛化能力[39] 后续研究 - 研究团队后续改进与拓展了可微物理引擎框架与训练方法,实现了国际首个基于单目FPV摄像头的端到端视觉避障系统[52] - 在真实室外环境中实现最高6m/s飞行速度,无需建图即可自主导航[52] - 该研究已在《IEEE Robotics and Automation Letters》发表[53]