Workflow
无人机也能打排球吗?清华团队用强化学习探了探路
具身智能之心·2025-10-28 08:02

研究背景与任务创新 - 清华大学团队提出“无人机打排球”新任务,将机器人运动挑战从地面推向三维空间,要求无人机集群在高机动性精确控制基础上实现团队合作与策略对抗 [1][2] - 该任务融合了混合博弈、回合制交互和复杂物理约束等难题,旨在验证具身智能在真实物理空间中的策略推理与高精度控制能力 [2][4] - 相关研究成果已被NeurIPS 2025与CoRL 2025国际顶会收录,标志着人工智能从虚拟博弈走向真实世界的关键进展 [1] VolleyBots测试平台 - 团队基于NVIDIA Isaac Sim高保真物理引擎构建了VolleyBots测试平台,精确模拟无人机动力学、气动力及碰撞反弹等真实物理效果 [6] - 平台模仿人类学习排球技能过程,设计了从单机基本技能到多机合作对抗的多层级任务体系,包括单机颠球、多机传球及3v3/6v6比赛等形式 [7][9] - 平台内置并测试了PPO、TD3、MAPPO、HAPPO等多种强化学习与博弈算法,为“空中对抗”研究提供了标准化仿真环境 [9][19] 分层协同自博弈算法(HCSP) - HCSP算法将复杂对抗任务拆分为负责团队战术的高层策略和负责精细飞行的低层技能,通过三阶段训练流程实现策略与技能的协同进化 [12][14] - 在对抗测试中,HCSP训练的策略以平均82.9%的胜率击败多种基线算法,对抗最强基于规则策略时仍保持71.5%的胜率 [15] - 算法使无人机队伍形成明确分工与协作,并自发演化出“二传吊球”等人类球赛中常见的临场战术,展现出高级策略推理能力 [15] 真实世界部署与性能突破 - 团队提出JuggleRL系统,首次实现四旋翼无人机基于强化学习的真实物理交互,通过系统辨识、域随机化和零样本部署完成“Real2Sim2Real”闭环 [16] - 在未经真实数据微调的情况下,真机连续颠球最高达462次(平均311次),较传统分层方法(最高14次)提升一个数量级 [18] - 该成果标志着具身强化学习从“虚拟对抗”走向“真实物理交互”的关键突破,为无人机在动态环境中的实时控制提供了技术验证 [16][19]