文章核心观点 人形机器人控制正从依赖力反馈的“盲走盲动”阶段,迈向融合环境感知的“感知驱动”新阶段,通过创新的感知方案、统一的行为基础模型以及高效的Sim2Real迁移技术,旨在实现机器人在复杂非结构化环境中的长程、通用且稳定的自主运动与交互能力[3][4][44] 人形机器人研究的必要性与价值 - 研究人形机器人具备天然通用性,因为现实生活环境围绕人类需求搭建[3][9] - 互联网上存在海量源于人类日常生活的第一人称和第三人称数据,为模型训练提供了丰富的运动与操作逻辑资源[3][9] - 相关研究(如交互逻辑与安全性)最终将回馈到人类自身,例如提升自动驾驶等领域的人机交互安全[3][9] 核心挑战:Sim2Real迁移与感知融合 - 人形机器人研究的核心问题之一是如何在仿真中训练并使其技能稳定迁移到真实世界,即跨越Sim2Real鸿沟[3][10] - 控制策略转向“感知驱动”是必然趋势,需要融合视觉、激光雷达等感知以实现复杂环境中的自主导航与交互[4] - 实现带感知的局部运动需解决四大问题:环境构建、感知方案选择、环境表征形式、以及与运动策略的联合训练[17] 创新的感知与环境表征方案 - 团队摒弃了RGB相机(存在光照纹理差异、缺乏几何信息)和深度相机(仿真数据过于干净、存在噪声鸿沟)等传统方案[14][15] - 最终采用激光雷达,并将点云转化为体素形式进行环境表征,以压缩信息、去除冗余并提升效率[15][18] - 在仿真中创新性地引入了机器人本体的激光雷达自扫描功能,以更好地对齐仿真与真实的传感器数据分布,显著缩小了Sim2Real鸿沟[3][20][21] 感知驱动的运动控制优势 - 新方案使机器人能提前感知地形变化(如台阶、吊顶)并预先规划动作,而非依赖碰撞后的力反馈,提升了安全性与预判性[3][22][25] - 改装后的机器人拥有足够大的视场角,能实现全向运动,并支持多种地形的训练,实现全地形运动能力[20] - 该方案的Sim2Real表现非常一致,仿真中的策略研究能可信地迁移到真实世界[28] 构建通用的行为基础模型 - 为实现机器人技能的通用性,需要建模一个“行为隐变量”,使机器人能根据环境或任务选择不同隐变量,灵活组合技能[28][29] - 团队选择打造“任务感知型”机器人,其隐变量直接参与任务决策,可实现快速迁移,无需额外训练高层控制器[31] - 构建过程分为四步:数据重构、训练代理智能体、设计控制模式与掩码、以及通过师生学习框架实现Sim2Real迁移[32] 模型能力与实验验证 - 模型不仅能完成基础运动跟踪,还能响应姿态与运动指令,并支持全身遥操作和复杂动作(如原地起立)[33] - 隐变量分析显示其具备结构化特征,不同运动对应的隐变量特征区分明显,且可通过线性组合完成复合动作(如回旋踢)[33][34] - 在对比实验中,该方法比任务专用模型抗过拟合能力更强,比不带隐变量的方法跟踪精度更高[34] 交互任务的拓展与技能组合 - 针对交互任务数据稀缺、精度要求高的特点,采用生成式模仿学习框架,用运动先验约束合理性并融入任务奖励[35] - 通过分离式任务头设计、构建大规模多样化仿真环境、以及设计专属任务掩码,训练出通用的感知编码器[36] - 提出高效技能组合方法论,通过复用技能表征、引入专用地形感知、调用通用本体感知器及动作适配,使机器人能完成如复杂地形中搬运箱子的复合任务[38][39] 未来发展方向 - 行业正从“盲走盲跳”的纯运动演示阶段,迈向“感知驱动”的新阶段[44] - 未来突破可能在于采用离线监督学习的方法,收集足够多数据以构建参数量更大的模型(向GPT级别靠拢),从而赋予机器人更长程的控制能力[4][47] - “规模化扩展”是重要方向,但当前在线强化学习方式与板载算力限制制约了用超大模型探索更多技能与控制形式[47]
上海AI Lab王靖博:人形机器人,从「盲动」走向「感知驱动」丨GAIR 2025
雷峰网·2025-12-23 08:34