Workflow
人形机器人全身控制
icon
搜索文档
智源具身框架Thor开源:迈向类人级全身控制,在强对抗中“站稳脚跟”
具身智能之心· 2025-11-06 08:03
文章核心观点 - 智源研究院联合北京理工大学提出名为BAAI Thor的具身智能框架,旨在解决人形机器人在高强度、接触丰富的环境中实现类人级全身协同反应与控制的关键技术瓶颈 [6][7][8] - 该框架通过结合生物力学控制原理与创新的解耦式网络结构,使机器人能自主学习人类在物理对抗中的全身协调策略,显著提升了在真实复杂环境中的作业潜力与动态稳定能力 [8][12][13] - 实验验证显示,搭载Thor框架的宇树G1机器人能拉动重约1400kg的汽车,并在多项力交互任务中性能显著优于基线算法,峰值拉力达到167.7N,约为机器人自重的48%,较最佳基线算法性能提升68.9% [18][26] 人形机器人全身控制的技术挑战 - 类人反应机制缺失:现有控制策略多通过增大关节力矩刚性对抗外力,易导致关节输出饱和、姿态不稳,且依赖精确动力学模型或外力传感器,限制了在非结构化环境中的自适应交互能力 [9] - 高维协调控制复杂性:人形机器人具有高维状态空间(数十个自由度关节角度、速度、IMU等构成数百至上千维状态向量)、高维动作空间(数十维连续动作空间)以及高维动力学耦合(各关节强耦合的非线性系统),导致强化学习采样稀疏、优化难度大、学习复杂度急剧上升 [10] BAAI Thor框架的核心技术创新 - 力自适应躯干倾斜奖励(FAT2):基于考虑外部作用力的零力矩点(ZMP)准则,引导机器人学习通过自适应倾斜身体调整质心位置的类人姿态策略,以增强末端执行器有效作用力,胜任高强度力交互任务 [13] - 解耦式网络结构:将全身控制器分解为上半身、腰部、下半身三个独立的Actor-Critic模块,共享全身观测输入但独立输出控制指令并同步更新,通过降低单一策略网络优化复杂度应对高维动作空间挑战 [17] - 消融实验表明FAT2奖励函数是提升力交互能力的核心驱动力,贡献约80%-90%的性能增益,而解耦式网络结构则确保核心能力在极限条件下的稳定发挥 [30] 实验验证与性能表现 - 在真实物理交互任务中,搭载Thor的宇树G1机器人(重约35kg)成功拉动重约1400kg的汽车,展示了极限负载下的全身协调与动态平衡能力 [18] - 在单手开启消防门(需约60N稳定拉力)、拖拽约85kg轮式吊架、擦拭白板等持续接触任务中表现出卓越的泛化能力与鲁棒性 [20][22][27] - 定量分析显示Thor在双手向后拉动任务中实现167.7N峰值拉力,较最佳基线算法性能提升68.9%,且躯干倾斜角度与所受拉力正相关,验证了类人自适应姿态调节策略的有效性 [25][26] 行业应用前景与意义 - 该技术突破使人形机器人能从“表演者”转变为“劳动者”,在家庭陪护、工业装卸、应急救援等需高强度、不可预测物理交互的场景中替代人类成为可能 [7][31] - 通过生物力学原理与强化学习的深度融合,为机器人全身智能控制开辟新路径,推动具身智能在工业、服务业、特种作业等更广泛场景中的演进与落地 [31]
行为基础模型可实现高效的人形机器人全身控制
具身智能之心· 2025-07-23 16:45
人形机器人全身控制技术演进 - 人形机器人全身控制面临复杂动力学、欠驱动和多样化任务需求的根本性挑战[1] - 技术演进分为三个阶段:基于模型的控制器(MPC/WBOSC)、基于学习的任务特定控制器(强化学习/模仿学习)、行为基础模型(BFM)[6][7][8] - BFM通过大规模预训练学习可重用技能和行为先验,实现零样本或快速适应新任务[1][8] 行为基础模型核心定义 - BFM首次定义于《Fast Imitation via Behavior Foundation Models》,基于无监督强化学习+前后向表征学习方法构建[10] - 扩展定义为:使用大规模行为数据预训练的特殊基础模型,能编码广泛行为模式并实现跨任务泛化[12] - 核心特性包括支持行为克隆、特征匹配、基于奖励/目标的归纳等多种模仿学习规则[10] BFM算法分类体系 - 预训练方法分为三类:目标导向学习(DeepMimic/MaskedMimic)、内在奖励驱动学习(ICM/DIAYN)、前后向表征学习(FB/FB-IL)[13][14] - 目标导向学习方法直接输入任务目标(如状态/函数/描述),基于动作追踪技术广泛用于人型机器人任务[14][16] - 前后向表征学习通过分解后继测度实现策略学习与任务目标解耦,Meta的Motivo模型展示卓越零样本能力[21][23][26] BFM应用场景与限制 - 潜在应用包括人形机器人通用加速器、虚拟智能体开发、工业5.0弹性制造、医疗辅助机器人等[33] - 主要限制:Sim2Real差距导致行为泛化不稳定、训练数据规模远小于LLMs/视觉模型、具身泛化能力有限[32][37] - 数据瓶颈突出,缺乏多模态对齐数据(视觉-本体感知-触觉),真实部署面临控制失效风险[37][39] 未来研究方向 - 重点方向:开发多模态BFM、构建认知-运动一体化架构(结合LLMs)、探索缩放定律、优化多智能体系统[38] - 需建立标准化评估体系,涵盖任务泛化性、鲁棒性和人机安全等多维度指标[38] - 需同步推进伦理规范和安全防护,解决传感器干扰、多模态攻击等开放环境风险[36][39]