人形机器人全身控制 - 财报，业绩电话会，研报，新闻

人形机器人全身控制

搜索文档

具身智能之心· 2025-11-06 08:03

文章核心观点 - 智源研究院联合北京理工大学提出名为BAAI Thor的具身智能框架，旨在解决人形机器人在高强度、接触丰富的环境中实现类人级全身协同反应与控制的关键技术瓶颈 [6][7][8] - 该框架通过结合生物力学控制原理与创新的解耦式网络结构，使机器人能自主学习人类在物理对抗中的全身协调策略，显著提升了在真实复杂环境中的作业潜力与动态稳定能力 [8][12][13] - 实验验证显示，搭载Thor框架的宇树G1机器人能拉动重约1400kg的汽车，并在多项力交互任务中性能显著优于基线算法，峰值拉力达到167.7N，约为机器人自重的48%，较最佳基线算法性能提升68.9% [18][26] 人形机器人全身控制的技术挑战 - 类人反应机制缺失：现有控制策略多通过增大关节力矩刚性对抗外力，易导致关节输出饱和、姿态不稳，且依赖精确动力学模型或外力传感器，限制了在非结构化环境中的自适应交互能力 [9] - 高维协调控制复杂性：人形机器人具有高维状态空间（数十个自由度关节角度、速度、IMU等构成数百至上千维状态向量）、高维动作空间（数十维连续动作空间）以及高维动力学耦合（各关节强耦合的非线性系统），导致强化学习采样稀疏、优化难度大、学习复杂度急剧上升 [10] BAAI Thor框架的核心技术创新 - 力自适应躯干倾斜奖励（FAT2）：基于考虑外部作用力的零力矩点（ZMP）准则，引导机器人学习通过自适应倾斜身体调整质心位置的类人姿态策略，以增强末端执行器有效作用力，胜任高强度力交互任务 [13] - 解耦式网络结构：将全身控制器分解为上半身、腰部、下半身三个独立的Actor-Critic模块，共享全身观测输入但独立输出控制指令并同步更新，通过降低单一策略网络优化复杂度应对高维动作空间挑战 [17] - 消融实验表明FAT2奖励函数是提升力交互能力的核心驱动力，贡献约80%-90%的性能增益，而解耦式网络结构则确保核心能力在极限条件下的稳定发挥 [30] 实验验证与性能表现 - 在真实物理交互任务中，搭载Thor的宇树G1机器人（重约35kg）成功拉动重约1400kg的汽车，展示了极限负载下的全身协调与动态平衡能力 [18] - 在单手开启消防门（需约60N稳定拉力）、拖拽约85kg轮式吊架、擦拭白板等持续接触任务中表现出卓越的泛化能力与鲁棒性 [20][22][27] - 定量分析显示Thor在双手向后拉动任务中实现167.7N峰值拉力，较最佳基线算法性能提升68.9%，且躯干倾斜角度与所受拉力正相关，验证了类人自适应姿态调节策略的有效性 [25][26] 行业应用前景与意义 - 该技术突破使人形机器人能从“表演者”转变为“劳动者”，在家庭陪护、工业装卸、应急救援等需高强度、不可预测物理交互的场景中替代人类成为可能 [7][31] - 通过生物力学原理与强化学习的深度融合，为机器人全身智能控制开辟新路径，推动具身智能在工业、服务业、特种作业等更广泛场景中的演进与落地 [31]

行为基础模型可实现高效的人形机器人全身控制

具身智能之心· 2025-07-23 16:45

人形机器人全身控制技术演进 - 人形机器人全身控制面临复杂动力学、欠驱动和多样化任务需求的根本性挑战[1] - 技术演进分为三个阶段：基于模型的控制器（MPC/WBOSC）、基于学习的任务特定控制器（强化学习/模仿学习）、行为基础模型（BFM）[6][7][8] - BFM通过大规模预训练学习可重用技能和行为先验，实现零样本或快速适应新任务[1][8] 行为基础模型核心定义 - BFM首次定义于《Fast Imitation via Behavior Foundation Models》，基于无监督强化学习+前后向表征学习方法构建[10] - 扩展定义为：使用大规模行为数据预训练的特殊基础模型，能编码广泛行为模式并实现跨任务泛化[12] - 核心特性包括支持行为克隆、特征匹配、基于奖励/目标的归纳等多种模仿学习规则[10] BFM算法分类体系 - 预训练方法分为三类：目标导向学习（DeepMimic/MaskedMimic）、内在奖励驱动学习（ICM/DIAYN）、前后向表征学习（FB/FB-IL）[13][14] - 目标导向学习方法直接输入任务目标（如状态/函数/描述），基于动作追踪技术广泛用于人型机器人任务[14][16] - 前后向表征学习通过分解后继测度实现策略学习与任务目标解耦，Meta的Motivo模型展示卓越零样本能力[21][23][26] BFM应用场景与限制 - 潜在应用包括人形机器人通用加速器、虚拟智能体开发、工业5.0弹性制造、医疗辅助机器人等[33] - 主要限制：Sim2Real差距导致行为泛化不稳定、训练数据规模远小于LLMs/视觉模型、具身泛化能力有限[32][37] - 数据瓶颈突出，缺乏多模态对齐数据（视觉-本体感知-触觉），真实部署面临控制失效风险[37][39] 未来研究方向 - 重点方向：开发多模态BFM、构建认知-运动一体化架构（结合LLMs）、探索缩放定律、优化多智能体系统[38] - 需建立标准化评估体系，涵盖任务泛化性、鲁棒性和人机安全等多维度指标[38] - 需同步推进伦理规范和安全防护，解决传感器干扰、多模态攻击等开放环境风险[36][39]

行为基础模型（Behavior Foundation Model

行为基础模型（Behavior Foundation Model