Workflow
分层控制
icon
搜索文档
中金:具身智能走向数据驱动 高价值信息量成具身智能竞争核心
智通财经网· 2025-11-17 09:37
具身智能算法架构 - 分层控制是基础架构范式,以两级结构实现工程化,短期分层架构因工程可控性仍是主流 [1] - VLA范式以视觉语言模型为基础强化泛化与交互能力,是当前活跃研究方向,在复杂任务和人机交互中展现潜力 [1] - 世界模型通过环境建模与未来预测提供物理约束,处于科研主导阶段,因具备跨设备迁移能力被视为长期方向 [1] 具身智能数据策略 - 机器人数据涵盖多模态,产业找寻低数据成本获取与高数据效率应用路径 [2] - 数据获取端包括真机、视频第一人称或第三人称、仿真等路线 [2] - 数据安全为不容忽视的底线,人形机器人厂商面临权限隔离、数据加密体系、跨境传输政策等多方挑战 [2] - 异构训练通过模块化Transformer架构,跨机器人本体共享算法模型,打破传统“同构闭环”仅能在同类型硬件上复现策略的限制 [2] 具身智能热点议题 - 机器人Scaling Law与离身智能不同,尚未迎来爆发式突破,真实数据产能不足、Sim2Real迁移等为制约因素 [3] - 具身机器人缺乏公认量化框架,面临场景多样性、任务转化等难题,斯坦福李飞飞团队发布具身智能评测BEHAVIOR-1K推动评测标准化 [3] - 物理AI融合物理知识与AI模型,已走向机器人操作应用 [3]
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗
36氪· 2025-11-14 10:36
核心观点 - 研究团队提出DemoHLM框架,通过仅需1次仿真环境中的人类演示即可自动生成海量训练数据,解决了人形机器人移动操作领域依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点 [1] 技术挑战 - 人形机器人移动操作长期受限于数据效率低、任务泛化差以及Sim-to-Real迁移难三大难题 [3][6] - 传统方案或局限于仿真,或需消耗数百小时真实遥操作数据,难以满足复杂场景的实用需求 [3] 框架创新 - DemoHLM采用“分层控制+单演示数据生成”双引擎设计,兼顾全身运动稳定性与极低数据成本下的泛化学习 [7] - 分层控制架构解耦运动控制与任务决策,包含低层全身控制器(运行频率50Hz)和高层操作策略(运行频率10Hz) [8][12] - 单演示数据生成技术可将1次仿真遥操作演示转化为数百至数千条成功轨迹,实现完全自动化的数据生成流程 [9] 实验验证 - 在仿真与真实Unitree G1机器人上对10项移动操作任务进行验证,数据量从100条增至5000条时任务成功率显著提升,例如“PushCube”成功率从52.4%升至89.3%,“OpenCabinet”从18.9%升至67.3% [10][15] - 框架兼容ACT、Diffusion Policy等多种行为克隆算法,在“LiftBox”任务中成功率均超96% [15] - 真实环境中实现零样本迁移,全成功率任务如“LiftBox”达5/5成功,复杂任务如“OpenCabinet”成功率超60% [16] 行业价值 - 将训练成本从“数百小时真实遥操作”降至“小时级仿真演示”,大幅降低行业应用门槛 [22] - 无需任务特定设计,1套框架适配家庭搬运、工业辅助等多场景,加速机器人从实验室到真实环境的落地 [22] - 分层架构为兼容触觉传感器、多相机感知等升级奠定基础,支持未来更复杂场景的应用 [22]
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗
量子位· 2025-11-13 17:25
文章核心观点 - 研究团队提出DemoHLM框架,通过仅需1次仿真环境中的人类演示即可自动生成海量训练数据,解决人形机器人移动操作领域依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点 [1] 核心挑战与现有痛点 - 人形机器人移动操作面临数据效率低、任务泛化差、Sim-to-Real迁移难三大难题 [3][6] - 传统方法需消耗数百小时真实遥操作数据,且依赖任务特定的硬编码设计,难以满足复杂场景需求 [3][6] - 基于仿真训练的策略常因物理引擎差异和传感器噪声无法在真实机器人上稳定运行 [6] DemoHLM框架技术方案 - 采用分层控制架构,包含低层全身控制器和高层操作策略,解耦运动控制与任务决策 [7] - 低层控制器基于AMO框架优化,运行频率50Hz,负责将高层指令转化为关节力矩并保证机器人平衡 [12] - 高层策略通过视觉闭环反馈向低层发送任务指令,运行频率10Hz,支持ACT、Diffusion Policy等多种行为克隆算法 [12] - 为机器人设计2DoF主动颈部与RGBD相机,通过比例控制器实现视觉追踪稳定,避免物体遮挡导致的感知失效 [7] 单演示数据生成流程 - 关键突破在于无需真实数据,仅用1次仿真遥操作演示即可生成海量多样化训练数据 [8] - 核心流程分三步:预操作阶段采用物体中心坐标系确保末端执行器精准对齐目标;操作阶段切换为本体感知坐标系解决抓取搬运难题;批量合成阶段通过随机初始化位姿自动生成数百至数千条成功轨迹 [8] - 演示采集通过Apple Vision Pro捕捉人类动作并映射到仿真机器人,记录1条成功操作轨迹 [13] - 将演示轨迹拆解为移动、预操作、操作三阶段,并通过坐标系转换实现泛化 [13] 仿真环境实验结果 - 数据量与性能呈正相关,例如PushCube任务成功率从52.4%提升至89.3%,OpenCabinet任务从18.9%提升至67.3% [14] - 算法适配灵活,在ACT、MLP、Diffusion Policy三种算法上均表现优异,其中ACT与Diffusion Policy在LiftBox任务成功率均超96% [14] 真实世界迁移验证 - 在改装后的Unitree G1机器人上实现零样本迁移,10项任务中全成功率任务如LiftBox和PressCube均实现5/5成功 [16][19] - 高稳定任务如PushCube和Handover实现4/5成功,复杂任务如GraspCube和OpenCabinet成功率超60% [19] - 迁移成功的关键在于高层策略通过视觉闭环实时调整指令,抵消仿真与真实的物理差异 [18] 行业应用价值 - 将训练成本从数百小时真实遥操作降至小时级仿真演示,大幅降低行业应用门槛 [20] - 无需任务特定设计,1套框架适配家庭搬运、工业辅助、服务交互等多场景,加速机器人从实验室到真实环境的落地 [20] - 分层架构可兼容触觉传感器、多相机感知等升级,为更复杂场景操作打下基础 [21]
波士顿动力狗gogo回来了,“五条腿”协同发力
36氪· 2025-10-15 21:02
核心技术方法 - 采用结合采样与学习的动态全身操作方法,将强化学习与基于采样的控制相结合,使机器人能够执行需要手臂、双腿和躯干协同配合的动态力交互任务[1] - 研究采用分层控制方法,将控制问题划分为两个互补且同步的层级:低层基于强化学习的运动策略直接控制电机力矩,高层根据任务类型采用基于采样的控制或强化学习[2] - 在采样控制中,系统通过并行模拟多个未来情境来寻找最优操作策略,对于需要精确施力的任务会运行32个并行CPU线程,每个线程模拟未来几秒内的不同动作序列[3] - 与直接采样原始轨迹不同,研究在样条曲线空间中进行采样,能生成更平滑、更自然的运动轨迹,同时降低搜索空间的维度[5] 任务执行表现 - 机器狗Spot在轮胎扶正任务中最佳成绩为3.7秒,平均每个轮胎用时5.9秒,几乎达到人类在该任务中的操作速度[11] - 机器狗能够高效搬运重达15千克的轮胎,远超其夹持器的峰值举升能力(11千克)和持续能力(5千克),通过动态协调全身动作拓展了操作范围[13] - 在轮胎滚动任务中,利用强化学习来应对难以精确建模的复杂摩擦与接触动力学,使机器人能够动态调整躯干与手臂位置以稳定控制滚动的轮胎[7][10] 技术优势与创新 - 该方法克服了传统操作策略在不同机器人形态学结构上的迁移限制,实现了机器狗四肢与全身的协调动力学操作[1] - 系统未预设任何固定的操作模式,多肢体、多接触的行为是在采样过程中优化自然涌现的结果,而非通过显式编程设定[5] - 分层控制架构使得高层控制器能够专注于任务完成,无需显式地推理平衡约束或地面接触,显著简化了控制问题[14][15] - 训练过程中引入了随机化,包括对物体的质量、摩擦系数与形状等属性进行随机变化,以解决从仿真到现实的差距[10]
波士顿动力狗gogo回来了!“五条腿”协同发力
量子位· 2025-10-15 18:20
核心技术突破 - 波士顿动力人工智能研究所开发出“结合采样与学习的动态全身操作”方法,使机器狗Spot能够执行需要手臂、双腿和躯干协同配合的动态力交互任务[11] - 该方法采用分层控制架构,将控制问题划分为高层任务规划和低层运动执行两个互补且同步的层级[12] - 高层控制根据任务类型灵活采用基于采样的控制(用于轮胎扶正、拖拽与堆叠)或强化学习(用于轮胎滚动),低层则通过强化学习的运动策略直接控制电机力矩以实现平衡与稳定性[13][14][15] 性能表现与能力提升 - Spot机器狗最快仅用3.7秒就能搬起重达15公斤的轮胎,平均每个轮胎用时5.9秒,几乎达到人类在该任务中的操作速度[3][31] - 搬运的轮胎重量相当于Spot自身重量的一半(32.7千克),并远超其最大臂力(夹持器峰值举升能力11千克,持续能力5千克)[4][35] - 机器狗在完成任务后还能将轮胎滚动到指定位置,甚至能把一个轮胎叠到另一个轮胎上面[5][7] 方法创新与优势 - 采样控制器通过并行模拟32个CPU线程的未来情境,在样条曲线空间中进行采样以生成更平滑、更自然的运动轨迹,同时降低搜索空间的维度[17][18][20] - 系统未预设任何固定操作模式,多肢体、多接触行为是在采样过程中优化自然涌现的结果,机器人可根据当前构型动态调整使用手臂、前腿或身体等部位组合[21][22] - 分层控制架构使高层控制器无需推理数十个自由度的关节力矩与稳定性约束,仅需在简化动作空间工作,极大降低了控制复杂度[37][38] 技术实现细节 - 轮胎滚动任务采用非对称演员-评论家架构,在单块GPU上经过约24小时训练得到高层技能策略,策略能够动态调整躯干与Spot Arm位置以稳定控制轮胎[26][27][29] - 为克服仿真到现实的差距,训练过程中对物体质量、摩擦系数与形状等属性引入随机化[30] - 该方法克服了传统操作策略在不同机器人形态学结构上的迁移限制,通过动态协调全身动作拓展了操作范围[9][36]