Workflow
大型行为模型(LBM)
icon
搜索文档
波士顿动力x TRI联手!使用大型行为模型(LBM)训练Atlas!目标“AI通才机器人”
机器人大讲堂· 2025-08-25 20:10
大型行为模型(LBM)技术突破 - 大型行为模型是人形机器人实现多任务操作、全身协调和应对意外情况的核心技术方向 [1] - 波士顿动力与丰田研究院合作开发端到端语言调节策略 使Atlas能够完成长远操控任务 [2] - 策略训练采用4.5亿参数扩散变压器架构 以30Hz图像输入和语言提示为条件 预测1.6秒动作块 [11] 通用化策略体系构建 - 策略开发遵循四流程:数据收集、数据处理、神经网络训练和策略评估 [3] - 通过真实机器人和模拟环境远程操作收集行为数据 并纳入机器学习管道 [3] - 评估结果指导后续数据收集方向和网络架构优化 [3] 核心设计原则 - 搭建远程操作系统结合模型预测控制器与VR界面 覆盖从手指到全身的运动任务 [5] - 采用多任务语言调节策略 整合Atlas预训练数据、上身操控测试台数据和TRI Ramen数据 [5] - 构建支持快速迭代的基础设施 结合模拟和硬件测试持续提升性能 [5] 硬件配置与系统升级 - Atlas拥有78个自由度 Atlas MTS拥有29个自由度 二者共享硬件与软件 [9] - 每个夹爪含7个自由度 支持强力抓取和捏合抓取等多种策略 [9] - 新增足部追踪器实现足部一对一追踪 扩展远程操作控制逻辑 [10] - VR系统提供实时反馈包括机器人状态、控制目标和传感器读数 [10] 模拟技术应用 - 模拟堆栈忠实还原硬件与软件堆栈 支持快速迭代和高效培训 [11] - 作为联合训练数据源 为多任务多体现策略提供数据支持 [11] - 模拟与硬件平台共享数据管道、可视化工具和训练代码 [11] 操控能力突破 - Atlas能完成三项连贯子任务 实现迈步调整、蹲伏降低重心和手指精确捏合 [14] - 可操控22磅(9.9公斤)汽车轮胎 处理几何形状可变形和操作序列复杂任务 [16] - 策略推理速度可提升1.5-2倍 部分场景速度超越人类远程操作极限 [18] 技术通用性与未来规划 - 数据驱动方法具有通用性 适用于任何可通过远程操作演示的下游任务 [19] - 计划扩展数据飞轮 提高吞吐量、质量、任务多样性和难度 [19] - 探索新算法理念 在既定任务和性能基准基础上持续改进 [19]
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 16:42
机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [2] - 复杂任务如布置餐桌和组装自行车对感知、理解和动作控制协同要求极高 [3] - 视觉-语言-动作(VLA)模型推动机器人整合多模态信息执行复杂任务 [3] 大型行为模型(LBM)突破 - LBM基于扩散模型策略构建,整合视觉、语言和本体感知输入,输出20维动作序列 [18][19] - 在1700小时机器人数据上训练,完成1800次真实评估和47000次模拟部署 [13] - 仅需数百小时多样化数据和少量演示即可显著提升性能 [14] LBM性能优势 - 微调后LBM在"已见任务"上优于单任务基线模型且对分布偏移更具鲁棒性 [31][32] - 在"未见任务"中,微调LBM仅需不到30%任务特定数据即可达到单任务模型效果 [39] - 预训练使LBM用3-5倍更少数据学习新任务且性能随数据量持续提升 [16][43] 实验验证 - 采用Franka Panda FR3双臂平台和最多六个摄像头进行物理和模拟测试 [22] - 评估指标包括成功率(Success Rate)和任务完成度(Task Completion) [26] - 在仿真和现实环境中验证LBM对复杂任务的执行能力 [25][30] 数据规模与效果 - 混合数据集包含468小时双臂数据、45小时模拟数据、32小时UMI数据和1150小时开源数据 [23] - 预训练规模法则显示性能随数据量增加呈稳定上升趋势 [41][42] - 当前数据规模虽未达"互联网级"但已显现显著性能收益 [14]