Workflow
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心·2025-07-21 16:42

机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [2] - 复杂任务如布置餐桌和组装自行车对感知、理解和动作控制协同要求极高 [3] - 视觉-语言-动作(VLA)模型推动机器人整合多模态信息执行复杂任务 [3] 大型行为模型(LBM)突破 - LBM基于扩散模型策略构建,整合视觉、语言和本体感知输入,输出20维动作序列 [18][19] - 在1700小时机器人数据上训练,完成1800次真实评估和47000次模拟部署 [13] - 仅需数百小时多样化数据和少量演示即可显著提升性能 [14] LBM性能优势 - 微调后LBM在"已见任务"上优于单任务基线模型且对分布偏移更具鲁棒性 [31][32] - 在"未见任务"中,微调LBM仅需不到30%任务特定数据即可达到单任务模型效果 [39] - 预训练使LBM用3-5倍更少数据学习新任务且性能随数据量持续提升 [16][43] 实验验证 - 采用Franka Panda FR3双臂平台和最多六个摄像头进行物理和模拟测试 [22] - 评估指标包括成功率(Success Rate)和任务完成度(Task Completion) [26] - 在仿真和现实环境中验证LBM对复杂任务的执行能力 [25][30] 数据规模与效果 - 混合数据集包含468小时双臂数据、45小时模拟数据、32小时UMI数据和1150小时开源数据 [23] - 预训练规模法则显示性能随数据量增加呈稳定上升趋势 [41][42] - 当前数据规模虽未达"互联网级"但已显现显著性能收益 [14]