核心技术突破:LaST₀框架与隐空间思维链 - 提出LaST₀框架,核心是创造隐空间思维链,让机器人直接在紧凑的隐式空间里自回归地预测并编码未来的视觉动态、3D几何结构和本体感知状态[5][6] - 该方法相当于为机器人在脑海里安装高维物理模拟器,不经语言翻译直接操作更丰富、更本质的物理表征,效率与精度双双跃升[6][8] - 该技术解决了传统显式语言思维链的两大短板:语言生成是串行过程导致思考慢、动作卡顿;以及语言描述物理世界时会丢失精细的物理属性信息[2][3] 架构创新:双专家混合Transformer系统 - LaST₀采用双专家混合Transformer架构,集成在单个视觉-语言-动作模型中[10] - 慢思考专家作为推理专家,在隐空间里向前推演未来多步的物理状态序列,形成动态的隐空间作战计划[12] - 快反应专家作为动作专家,专注当下,接收最新观测并查阅推理专家的计划,通过流匹配技术瞬间生成精准动作,两者通过共享注意力机制实现零延迟知识同步[12] 性能表现:成功率与推理速度显著提升 - 在RLBench仿真基准测试的10项任务中,LaST₀平均成功率达82%,显著超越之前的顶尖模型[14] - LaST₀整体推理速度达15.4 Hz,而基于显式语言思维链的对比方法仅为1.1 Hz,速度提升近14倍[14] - 在真实世界Franka机械臂系列任务中,LaST₀平均成功率达72%,显著超越SpatialVLA (41%)、π0.5 (59%) 和 CoT-VLA (50%)等基线模型[16] - 在一项需要连续三次成功放置鸡蛋的长程任务中,LaST₀在第三步的成功率仍保持可观水平,而基线方法已衰减至接近零,表明其具备持久、连贯的内部表征能力[19][22] 泛化能力:一套模型适配多种机器人形态 - LaST₀展示了卓越的泛化能力,在移动操作平台上能协调底盘移动与双臂操作,完成复合任务[23] - 在高自由度灵巧手上,能完成拉开抽屉、抓取细小按钮等需要毫米级精准指尖操控的复杂作业[24] - 证明LaST₀所学的隐空间物理推理能力是与具体机器人形态解耦的通用技能,只需调整末端执行器动作维度,同一套核心模型就能适配从工业臂到人形机器人的多种身体[24] 行业影响与应用前景 - 该技术被视为通向更高效具身智能的关键一步,将深刻影响未来[28] - 在工业场景,机器人能更流畅地处理装配、分拣等需要实时适应微小偏差的任务[28] - 在家庭与服务领域,机器人助手能更安全、自然地完成备餐、清洁等复杂家务[29] - 在特种应用如外科手术、太空探索中,具备自主物理推理能力的机器人将能在通信延迟或人类无法直接干预的环境中独立完成精细操作[30]
LaST₀:让机器人拥有物理直觉,抛开语言拐杖像人一样思考动作
机器人大讲堂·2026-02-09 12:04