具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链
量子位·2026-02-07 15:02

技术突破与核心创新 - 提出了一种名为LaST₀的全新隐空间推理视觉-语言-动作模型,通过隐空间时空思维链实现了对物理世界的高效推理,同时保持了高频动作预测能力 [1] - 该模型提供了一种在具身大模型中引入高效隐空间推理的全新范式,在双臂、移动操纵、人形灵巧手操作上均实现了SOTA水平,超越了Pi0.5模型 [2] - 核心创新在于通过隐空间时空思维链实现了高效的“先思考后行动”,能够捕捉难以用文字表达的精细物理与动力学特征,解决了显式推理的延迟和表示瓶颈问题 [4] 模型架构与设计 - 架构上采用了基于混合专家Transformer的双系统设计,包含一个负责低频隐空间推理的“慢速推理专家”和一个负责生成高频动作的“快速动作专家” [5][10] - 通过异构操作频率的训练,模型在部署时能够实现自适应切换,协调了深思熟虑的推理与快速响应的控制 [11][23] - 模型初始化自同一个理解-生成合一的基座模型Janus-Pro,并在多样化机器人操作数据集上进行大规模预训练,确保两个专家在统一模型中无缝交互 [11] 性能表现与实验结果 - 在涵盖桌面操纵、移动操纵及灵巧手操纵的10项真实任务中,LaST₀相比现有最先进的VLA方法,在成功率上分别实现了13%、14%和14%的显著提升 [5] - 在10项仿真任务中,LaST₀-3.3B实现了82%的平均成功率,以8%的优势超越了现有最强的方法HybridVLA-7B [24] - 在真实世界操作任务中,LaST₀在Franka平台上的平均成功率为72%,大幅超越了SpatialVLA的41%、π0.5的59%和CoT-VLA的50% [27] - 在长程操作任务中,LaST₀在连续完成一、二、三次成功执行的成功率分别为0.66、0.47、0.33,显著高于π0.5的0.47、0.20、0.07,表明其能更好地在长时域内保持状态一致性 [27] 效率优势 - LaST₀的推理速度达到15.4Hz,显著快于显式思维链方法CoT-VLA的1.1 Hz,实现了约14倍的加速,并与π0.5的13.8 Hz保持同等竞争力 [12][24]

具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链 - Reportify