Workflow
LaST₀
icon
搜索文档
LaST₀:让机器人拥有物理直觉,抛开语言拐杖像人一样思考动作
机器人大讲堂· 2026-02-09 12:04
核心技术突破:LaST₀框架与隐空间思维链 - 提出LaST₀框架,核心是创造隐空间思维链,让机器人直接在紧凑的隐式空间里自回归地预测并编码未来的视觉动态、3D几何结构和本体感知状态[5][6] - 该方法相当于为机器人在脑海里安装高维物理模拟器,不经语言翻译直接操作更丰富、更本质的物理表征,效率与精度双双跃升[6][8] - 该技术解决了传统显式语言思维链的两大短板:语言生成是串行过程导致思考慢、动作卡顿;以及语言描述物理世界时会丢失精细的物理属性信息[2][3] 架构创新:双专家混合Transformer系统 - LaST₀采用双专家混合Transformer架构,集成在单个视觉-语言-动作模型中[10] - 慢思考专家作为推理专家,在隐空间里向前推演未来多步的物理状态序列,形成动态的隐空间作战计划[12] - 快反应专家作为动作专家,专注当下,接收最新观测并查阅推理专家的计划,通过流匹配技术瞬间生成精准动作,两者通过共享注意力机制实现零延迟知识同步[12] 性能表现:成功率与推理速度显著提升 - 在RLBench仿真基准测试的10项任务中,LaST₀平均成功率达82%,显著超越之前的顶尖模型[14] - LaST₀整体推理速度达15.4 Hz,而基于显式语言思维链的对比方法仅为1.1 Hz,速度提升近14倍[14] - 在真实世界Franka机械臂系列任务中,LaST₀平均成功率达72%,显著超越SpatialVLA (41%)、π0.5 (59%) 和 CoT-VLA (50%)等基线模型[16] - 在一项需要连续三次成功放置鸡蛋的长程任务中,LaST₀在第三步的成功率仍保持可观水平,而基线方法已衰减至接近零,表明其具备持久、连贯的内部表征能力[19][22] 泛化能力:一套模型适配多种机器人形态 - LaST₀展示了卓越的泛化能力,在移动操作平台上能协调底盘移动与双臂操作,完成复合任务[23] - 在高自由度灵巧手上,能完成拉开抽屉、抓取细小按钮等需要毫米级精准指尖操控的复杂作业[24] - 证明LaST₀所学的隐空间物理推理能力是与具体机器人形态解耦的通用技能,只需调整末端执行器动作维度,同一套核心模型就能适配从工业臂到人形机器人的多种身体[24] 行业影响与应用前景 - 该技术被视为通向更高效具身智能的关键一步,将深刻影响未来[28] - 在工业场景,机器人能更流畅地处理装配、分拣等需要实时适应微小偏差的任务[28] - 在家庭与服务领域,机器人助手能更安全、自然地完成备餐、清洁等复杂家务[29] - 在特种应用如外科手术、太空探索中,具备自主物理推理能力的机器人将能在通信延迟或人类无法直接干预的环境中独立完成精细操作[30]
具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链
量子位· 2026-02-07 15:02
技术突破与核心创新 - 提出了一种名为LaST₀的全新隐空间推理视觉-语言-动作模型,通过隐空间时空思维链实现了对物理世界的高效推理,同时保持了高频动作预测能力 [1] - 该模型提供了一种在具身大模型中引入高效隐空间推理的全新范式,在双臂、移动操纵、人形灵巧手操作上均实现了SOTA水平,超越了Pi0.5模型 [2] - 核心创新在于通过隐空间时空思维链实现了高效的“先思考后行动”,能够捕捉难以用文字表达的精细物理与动力学特征,解决了显式推理的延迟和表示瓶颈问题 [4] 模型架构与设计 - 架构上采用了基于混合专家Transformer的双系统设计,包含一个负责低频隐空间推理的“慢速推理专家”和一个负责生成高频动作的“快速动作专家” [5][10] - 通过异构操作频率的训练,模型在部署时能够实现自适应切换,协调了深思熟虑的推理与快速响应的控制 [11][23] - 模型初始化自同一个理解-生成合一的基座模型Janus-Pro,并在多样化机器人操作数据集上进行大规模预训练,确保两个专家在统一模型中无缝交互 [11] 性能表现与实验结果 - 在涵盖桌面操纵、移动操纵及灵巧手操纵的10项真实任务中,LaST₀相比现有最先进的VLA方法,在成功率上分别实现了13%、14%和14%的显著提升 [5] - 在10项仿真任务中,LaST₀-3.3B实现了82%的平均成功率,以8%的优势超越了现有最强的方法HybridVLA-7B [24] - 在真实世界操作任务中,LaST₀在Franka平台上的平均成功率为72%,大幅超越了SpatialVLA的41%、π0.5的59%和CoT-VLA的50% [27] - 在长程操作任务中,LaST₀在连续完成一、二、三次成功执行的成功率分别为0.66、0.47、0.33,显著高于π0.5的0.47、0.20、0.07,表明其能更好地在长时域内保持状态一致性 [27] 效率优势 - LaST₀的推理速度达到15.4Hz,显著快于显式思维链方法CoT-VLA的1.1 Hz,实现了约14倍的加速,并与π0.5的13.8 Hz保持同等竞争力 [12][24]