LaST₀
搜索文档
真机RL杀疯了,机器人自学20分钟100分,数字孪生封神
36氪· 2026-02-13 15:32
文章核心观点 - 由至简动力、北京大学、清华大学、香港科技大学联合提出的TwinRL框架,通过构建数字孪生环境来扩展机器人视觉-语言-动作模型的探索空间,解决了其在真实世界中因依赖有限演示数据而泛化能力不足的关键瓶颈 [13][15] - TwinRL框架使机器人能够在数字孪生中并行、安全地进行强化学习探索,再将学习成果迁移至真实机器人,从而在多项任务中仅需约20分钟即可达到接近100%的成功率,相比现有方法训练加速至少30%,并大幅减少人类干预需求 [22][36][39] - 至简动力通过LaST₀基座模型、ManualVLA推理执行框架和TwinRL在线进化技术,构建了“推理—执行—进化”的完整技术闭环,推动一体化VLA范式从学术研究走向真实场景落地 [49][54][55] 行业背景与问题 - 当前,视觉-语言-动作模型在机器人领域展现出良好泛化潜力,但其在真实世界部署中高度依赖昂贵、覆盖有限的人类示范数据,且难以支持长期自主学习 [4][5][27] - 一个核心问题是,即使采用在线强化学习,机器人的有效探索空间也被监督微调阶段所使用的演示数据分布牢牢限制,导致其难以在未见过的新区域进行有效探索和学习 [9][11][28] - 在真实机器人上直接进行在线强化学习存在效率低、风险高、难以并行等问题,一个探索失误可能导致硬件损坏 [17][27] TwinRL技术框架与原理 - 核心洞察在于,问题的关键不在于算法本身,而在于探索空间受限,因此提出将探索过程提前至一个可控、可扩展的数字孪生世界中 [15] - 框架第一步是探索空间扩展:使用手机采集场景并通过3D Gaussian Splatting高效重建高保真数字孪生,在此基础上生成远超人类示范覆盖范围的合成轨迹数据,在监督微调阶段就显式拓宽数据分布 [23][25][32] - 框架第二步是数字孪生中的并行在线强化学习:在部署前于数字孪生环境中执行高效并行的在线强化学习,生成多样化轨迹并迁移至真实回放缓冲区,以缓解从离线训练到在线学习的性能退化与不稳定问题 [20][21][33] - 框架第三步是Sim-to-Real引导的人类在回路探索:利用数字孪生识别失败高发但信息密集的关键状态配置,精准引导人类只在最有价值的位置进行干预,从而大幅减少无效示范和重复操作 [22][25][35] 实验性能与结果 - 在4项真实世界机器人操作任务中,TwinRL平均仅需约20分钟即可完成在线强化学习收敛,并在分布内和分布外区域均实现接近100%的成功率覆盖 [22][36][38] - 相比现有真实机器人强化学习方法,TwinRL实现了至少30%的训练加速,同时显著降低了人类干预需求 [22][39] - 消融实验表明,在监督微调阶段加入数字孪生生成的合成轨迹能显著提升成功率,例如在平衡设置下平均成功率从27%提升至57% [43] - 在面临背景杂物、光照变化等环境扰动时,经过TwinRL引导在线强化学习微调的策略表现出更强的鲁棒性,性能仅轻微下降,而仅经过监督微调的模型则出现明显性能退化 [46] 公司技术与战略布局 - 至简动力构建了具身智能“三部曲”技术闭环:LaST₀基座模型融合物理世界理解与预测,解决“边想边快速动”的难题;ManualVLA贯通推理与执行,在复杂任务上平均成功率比此前最优方法高出32%;TwinRL则实现高效在线进化 [49][50][52][53] - 这三项核心技术——LaST₀、ManualVLA、TwinRL——有机串联,构成了公司“推理—执行—进化”的VLA技术三角,旨在推动一体化VLA基础模型范式从论文走向真实产线和场景 [54][55] - 行业知情人士透露,至简动力成立半年即获得密集的顶级资本加持,目前估值已逼近独角兽阵营,这在具身智能赛道中极为罕见 [14]
LaST₀:让机器人拥有物理直觉,抛开语言拐杖像人一样思考动作
机器人大讲堂· 2026-02-09 12:04
核心技术突破:LaST₀框架与隐空间思维链 - 提出LaST₀框架,核心是创造隐空间思维链,让机器人直接在紧凑的隐式空间里自回归地预测并编码未来的视觉动态、3D几何结构和本体感知状态[5][6] - 该方法相当于为机器人在脑海里安装高维物理模拟器,不经语言翻译直接操作更丰富、更本质的物理表征,效率与精度双双跃升[6][8] - 该技术解决了传统显式语言思维链的两大短板:语言生成是串行过程导致思考慢、动作卡顿;以及语言描述物理世界时会丢失精细的物理属性信息[2][3] 架构创新:双专家混合Transformer系统 - LaST₀采用双专家混合Transformer架构,集成在单个视觉-语言-动作模型中[10] - 慢思考专家作为推理专家,在隐空间里向前推演未来多步的物理状态序列,形成动态的隐空间作战计划[12] - 快反应专家作为动作专家,专注当下,接收最新观测并查阅推理专家的计划,通过流匹配技术瞬间生成精准动作,两者通过共享注意力机制实现零延迟知识同步[12] 性能表现:成功率与推理速度显著提升 - 在RLBench仿真基准测试的10项任务中,LaST₀平均成功率达82%,显著超越之前的顶尖模型[14] - LaST₀整体推理速度达15.4 Hz,而基于显式语言思维链的对比方法仅为1.1 Hz,速度提升近14倍[14] - 在真实世界Franka机械臂系列任务中,LaST₀平均成功率达72%,显著超越SpatialVLA (41%)、π0.5 (59%) 和 CoT-VLA (50%)等基线模型[16] - 在一项需要连续三次成功放置鸡蛋的长程任务中,LaST₀在第三步的成功率仍保持可观水平,而基线方法已衰减至接近零,表明其具备持久、连贯的内部表征能力[19][22] 泛化能力:一套模型适配多种机器人形态 - LaST₀展示了卓越的泛化能力,在移动操作平台上能协调底盘移动与双臂操作,完成复合任务[23] - 在高自由度灵巧手上,能完成拉开抽屉、抓取细小按钮等需要毫米级精准指尖操控的复杂作业[24] - 证明LaST₀所学的隐空间物理推理能力是与具体机器人形态解耦的通用技能,只需调整末端执行器动作维度,同一套核心模型就能适配从工业臂到人形机器人的多种身体[24] 行业影响与应用前景 - 该技术被视为通向更高效具身智能的关键一步,将深刻影响未来[28] - 在工业场景,机器人能更流畅地处理装配、分拣等需要实时适应微小偏差的任务[28] - 在家庭与服务领域,机器人助手能更安全、自然地完成备餐、清洁等复杂家务[29] - 在特种应用如外科手术、太空探索中,具备自主物理推理能力的机器人将能在通信延迟或人类无法直接干预的环境中独立完成精细操作[30]
具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链
量子位· 2026-02-07 15:02
技术突破与核心创新 - 提出了一种名为LaST₀的全新隐空间推理视觉-语言-动作模型,通过隐空间时空思维链实现了对物理世界的高效推理,同时保持了高频动作预测能力 [1] - 该模型提供了一种在具身大模型中引入高效隐空间推理的全新范式,在双臂、移动操纵、人形灵巧手操作上均实现了SOTA水平,超越了Pi0.5模型 [2] - 核心创新在于通过隐空间时空思维链实现了高效的“先思考后行动”,能够捕捉难以用文字表达的精细物理与动力学特征,解决了显式推理的延迟和表示瓶颈问题 [4] 模型架构与设计 - 架构上采用了基于混合专家Transformer的双系统设计,包含一个负责低频隐空间推理的“慢速推理专家”和一个负责生成高频动作的“快速动作专家” [5][10] - 通过异构操作频率的训练,模型在部署时能够实现自适应切换,协调了深思熟虑的推理与快速响应的控制 [11][23] - 模型初始化自同一个理解-生成合一的基座模型Janus-Pro,并在多样化机器人操作数据集上进行大规模预训练,确保两个专家在统一模型中无缝交互 [11] 性能表现与实验结果 - 在涵盖桌面操纵、移动操纵及灵巧手操纵的10项真实任务中,LaST₀相比现有最先进的VLA方法,在成功率上分别实现了13%、14%和14%的显著提升 [5] - 在10项仿真任务中,LaST₀-3.3B实现了82%的平均成功率,以8%的优势超越了现有最强的方法HybridVLA-7B [24] - 在真实世界操作任务中,LaST₀在Franka平台上的平均成功率为72%,大幅超越了SpatialVLA的41%、π0.5的59%和CoT-VLA的50% [27] - 在长程操作任务中,LaST₀在连续完成一、二、三次成功执行的成功率分别为0.66、0.47、0.33,显著高于π0.5的0.47、0.20、0.07,表明其能更好地在长时域内保持状态一致性 [27] 效率优势 - LaST₀的推理速度达到15.4Hz,显著快于显式思维链方法CoT-VLA的1.1 Hz,实现了约14倍的加速,并与π0.5的13.8 Hz保持同等竞争力 [12][24]