Workflow
视觉 - 语言 - 动作VLA模型
icon
搜索文档
全部超越π0、π0.5!端到端全身VLA模型Lumo-1
自动驾驶之心· 2025-12-12 11:02
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其在多步骤长时序任务、精细操作及泛化能力上超越现有先进模型[9][11][12] 技术模型:Lumo-1的架构与训练 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,通过具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方式,将大模型“心智”转化为流畅的全身操作[9] - 训练采用三阶段架构:第一阶段为具身化VLM,在精选数据上预训练以获得空间理解等能力,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[12][17];第二阶段为跨本体联合训练,融合多机器人数据以强化指令跟随与空间推理[18];第三阶段为真机推理-动作训练,利用绳驱机器人Astribot S1的仿人示教轨迹学习真实世界的可执行动作模式[18] - 最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的表现[20][29] 核心能力与性能表现 - Lumo-1在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心操作任务中,全部超越了π0、π0.5等先进模型[11][13] - 在未见过的物体、场景和指令等分布外情况,以及处理抽象、模糊、需扩展推理的指令时,优势更为明显[11][13] - 在7个多模态基准测试中的6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,同时未损害核心多模态感知和推理能力[31] 关键技术拆解 - **动作空间建模**:通过空间动作分词器将连续动作轨迹压缩成可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音[21] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将视觉理解映射为路径点预测,实现从2D到3D控制的自然过渡[24][25] - **数据策略**:采用数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,指明了注重数据质量的方向[30] 实际应用与泛化案例 - 机器人能够处理复杂、长时序的日常活动任务,如清扫、削皮、倾倒、刷洗、折叠等,这些任务可自然分解为多个子任务[23] - 展现出强大的抽象概念推理和情境理解能力,例如:理解“代表爱情的花”并放入花瓶;根据“KFC里的东西”推理出炸鸡、汉堡;根据“画海洋的工具”找到蓝色画笔[25] - 具备灵活的实时决策能力,例如在“把可乐放到盘子上”任务中,当左臂路径被加入障碍物时,能实时推理并切换为使用右臂[27] - 在真实环境中展现出惊人的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并完成食材配对[31]
端到端全身VLA模型Lumo-1:让机器人心手合一,迈进推理-行动闭环时代
具身智能之心· 2025-12-10 18:00
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理世界中的推理与操作能力,使其在多步骤长时序任务、精细灵巧操作和泛化抓取放置等核心任务上超越了π0、π0.5等先进模型,尤其在处理未见过的物体、场景和抽象指令时优势明显 [7][9][11] 技术方案与模型架构 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,其训练结合了具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方法 [7] - 模型采用三阶段训练架构:第一阶段为具身化VLM,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型 [15];第二阶段为跨本体联合训练,强化指令跟随与空间推理能力 [16];第三阶段为利用绳驱机器人Astribot S1的示教轨迹进行真机推理-动作训练 [16] - 最后通过强化学习推理-行动对齐,设计多维度的奖励信号来校准高级推理与低级动作之间的误差,从而在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现 [18][27] 核心技术创新 - **动作空间建模**:通过空间动作分词器将连续动作轨迹转化为可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音 [19] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使机器人从“执行动作”转变为“执行想法” [22][23] - 结构化推理能力使机器人能理解抽象语义与文化隐喻,例如将玫瑰识别为“代表爱情的花”,或将“KFC里的东西”推理为炸鸡和汉堡 [23] - 该设计支持灵活的实时决策,例如在“把可乐放到盘子上”任务中,当左臂路径遇障时,机器人能自主推理并切换为使用右臂 [25] 性能表现与验证 - 在**多步骤长时序**、**精细灵巧操作**、**可泛化抓取放置**三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型 [9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,Lumo-1的优势更为明显 [9][11] - 在7个多模态基准测试中,有6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B [29] - 通过数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向 [28] - 在真实环境验证中,S1机器人展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并精准配对食材 [29] 机器人任务能力展示 - 机器人能够完成“热面包”等复杂长时序任务,通过推理识别物体、理解“加热”需用微波炉,并自主完成开门、放入、旋钮、取出等一系列操作 [4] - 能够执行“整理文具”任务,在混乱桌面中快速找齐并精细处理不同形状、材质和尺寸的物品 [4] - 能够处理需要抽象推理的任务,例如“把可以画海洋的文具放到绿盘子里”,并准确找到蓝色的画笔 [23] - 机器人具备四类推理能力:抽象概念推理、子任务推理、视觉观测描述以及运动推理 [30]