视觉 - 语言 - 动作VLA模型 - 财报，业绩电话会，研报，新闻

视觉 - 语言 - 动作VLA模型

搜索文档

自动驾驶之心· 2025-12-12 11:02

文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1，通过创新的三阶段训练架构，显著提升了机器人在复杂物理环境中的推理与操作能力，使其在多步骤长时序任务、精细操作及泛化能力上超越现有先进模型[9][11][12] 技术模型：Lumo-1的架构与训练 - Lumo-1是一个端到端全身VLA模型，旨在实现机器人的“心手合一”，通过具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方式，将大模型“心智”转化为流畅的全身操作[9] - 训练采用三阶段架构：第一阶段为具身化VLM，在精选数据上预训练以获得空间理解等能力，在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[12][17]；第二阶段为跨本体联合训练，融合多机器人数据以强化指令跟随与空间推理[18]；第三阶段为真机推理-动作训练，利用绳驱机器人Astribot S1的仿人示教轨迹学习真实世界的可执行动作模式[18] - 最后加入强化学习推理-行动对齐，通过多维度的奖励信号校准高级推理与低级动作之间的误差，使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的表现[20][29] 核心能力与性能表现 - Lumo-1在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心操作任务中，全部超越了π0、π0.5等先进模型[11][13] - 在未见过的物体、场景和指令等分布外情况，以及处理抽象、模糊、需扩展推理的指令时，优势更为明显[11][13] - 在7个多模态基准测试中的6个优于其骨干模型Qwen2.5-VL-7B，并超越了专门的具身模型RoboBrain-7B和Robix-7B，同时未损害核心多模态感知和推理能力[31] 关键技术拆解 - **动作空间建模**：通过空间动作分词器将连续动作轨迹压缩成可复用、组合的“动作单词库”，比FAST与分桶方法更紧凑和稳定，减少了数据收集引入的无关噪音[21] - **结构化推理**：将推理拆解为文字推理与视觉推理两个维度，形成解释动作的结构化推理链，使“为什么这样做”先于“怎么做”，并将视觉理解映射为路径点预测，实现从2D到3D控制的自然过渡[24][25] - **数据策略**：采用数据受限扩展定律验证，发现在固定模型规模下，数据多样性对泛化能力的影响远超数据重复次数，指明了注重数据质量的方向[30] 实际应用与泛化案例 - 机器人能够处理复杂、长时序的日常活动任务，如清扫、削皮、倾倒、刷洗、折叠等，这些任务可自然分解为多个子任务[23] - 展现出强大的抽象概念推理和情境理解能力，例如：理解“代表爱情的花”并放入花瓶；根据“KFC里的东西”推理出炸鸡、汉堡；根据“画海洋的工具”找到蓝色画笔[25] - 具备灵活的实时决策能力，例如在“把可乐放到盘子上”任务中，当左臂路径被加入障碍物时，能实时推理并切换为使用右臂[27] - 在真实环境中展现出惊人的泛化能力，如面对不同高度容器自动调整手臂姿态，以及识别从印刷体换成手写体的菜单并完成食材配对[31]

端到端全身VLA模型Lumo-1：让机器人心手合一，迈进推理-行动闭环时代

具身智能之心· 2025-12-10 18:00

文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1，通过创新的三阶段训练架构，显著提升了机器人在复杂物理世界中的推理与操作能力，使其在多步骤长时序任务、精细灵巧操作和泛化抓取放置等核心任务上超越了π0、π0.5等先进模型，尤其在处理未见过的物体、场景和抽象指令时优势明显 [7][9][11] 技术方案与模型架构 - Lumo-1是一个端到端全身VLA模型，旨在实现机器人的“心手合一”，其训练结合了具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方法 [7] - 模型采用三阶段训练架构：第一阶段为具身化VLM，在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型 [15]；第二阶段为跨本体联合训练，强化指令跟随与空间推理能力 [16]；第三阶段为利用绳驱机器人Astribot S1的示教轨迹进行真机推理-动作训练 [16] - 最后通过强化学习推理-行动对齐，设计多维度的奖励信号来校准高级推理与低级动作之间的误差，从而在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现 [18][27] 核心技术创新 - **动作空间建模**：通过空间动作分词器将连续动作轨迹转化为可复用、组合的“动作单词库”，比FAST与分桶方法更紧凑和稳定，减少了数据收集引入的无关噪音 [19] - **结构化推理**：将推理拆解为文字推理与视觉推理两个维度，形成解释动作的结构化推理链，使机器人从“执行动作”转变为“执行想法” [22][23] - 结构化推理能力使机器人能理解抽象语义与文化隐喻，例如将玫瑰识别为“代表爱情的花”，或将“KFC里的东西”推理为炸鸡和汉堡 [23] - 该设计支持灵活的实时决策，例如在“把可乐放到盘子上”任务中，当左臂路径遇障时，机器人能自主推理并切换为使用右臂 [25] 性能表现与验证 - 在**多步骤长时序**、**精细灵巧操作**、**可泛化抓取放置**三大类核心机器人操作任务中，Lumo-1全部超越了π0、π0.5等先进模型 [9][11] - 在未见过的物体、场景和指令等分布外情况，以及抽象、模糊、需扩展推理的指令中，Lumo-1的优势更为明显 [9][11] - 在7个多模态基准测试中，有6个优于其骨干模型Qwen2.5-VL-7B，并超越了专门的具身模型RoboBrain-7B和Robix-7B [29] - 通过数据受限扩展定律验证，发现在固定模型规模下，数据多样性对泛化能力的影响远超数据重复次数，为行业指明了注重数据质量的方向 [28] - 在真实环境验证中，S1机器人展现出强大的泛化能力，如面对不同高度容器自动调整手臂姿态，以及识别从印刷体换成手写体的菜单并精准配对食材 [29] 机器人任务能力展示 - 机器人能够完成“热面包”等复杂长时序任务，通过推理识别物体、理解“加热”需用微波炉，并自主完成开门、放入、旋钮、取出等一系列操作 [4] - 能够执行“整理文具”任务，在混乱桌面中快速找齐并精细处理不同形状、材质和尺寸的物品 [4] - 能够处理需要抽象推理的任务，例如“把可以画海洋的文具放到绿盘子里”，并准确找到蓝色的画笔 [23] - 机器人具备四类推理能力：抽象概念推理、子任务推理、视觉观测描述以及运动推理 [30]