机器人推理
搜索文档
锦秋被投企业星尘智能自研Lumo-1模型:从推理-行动,看机器人如何秒变推理大师|Jinqiu Spotlight
锦秋集· 2025-12-11 14:20
文章核心观点 - 锦秋基金被投企业星尘智能发布了端到端全身视觉-语言-动作模型Lumo-1,该模型通过创新的三阶段训练架构,旨在将大模型的“心智”转化为机器人丝滑的全身操作,实现从“背菜谱”到“懂烹饪”的跨越,让机器人具备在真实物理世界中进行复杂推理并执行多步骤任务的能力[2][14][15] 模型Lumo-1的技术架构与训练 - 模型训练采用精心设计的三阶段“智力迁移”过程,而非简单堆叠数据规模[20] - **阶段一:具身化VLM预训练** 在精选的视觉-语言数据上进行持续预训练,使模型具备空间理解、规划等“具身语义”,在7个经典具身推理基准中大部分表现超过RoboBrain-7B、Robix-7B等专用模型[21] - **阶段二:跨本体联合训练** 融合跨机器人、多视角轨迹和VLM数据进行联合训练,强化指令跟随、物体定位与空间推理能力,让模型理解动作与指令和观测的关系[24] - **阶段三:真机推理-动作训练与强化学习对齐** 利用绳驱机器人Astribot S1的高度仿人示教轨迹进行带推理过程的动作训练,让模型习得真实世界的可执行动作模式,最后通过基于GRPO的强化学习方案进行推理-行动对齐,校准高级推理与低级动作之间的误差,该方案使模型在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现[30][32][42] 模型的核心技术创新 - **动作空间建模** 通过空间动作分词器将连续动作轨迹压缩成最短路径点并聚类成紧凑的token,形成可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,能减少数据收集引入的无关噪音[33] - **结构化推理** 将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,最终将视觉理解映射为路径点预测,实现有目的性的动作生成[35][37] - 文字推理具体包括:抽象概念推理、子任务推理、视觉观测描述和运动推理,例如能推断隐含语义、规划最优中间步骤、识别场景特征、分析夹爪空间关系等[38] 模型展现的性能与能力 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[11][16] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,其优势更为明显[11][16] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后模型的核心多模态感知和推理能力未受损[44] - 在真实环境验证中展现出强大的操作智能与泛化能力,例如:面对不同高度容器自动调整手臂姿态;识别手写体菜单并精准配对食材;在“把可乐放到盘子上”任务中,当左臂路径被加入未训练过的障碍物时,能实时推理并自主切换为使用右臂[41][44] 具体任务演示案例 - **配对公仔** 能推理出不同公仔与纸片上的角色来自同一动画[5] - **整理文具** 在混乱桌面中快速找齐文具,并能精细处理不同形状、材质和尺寸的物品[6][8] - **热面包** 尽管没见过特定面包,能通过推理识别物体,并完成使用微波炉加热的多步骤连贯操作,包括开门、拿起、放入、关门、旋钮、等待、取出等[8] - **理解抽象与隐喻指令** 能理解“代表爱情的花”指代玫瑰,或将“KFC里的东西”关联到炸鸡、汉堡,或将“画海洋的工具”关联到蓝色画笔[37][40] 行业方法论验证与影响 - 团队采用数据受限扩展定律验证训练策略,结果显示在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,这为行业指明了除堆数据量外,提升数据质量的方向[43] - 该研究证明了“推理”与“动作”能力并非零和博弈,可以协同发展[44]