具身智能之心
搜索文档
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了
具身智能之心· 2025-12-11 12:02
公司核心业务与战略定位 - 公司专注于通用具身智能、视觉语言动作大模型以及灵巧操作算法等前沿技术,致力于打造业界领先的通用操作智能体 [2][16] - 公司的战略选择是做通用灵巧操作,认为灵巧手与人手形态差异最小,数据迁移效率最高 [6] - 公司已成功推出行业内首个端到端强化学习具身模型 Psi R0、R0.5 及 R1,成为行业内率先实现长程任务的具身模型研发企业 [16] 数据采集方案 Psi-SynEngine 的发布与意义 - 公司发布全球首个具身原生人类数据采集方案 Psi-SynEngine,标志着其全自研的真实世界具身数据引擎正式启动 [3] - 该方案从根本上突破了行业数据采集的困境,直接采集一线作业人员在真实工作中的操作数据,覆盖物流、工厂、商超、酒店和家庭等真实场景,无需二次迁移 [5] - 该方案的发布标志着公司基于人类真实操作数据的具身智能新范式正式确立,意味着向真实世界的具身 AI 大模型预训练拥有了可规模化的可能 [14] Psi-SynEngine 的技术构成与优势 - 方案包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型 [3] - 相比传统方案具有三大优势:1) 成本低,数据获取成本仅为真机遥操方案的 10%;2) 多模态高自由度,能完整采集触觉、视觉、动作、语言的操作数据;3) 便携性强,可大规模并行采集,效率极高 [7][11] - 自主研发的外骨骼触觉手套定位精度最高能达到亚毫米级别,可完整采集手部和手臂的全部自由度及全手触觉信息,同时不影响正常操作 [9] - 核心技术护城河在于解决了人手与灵巧手之间的跨本体差异,通过基于世界模型、强化学习和触觉模态对齐的解决方案,有效弥合 embodiment gap,提升模型泛化性和成功率 [10] 数据集 Psi-SynNet-v0 的特征与规划 - 同步发布覆盖视觉、语言、触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0 [3] - 该数据集具备四大核心特征:1) 数据多样性强,覆盖多行业、多场景、多物体与多技能;2) 模态覆盖全面;3) 数据规模海量,量级达到大语言模型同级水平;4) 自闭环已验证,已在多个落地产业中完成闭环验证 [12] - 公司已迅速构建出上万小时规模的 Psi-SynNet-v0 数据集,并计划于明年突破百万小时量级,这将是全球最大的灵巧操作数据集 [14] 行业痛点与现有方案局限 - 数据问题是困扰整个具身智能领域的痛点 [5] - 行业现有数据采集方案存在三大局限:1) 仿真环境数采存在 Sim-to-Real 差距,调参与场景搭建成本高;2) 机器人遥操数采难以规模化,成本高效率低;3) UMI设备数采(双夹爪)存在本质局限,无法满足精细操作需求,根据美国劳工部数据,工厂内 98.7% 以上的工序都需要双手多指协同完成 [11] 硬件、平台与数据闭环体系 - 公司构建了完整的硬件与平台体系,包括专为数采设计的外骨骼触觉手套、支持大规模数据处理的自建管线与平台,并配合自研大模型完成高精度数据标注和后处理,形成完整的数据生产闭环 [9] - 数据体系已在公司多个落地产业中完成闭环验证,确保所采集数据能够高度匹配算法需求,并持续推动模型迭代 [12]
连场景都做?这家给智元机器人造大脑的公司4个月融了3个亿
具身智能之心· 2025-12-11 12:02
公司概况与融资 - 公司为星源智机器人,成立不到半年,已完成超亿元人民币天使+轮融资,天使轮融资额达2亿元 [1] - 公司由北京智源研究院孵化,在北京亦庄注册,目标是让机器人理解物理世界并自主行动 [2] - 本轮融资资金将用于具身大脑专业版RoboBrain Pro的研发、垂直行业解决方案拓展及高端人才引进 [1] 核心团队背景 - CEO刘东曾任京东智能驾驶总经理,牵头京东无人配送车全国落地 [2] - 联合创始人穆亚东为北京大学研究员、智源学者,近五年发表具身智能顶会论文30余篇 [2] 核心产品与技术 - 产品体系为“通用大脑”加“算力炸弹” [3] - 推出跨本体具身大脑RoboBrain,同一套AI系统可在机械臂、AGV、人形机器人之间即插即用,无需重复训练 [3] - 该产品已搭载于智元机器人发布的工业级交互式具身作业机器人“精灵G2”上 [3] - 推出T5算力平台,基于NVIDIA Jetson Thor处理器开发,具备2070 TOPS端侧算力,拥有强大的Transformer模型加速能力 [5] - 该算力平台可满足复杂场景下的实时感知、智能决策与精准控制需求,使边缘端能实时推理,成本降低60% [5] 商业化进展与订单 - 与北京亦庄机器人科技园签署三年5亿元战略协议,公司将作为“大脑”供应商入驻园区所有机器人项目 [5] - 与全球最大电动叉车厂商中力机械联合发布“具身装卸”方案,首批交付预计在明年第二季度完成 [5] - 智元机器人作为合作伙伴,在公司天使轮融资中就已参与 [3] 投资逻辑与行业价值 - 公司在短时间内完成了将具身大脑加载到算力平台的工作,覆盖了算法、算力、场景,这体现了其商业化价值 [6]
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心· 2025-12-11 12:02
文章核心观点 - 由西安交通大学、微软亚洲研究院等机构联合提出的VideoVLA框架,创新性地将大规模视频生成模型转化为端到端的视觉-语言-动作系统,通过“动作预测+视觉想象”的双目标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径 [2][3][26] 传统VLA模型的局限性 - **泛化能力受限**:传统VLA模型依赖预训练视觉语言理解模型,对未知物体、未学习技能的适配能力差,难以应对真实世界的多样性 [5] - **缺乏物理推理能力**:现有模型多专注于动作映射,缺乏对动作物理后果(如抓取受力、放置稳定性)的建模 [6] - **规划能力不足**:复杂任务需预判动作序列的视觉反馈,传统模型缺乏“视觉想象-动作规划”的联动机制 [7][9] VideoVLA技术方案 - **核心思路**:利用视频生成模型从海量真实世界视频中学到的物理合理性与场景动态规律,改造视频扩散Transformer,新增动作输出模态,实现“语言指令+当前视觉→动作序列+未来视觉”的端到端预测 [12] - **三层技术架构**: - 输入编码层:语言指令用T5编码器转为226维令牌序列;视觉输入用CogVideoX的3D因果VAE编码器转为latent表征 [14] - 核心建模层:采用Diffusion Transformer统一建模视频、语言、动作三模态;动作用7维向量表征(3维旋转+3维平移+1维夹爪状态) [14] - 输出层:协同预测K步动作序列和N帧未来视觉latent,通过VAE解码器可还原为视频 [14] - **训练与推理**: - 预训练基于Open X-Embodiment数据集(含超过100万机器人轨迹、22种机器人形态),迭代10万次 [14] - 真实世界微调使用Realman 7自由度机械臂数据集,迭代1.5万次 [14] - 推理采用DDIM采样(50步去噪),仿真场景预测49帧未来视觉,真实场景预测13帧 [14] 性能验证:域内任务 - **WidowX机器人**:在4项任务(如放置、堆叠)上平均成功率达到53.1%,远超基线模型RT-1-X(1.1%)和Octo-Base(17.0%) [15] - **Google机器人**:在VA协议下平均成功率达到62.8%,优于CogACT(61.4%)和π₀(43.4%)等先进模型 [15] - **Realman机器人**:在真实世界“放置”任务中平均成功率达到56.3%,显著高于OpenVLA(14.6%)和SpatialVLA(10.4%) [15] 性能验证:泛化能力 - **未知物体操控**:在YCB和GSO数据集的10种未训练物体上,平均成功率达到65.2%,在8种物体上排名第一,远超OpenVLA(6.4%)和SpatialVLA(50.8%) [16] - **跨机器人技能迁移**:将WidowX机器人的8种未训练技能迁移到Google机器人,平均成功率达到48.6%,比第二名CogACT(20.4%)高出28.2个百分点 [18] 关键发现与消融实验 - **视觉想象与执行强相关**:未知物体场景中,视觉想象成功率84.0%,实际执行成功率65.2%;新技能场景中,视觉想象成功率63.4%,实际执行成功率48.6% [19][23] - **运动轨迹相似度分析**:当视觉想象与实际执行的keypoint轨迹相似度高于0.6时,任务成功率超过80% [21] - **预训练骨干网络价值**:使用CogVideoX-5B预训练模型性能达80.4%,比从零训练(12.6%)提升6倍 [22][25] - **预测帧数影响**:预测49帧(80.4%)优于25帧(77.4%)和13帧(75.2%),更长时间视野提升规划准确性 [24][25] - **双预测策略核心作用**:仅预测动作时平均性能降至25.5%,无视频损失时降至27.0%,验证双目标协同的必要性 [25] 当前局限与未来方向 - **当前局限**: - 推理速度:单H100 GPU推理约1.1秒/步,控制频率3Hz,难以满足高速操控 [28] - 长序列任务:复杂多步骤任务的规划能力仍需提升 [28] - 小物体处理:微小物体在遮挡场景下的抓取成功率较低 [28] - **未来方向**: - 模型轻量化,优化视频生成骨干网络以降低计算开销 [28] - 采用单步去噪等技术减少扩散步骤,提升推理速度 [28] - 引入触觉、力反馈等多模态传感器信息,增强物理交互精度 [28]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 10:01
文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化(SRPO)”的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果,包括在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能提升167%,并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括:1)提出SRPO框架,缓解奖励稀疏性问题并消除对专家示范的依赖 [10];2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限 [11];3)实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),并引入世界模型驱动的任务无关奖励建模机制,为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步:1)将轨迹观察序列编码为世界模型潜空间表征 [20];2)对成功轨迹的潜在表征进行聚类,获得代表性中心以捕捉关键行为模式 [21];3)计算失败轨迹表征到最近成功中心的距离,并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数,并添加KL散度正则项以保持策略稳定性,利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中,仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率,超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言,仅用200步强化学习,模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面,对于LIBERO长时序任务,初始模型One-shot SFT成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比同期GRPO性能提升15.3%,相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中,将SRPO的奖励建模应用于开源模型,在五个真机任务上,模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外,SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态,展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现,SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案,后者需要针对每个任务收集数据并微调价值模型,而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段,向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径,有望降低机器人智能化的开发门槛和成本 [56]
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 10:01
文章核心观点 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出了一种名为UNeMo的新型视觉-语言导航框架,该框架通过构建“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,解决了现有方法中推理与决策脱节、资源消耗高的关键瓶颈,在导航成功率、效率和长轨迹鲁棒性方面均实现了显著提升,为服务机器人等实际场景落地提供了高效方案 [1][3][4][10][33] 技术架构与核心突破 - **核心架构**:UNeMo框架的核心是“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定 [10] - **多模态世界模型**:基于条件变分自编码器构建,能够接收当前视觉特征、语言指令与候选导航动作,通过跨注意力机制融合多模态信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [11][12][13] - **分层预测反馈导航器**:采用两阶段分层机制,首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [16] - **动态闭环优化**:框架构建了“推理-决策”相互赋能的闭环,世界模型的视觉预判提升决策精准度,导航执行结果实时反馈优化模型预测准确性,实现持续迭代 [18][19][20] 性能表现与效率优势 - **资源消耗大幅降低**:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [23][24] - **核心性能指标领先**:在R2R数据集未见过的测试环境中,UNeMo的导航成功率达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率从60%提升至61.3% [25][26] - **长轨迹导航优势突出**:在长路径导航任务中表现尤为突出,对于路径长度≥7的长轨迹,导航成功率大幅提升5.6%,提升幅度是短路径的4.7倍,有效缓解了长距离导航中的累积误差 [27][28][29] 通用性与可拓展性验证 - **跨基线验证**:团队将UNeMo架构迁移至DUET等不同类型的导航基线进行验证,证明了其协同训练架构并非局限于LLM-based基线,能灵活适配不同类型的导航系统 [30][32] - **跨数据集验证**:在目标导向导航数据集REVERIE上的实验显示,UNeMo在未见过的场景中的导航成功率与远程目标定位成功率指标上均有提升,验证了其强可拓展性 [31][32]
全部超越了π0、π0.5!端到端全身VLA模型Lumo-1:迈进推理-行动闭环时代
具身智能之心· 2025-12-11 10:01
文章核心观点 - 星尘智能公司推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其能够处理多步骤长时序任务、理解抽象模糊指令并泛化至未见过的场景,在多项基准测试和真实任务中超越了当前主流先进模型[7][9][11] 技术方案:Lumo-1模型架构与训练 - 模型采用三阶段训练架构:第一阶段为具身化视觉语言模型预训练,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[15];第二阶段为跨本体联合训练,融合多机器人、多视角轨迹与VLM数据,强化指令跟随与空间推理能力[16];第三阶段为基于绳驱机器人Astribot S1高质量真机轨迹的推理-动作训练,学习真实世界的可执行动作模式[16] - 训练最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的原始表现[18][27] - 训练策略验证了数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向[28] 核心技术创新 - 引入动作空间建模,将连续动作轨迹压缩并聚类成紧凑的“动作单词”token,能像组合句子一样复用和组合动作,比FAST与分桶方法更紧凑稳定,减少了数据收集引入的无关噪音[19] - 采用结构化推理,将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将2D视觉理解映射为3D控制路径点[22][23] - 模型展现出强大的抽象概念推理与实时决策能力,例如理解“代表爱情的花”指代玫瑰,或当左臂遇障时实时推理并切换为右臂执行任务[23][25] 性能表现与成果 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,模型优势更为明显[9][11] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后未损害核心多模态感知与推理能力[29] - 在真实环境部署中,机器人S1展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,或准确识别从印刷体换成手写体的菜单并进行食材配对[29] 行业意义与影响 - 该研究标志着机器人从依赖“轨迹记忆”和“动作库”模仿,向具备“理解烹饪原理”般的多层次推理能力演进,使机器人能理解任务意图、拆解子任务并规划运动路径[6][10] - 技术方案解决了当前主流视觉-语言-动作模型在开放环境中的三大缺陷:抽象概念失效、环境泛化困难以及长时序任务易崩溃[6] - 通过将大模型“心智”与高质量真机训练结合,实现了“心手合一”,让推理能直接转化为丝滑的全身操作,推动了具身智能向更通用、更智能的方向发展[7]
某机器人具身团队VLA算法专家/RL专家招募!薪资open~
具身智能之心· 2025-12-10 18:00
公司概况与市场地位 - 公司成立于2016年,专注于家用机器人领域,连续三年入选中国科技机器人企业50强,连续五年登上胡润全球独角兽企业榜 [2] - 国内市场已覆盖全国超20个省份、70个城市,授权零售网点超500个 [2] - 全球化进程加速,产品已进入全球50多个国家和地区,包括北美、欧洲、日韩、澳大利亚、东南亚等市场 [2] - 在欧洲已合作进入超5000家线下门店,在北美已进入Best Buy、Costco等大型KA近300家线下门店 [2] - 全球用户突破400万 [2] - 2025年第二季度,公司扫地机器人全球出货量达52.42万台,以8.5%的市场份额首次位居全球第五 [2] 业务发展与技术布局 - 公司正在积极招募具身智能算法与机械臂规划算法专家,表明其正致力于研发面向真实环境的复杂物理任务解决方案 [2][4] - 技术研发聚焦于双臂机器人完成复杂物理任务的多模态决策模型,特别是视觉-语言-动作基础大模型的落地 [5] - 研发工作涵盖从数据采集、算法设计、模型训练到工程部署的端到端系统级解决方案 [5] - 持续探索多模态大模型在具身智能领域的创新应用,并推动前沿技术从实验室到实际场景的转化 [5] - 机械臂规划算法开发面向规模化量产需求,旨在打造高可靠、高适配的解决方案 [7] - 规划算法开发重点覆盖机械臂操作规划、动态避障规划、QP规划、轨迹平滑及奇异规避等关键技术 [8] - 通过仿真环境进行算法验证,并解决从仿真到真实机械臂部署中的迁移问题 [8] - 注重感知-规划全技术栈协同,融合多模态感知数据优化规划精度,并确保算法从研发到量产的顺利落地 [12] 人才与研发要求 - 寻求具身VLA/多模态大模型算法专家,要求硕士及以上学历,具备机器人学习、深度学习、模仿学习等核心算法基础 [7] - 候选人需精通Python,熟悉PyTorch/TensorFlow等框架,并有多模态大模型在机器人感知、操作、导航等方向的研发落地经验 [7] - 具备在机器人、机器学习、计算机视觉等相关顶级会议期刊发表论文或开源项目贡献为加分项 [7] - 寻求机械臂规划算法专家,要求控制相关方向硕士及以上学历,社招需3年以上相关经验,校招需博士学历 [13] - 候选人需熟悉机器人技术栈,精通机械臂运动学与正逆解,具备MoveIt、Pinocchio等工具使用经验 [13] - 要求熟练使用C++/Python,具备ROS/ROS2开发经验,并有Isaac Sim、MuJoCo等仿真工具使用经验 [13] - 社招需具备量产功能交付经验,校招需有算法创新与复现能力 [13]
担心买得起机械臂,不会用?小白+科研友好型的臂来啦~
具身智能之心· 2025-12-10 18:00
产品定位与目标客群 - 产品是一款面向具身智能科研领域的轻量级高性价比机械臂,旨在解决该领域硬件选择中“太贵买不起,太便宜难用难上手”的痛点 [5] - 产品专为新手和科研初学者设计,目标客群包括学生、教育工作者以及刚踏入机器人领域的开发者,旨在帮助他们低成本、高效率地完成算法验证与项目开发 [5][6] 核心价值主张与工作流优化 - 传统具身科研实战中,约70%的时间耗费在调试硬件通信、校准传感器以及在仿真与真机间手动移植代码,算法迭代一次需数天才能看到真实效果 [1] - 该产品通过提供全流程工具链,将工作流优化为:在Gazebo中快速仿真验证算法逻辑,一键将程序部署至真机进行调优,从而实现从“灵感”到“物理动作”的高效多次迭代 [2] - 产品重新定义了“轻量级”,不仅指物理结构轻巧(本体重量4.2KG),更指研发负担的“轻盈” [3][11] 产品关键性能参数 - **机械臂本体**:重量4.2KG,额定负载3KG,6个自由度,工作半径612.5mm,重复定位精度±0.1mm [11][22] - **运动性能**:关节运动最大速度在180°/s至220°/s之间,关节运动范围覆盖各轴特定角度区间 [11][24] - **电气与接口**:供电电压24V,通讯方式为CAN,外部接口为电源+CAN XT30 2+2,控制方式支持轨迹跟踪、示教和API [11][22] - **安装与材质**:底座安装尺寸为90mm*90mm*M5*4,主要材质为铝合金和树脂 [11][22] 核心产品优势与功能 - **全流程开源工具链**:提供从数据采集、模型训练到推理部署的全流程工具链和代码示例(目前开放ACT算法示例),支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [7][20][39] - **仿真与真机无缝联调**:提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,可一键将仿真验证后的程序部署至物理设备 [7][20][25] - **多语言与开发框架支持**:提供Python和C++双语言开发接口,同时兼容ROS1和ROS2开发框架 [7][21][22] - **完善的SDK与生态**:提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [32][33] - **持续升级与售后支持**:承诺后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级,并提供24小时快速响应的售后和生态服务 [7][22] 适配与兼容性信息 - **计算配置**:机械臂的SDK和MoveIt等对电脑配置要求不高,但其适配的ALOHA ACT算法在NVIDIA 4060显卡上即可完成训练和推理 [53] - **视觉传感器**:目前已适配的相机包括Intel RealSense D435系列和奥比中光DCW2 [53] - **开源模型**:用户可自行微调所有开源模型,产品目前已开源适配LeRobot和ACT,并计划逐步适配并开源RobotWin、Pi0等模型 [53]
端到端全身VLA模型Lumo-1:让机器人心手合一,迈进推理-行动闭环时代
具身智能之心· 2025-12-10 18:00
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理世界中的推理与操作能力,使其在多步骤长时序任务、精细灵巧操作和泛化抓取放置等核心任务上超越了π0、π0.5等先进模型,尤其在处理未见过的物体、场景和抽象指令时优势明显 [7][9][11] 技术方案与模型架构 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,其训练结合了具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方法 [7] - 模型采用三阶段训练架构:第一阶段为具身化VLM,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型 [15];第二阶段为跨本体联合训练,强化指令跟随与空间推理能力 [16];第三阶段为利用绳驱机器人Astribot S1的示教轨迹进行真机推理-动作训练 [16] - 最后通过强化学习推理-行动对齐,设计多维度的奖励信号来校准高级推理与低级动作之间的误差,从而在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现 [18][27] 核心技术创新 - **动作空间建模**:通过空间动作分词器将连续动作轨迹转化为可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音 [19] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使机器人从“执行动作”转变为“执行想法” [22][23] - 结构化推理能力使机器人能理解抽象语义与文化隐喻,例如将玫瑰识别为“代表爱情的花”,或将“KFC里的东西”推理为炸鸡和汉堡 [23] - 该设计支持灵活的实时决策,例如在“把可乐放到盘子上”任务中,当左臂路径遇障时,机器人能自主推理并切换为使用右臂 [25] 性能表现与验证 - 在**多步骤长时序**、**精细灵巧操作**、**可泛化抓取放置**三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型 [9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,Lumo-1的优势更为明显 [9][11] - 在7个多模态基准测试中,有6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B [29] - 通过数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向 [28] - 在真实环境验证中,S1机器人展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并精准配对食材 [29] 机器人任务能力展示 - 机器人能够完成“热面包”等复杂长时序任务,通过推理识别物体、理解“加热”需用微波炉,并自主完成开门、放入、旋钮、取出等一系列操作 [4] - 能够执行“整理文具”任务,在混乱桌面中快速找齐并精细处理不同形状、材质和尺寸的物品 [4] - 能够处理需要抽象推理的任务,例如“把可以画海洋的文具放到绿盘子里”,并准确找到蓝色的画笔 [23] - 机器人具备四类推理能力:抽象概念推理、子任务推理、视觉观测描述以及运动推理 [30]
突破空间泛化瓶颈:MOVE技术让一条轨迹顶N条用,泛化能力暴涨 76%
具身智能之心· 2025-12-10 08:03
文章核心观点 - 由北京智源人工智能研究院、清华大学、东南大学等机构团队提出的MOVE技术,通过让数据“动起来”的动态采集范式,从根本上解决了机器人因环境变化(如物体位置、相机视角改变)而“水土不服”的泛化能力痛点,实现了用更少数据获得更强性能的突破 [2][5][19] 技术原理与创新 - MOVE技术的核心理念是让关键物体在数据采集过程中“动起来”,使一条训练轨迹包含无数种空间状态,从而大幅提升数据效率 [2] - 技术通过三类可控的运动增强来实现动态数据采集:物体平移(让待抓取物体和目标落点沿线性轨迹移动并反弹)、物体旋转(控制不对称物体如带把手杯子匀速旋转)、相机运动(在仿真环境中让相机沿圆柱形路径移动)[7][8] - 技术团队还会根据任务语义(如抓取阶段、放置阶段)拆分轨迹并针对性施加运动,使机器人在动态中学习分阶段适配策略 [8] - 一条MOVE轨迹从孤立的“空间点”变为包含丰富空间配置信息的“空间曲线”,实现了数据采集范式的根本性革新 [9][18] 性能表现与数据 - **模拟环境测试**:在Meta-World基准的10个操控任务中,采用MOVE技术的机器人平均成功率达到39.1%,相比传统静态采集的22.2%,相对提升高达76.1% [12] - **真实场景测试**: - 在橙子抓取放置任务中,2万步的MOVE数据集性能可媲美5万步的静态数据集 [14] - 在装配任务中,5万步的MOVE数据集可达到10万步静态数据集的效果 [14] - **泛化能力测试**:在未训练过的区域(圆圈外),MOVE的成功率达到67.4%,远超传统方案的44.6% [14] - **数据效率优势**: - 仅用3.5万步数据,MOVE的成功率就达到23.3%,而传统静态采集需要7.5万步才能达到同等水平 [21] - 当数据量提升至7.5万步时,MOVE的成功率飙升至36.7%,其任务完成度综合评分达到0.522,远超传统方案的0.389 [21] 技术对比优势 - 相较于2025年3月提出的ADC(对抗式数据采集)方法,MOVE实现了更根本性的革新 [16][18] - ADC是对静态数据采集的“局部优化”,主要依靠离散位置重置来缓解数据稀疏问题 [18] - MOVE凭借连续动态增强、多维度组合扰动、分阶段任务适配等设计,实现了空间信息密度与泛化能力的跨越式提升 [18] - 在Pick&Place、Push、Assembly等10项典型任务中,MOVE将机器人平均成功率从ADC方案的0.276提升至0.391 [20] 行业意义与影响 - MOVE技术重构了机器人数据采集范式,从“静态单点采样”转向“动态连续采样” [19] - 该技术能大幅降低机器人在家庭、工厂、物流等真实场景落地的成本和门槛,因为它无需耗费大量资源采集海量静态数据,仅通过动态增强就能让机器人适应多变环境 [22] - 技术为机器人的空间泛化能力打开了新的想象空间,推动机器人摆脱“实验室依赖”,迈向通用具身智能 [22]