具身智能之心
搜索文档
人形机器人与强化学习交流群来啦~
具身智能之心· 2026-01-20 17:30
具身智能之心人形机器人与强化学习技术交流群成立了,欢迎从事RL、人形机器人相关方向的同学加入。 感兴趣的同学添加小助理微信AIDriver005,备注"方向+机构+姓名/昵称"。 ...
VLA任务的成本马上被干到了白菜价......
具身智能之心· 2026-01-20 17:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 刚出差回来,再次被一条臂的成本惊叹,电机臂的价格,被干到5000元以下了。这是继上次5888元之后 的更低价格。 2年前,如果想做vla任务,一些厂商的产品动辄单臂3w+; 1年前,具身正在逐渐走向大众,相关产品层出不穷,单臂也降到1.5w左右; 而如今,一条能用的具身科研臂5k以下了,你可以轻松实现pi0、pi0.5等各类vla任务。 那还有更低成本的机械臂可以用来做vla任务吗? 最近,不少同学想要复现各类vla任务,但苦于"成本太高"一直吐槽。 有同学问开源的低成本机械臂可以用吗?可以是可以,但大多数初学者"调不出"效果。数据采不好,效果训 不出,action总感觉很奇怪。 一些同学相当多的时间"浪费"在踩坑上了。 想要把数据、VLA模型、训练优化、部署一整套任务打通,对很多初学者来说非常困难。特别是π0和π0.5、 GR00T这类模型,无论是数据的采集,还是模型的训练都有很多"trick"。 很多同学想低成本完成各类vla任务,预算不够也能入坑。 这一点,我们做到了! 对于更新较快的技术路线,如何有效学习VLA难倒了相当多的同学,很多人即使手上拿着真 ...
你的模型真的能打吗?操作任务的长尾场景评测来了
具身智能之心· 2026-01-20 08:33
文章核心观点 - 上海交大等研究团队提出GM-100基准测试,旨在解决当前机器人学习领域数据集任务设计单一、评估标准不统一的问题,通过100项多样化、具挑战性的任务全面评估机器人智能体能力,并推动行业向任务多样化与复杂化发展 [1][4] 现有机器人数据集与评估的局限性 - 当前主流数据集如Open X-Embodiment整合了22种机器人、160,266项任务,Agibot收集了超过100万条轨迹,RoboCOIN为421项任务提供了18万余条演示数据,但任务设计多集中于“拾取并握持”等常见行为,缺乏对复杂和长尾任务的覆盖 [3] - 任务设计的单一化导致训练出的模型存在显著偏差,作为预训练模型时,在真实场景中的适用性受限 [3] - 多数研究在提出新方法时,仅在少数常见任务上测试,且缺乏统一标准,使得不同研究成果之间难以进行公平对比 [3] GM-100基准测试的设计理念与方法 - GM-100包含100项精心设计的任务,旨在涵盖各类交互场景与长尾行为,其设计基于对现有任务设计的系统性分析与扩展,并结合了人类-物体交互基元与物体功能特性的相关洞见 [1][4] - 任务设计不以真实世界任务的实用性为标准,而是将物理常识与底层操作知识作为生成与筛选任务的唯一准则,以避免人为偏差 [4] - 设计过程首先收集并分析现有研究(如Agibot、Open X-Embodiment)的任务,去重分类后,参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,利用大型语言模型(如Qwen3)自动生成大量候选任务,再通过模型评分和五名人类专家筛选,最终确定高质量、可执行的任务 [9][10] GM-100的数据收集与实验设置 - 通过遥操作方式在GM-100任务上收集了一个中型数据集,包含超过13,000条轨迹 [11][13] - 数据收集在两款不同的机器人平台(Agilex Cobot Magic和Dobot Xtrainer)上进行,两款平台具有不同的运动学结构、双臂设计和主相机视角,以提供多样化数据 [14] - 对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,以确保多样性,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐 [17] - 为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP以及多个视觉-语言-动作模型,VLA类模型基于每个任务收集的100条轨迹进行微调 [18] GM-100的评估结果与特性 - 实验结果表明,GM-100的任务具备可执行性以及足够的挑战性,能够有效区分当前视觉-语言-动作模型的性能 [2][4] - 在Xtrainer平台的实际场景性能评估中,不同模型的平均成功率(SR)在1.6%至53.9%之间,部分成功率(PSR)在4.4%至32.1%之间,整体成功率较低,凸显了任务的固有挑战性 [20] - 评估采用了成功率、部分成功率和动作预测误差(均方误差和L1损失)等多个指标,以全面反映模型性能 [22]
机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务
具身智能之心· 2026-01-20 08:33
文章核心观点 - 加州伯克利和马里兰大学联合推出的MomaGraph技术,通过“先图后规划”的创新思路,显著提升了家用机器人在复杂家庭环境中理解和执行任务的能力,使其告别“人工智障”时刻[1] - 该技术结合了统一的空间与功能关系理解、动态状态更新以及任务导向的信息筛选,并在星动纪元星动Q5轮式人形机器人上成功验证,完成了开柜子、开微波炉等真实家务,标志着家用服务机器人向实用化迈出关键一步[1][11][27] 研究背景:家用机器人的传统技术卡点 - **卡点1:只知空间关系,不知功能关系**:传统技术仅能识别物体位置(如“窗户在书桌右边”),但无法理解物体的功能(如“窗户把手能控制开关”),导致机器人知道目标在哪却不知如何使用[4] - **卡点2:静态场景理解,忽略状态变化**:传统模型将场景视为静态图片,无法感知和更新机器人操作后引发的物体状态变化(如窗户从“锁着”变为“待打开”),导致后续规划错误[5] - **卡点3:步骤规划缺失关键前提**:过去的AI(如GPT-5)直接从图像推断任务步骤,常遗漏关键前提条件(如“烧开水”漏掉“插电源”),而人类会先确认前提再规划[6] 突破思路:任务导向的场景图 - 研究团队提出“Graph-then-Plan”核心思路,即让机器人先构建一张名为“MomaGraph”的任务导向场景图,再基于此图规划执行步骤[8] - 与传统“看到图片直接猜步骤”的方法不同,MomaGraph要求机器人先厘清场景中“有什么、怎么用、状态如何”,再进行规划,类似于人类执行任务前的准备工作[9] 研究方法:全链条技术方案 - **构建统一场景图**:MomaGraph同时整合物体的空间关系(如“把手在窗户右侧”)与功能关系(如“把手能控制窗户开关”),并动态更新状态,且仅保留与任务相关的信息[10] - **建立训练数据集**:团队创建了MomaGraph-Scenes数据集,包含6278张多视角家庭照片和1050个任务场景图,覆盖超过350个家庭场景和93种任务,作为机器人的“家务课本”[12][14] - **训练核心模型**:基于70亿参数的Qwen-2.5-VL-7B视觉语言模型,通过强化学习训练出MomaGraph-R1模型,其能根据任务生成精简有用的场景图,并通过步骤正确性、物体覆盖率和关系准确性三个标准进行评分优化[14][15] - **设立评估基准**:设计了MomaGraph-Bench基准,包含6种能力测试,覆盖从简单到复杂共4个难度等级的任务,以全面评估机器人能力[17] - **硬件落地验证**:选择星动纪元星动Q5轮式人形机器人作为硬件平台进行真实场景测试,其双臂、移动底座和多视角相机(Intel RealSense D455)的组合,为MomaGraph的“大脑”提供了可靠的“手脚”执行能力[11][19][26] 研究结论:性能大幅提升 - **“先图后规划”策略显著优于直接规划**:在MomaGraph-Bench基准测试中,MomaGraph-R1模型的总体准确率达到71.6%,比当前最好的开源模型LLaVA-OneVision高出11.4%,并且能100%覆盖任务的前提步骤[23] - **统一理解空间与功能关系效果更佳**:在复杂任务(Tier 4)上,MomaGraph-R1(统一版)准确率为68.1%,显著高于仅看功能关系版本的59.0%和仅看空间关系版本的45.4%[25] - **在真实机器人上成功处理复杂任务**:使用星动Q5机器人成功完成了开柜子、开微波炉、开电视、关灯等任务,在更难的“开灯→找遥控器→开显示器”长任务中,10次测试成功7次[27] - **视觉对应任务表现突出**:MomaGraph-R1在BLINK基准和MomaGraph-Bench的对应任务中,性能分别比最好的开源模型高出3.8%和4.8%[29] 行业意义:推动家用机器人实用化 - MomaGraph技术解决了“机器人理解动态复杂家庭场景”的核心难题,使机器人从执行固定程序转变为能根据场景灵活调整策略[32] - 星动纪元星动Q5等执行硬件的成功整合,证明了该技术已具备从实验室走向真实家庭应用的潜力,为家用服务机器人实现烧水、整理、备餐等实用功能提供了清晰的技术路径[33]
具身基座模型的曙光初现,全球最强跨本体VLA来啦!
具身智能之心· 2026-01-20 08:33
文章核心观点 - 一款名为Being-H0.5的模型通过整合全球主流机器人构型数据,打破了具身智能领域依赖单一本体数据积累的“马太效应”行业逻辑,展现出惊人的跨本体泛化能力[3] - 该模型的核心突破在于构建了全球规模最大的跨本体训练数据集UniHand-2.0,并创新性地采用了以人为中心的训练范式,将人类视频作为所有下游机器人的“原型模板”[6][11][13] - 在真机验证和基准测试中,模型性能超越了当前已知的VLA模型,其成功可能为行业开启一个打破数据壁垒、降低开发成本的泛化新时代[18][19] 根据相关目录分别进行总结 构建全球规模最大的训练数据集UniHand-2.0 - 数据集涵盖超过14,000小时的机器人操作数据与16,000小时的人类视频数据,总训练token数突破4000亿,规模达到Qwen2.5-VL的十分之一[6] - 首次实现了跨本体的大规模数据融合,汇集了超过30种不同硬件构型的数据,解决了以往异构本体数据难以统一训练的挑战[8] - 创新性地提出了统一动作空间框架,将双足人形、轮式底盘、桌面机械臂等形态各异的机器人映射到同一特征表示空间,支撑跨本体联合训练[10] 以人为中心的训练范式 - 在上一代H0基础上,将人类视频训练数据提升了2个数量级,通过16,000小时的庞大体量构建了全球最大的人类视频数据集[11] - 设计了一套名为UniCraftor的便携、可扩展、低成本的人类视频采集系统,以解决人类视频普遍缺乏高质量标注的痛点[11] - 人类视频蕴含海量即兴意图,覆盖了下游场景几乎所有任务类型,能有效避免模型在预训练过程中坍缩到单一的低维流形,实现跨本体泛化[13] - 人类视频蕴含丰富的物理与空间先验信息,赋予了模型仅靠实验室数据所不具备的场景泛化能力[14] 模型架构与技术方法 - Being-H0.5是一个专门的专家混合模型,解耦了多模态理解与动作生成功能,同时通过共享的注意力机制保持两者的耦合[17] - 通过一个统一的状态-动作空间,将人手动作和多样化的机器人控制映射到语义对齐的槽位,支持跨实体形态的预训练[17] - 预训练将多模态数据序列化为统一的问答式格式,并将每种模态分配给相应的专家分支[17] - 采用“混合流”设计,结合共享的基础层与用于特定实体形态/任务动态的路由式专用专家,实现了动作生成能力的扩展[17] 真机验证与基准测试结果 - 在PND、G1、Franka等不同构型的人形机器人、机械臂本体上进行了大量真机实验,模型展现出卓越的跨本体与复杂任务执行能力,例如完成“用按压喷壶浇花”这类以往夹爪式机器人难以实现的操作[18] - 在LIBERO、RoboCasa等广泛使用的评测基准上,模型在仅依赖模仿学习与纯RGB视觉输入的条件下,平均取得了98.9%与54%的成功率[18] - 该性能超越了π-0.5、GR00T等所有已知VLA模型,甚至优于部分借助强化学习与3D模态的方案[18] 行业影响 - Being-H0.5的出现对国内外绝大多数具身公司而言是一大利好,本体公司可能不再需要投入上亿成本自建数据采集中心、依靠自身本体数据构筑算法护城河[19] - 该模型为“如何适配不同构型本体、获取高质量数据”这一行业难题提供了一个答案,即人类本身才是最大、最自然的数据来源[19]
星尘智能x清华x MIT发布CLAP框架!让机器人看视频学操作技能
具身智能之心· 2026-01-20 08:33
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 近日, 星尘智能与清华、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。 这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能! 论文地址 :https://arxiv.org/abs/2601.04061 长期以来,机器人学习面临着一个令人头疼的"数据饥荒"难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。这种数据不对 称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人类行为视频数据 虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。 现有的潜在动 ...
遥操数据没采好,对后续影响有多大?
具身智能之心· 2026-01-19 17:30
行业现状与核心痛点 - 视觉-语言-动作模型是当前具身智能领域的关注焦点,在学术界和工业界均受到高度重视 [1] - VLA模型的性能上限高度依赖于数据采集的质量,高质量遥操作数据是模型有效性的基础 [2] - 行业在复现主流模型时面临数据采集困难的核心挑战,仿真数据与真机存在巨大差距,导致模型在仿真中表现良好但在真机上失效 [3][5] - 专业级遥操作设备成本高昂,动辄数万元人民币,对普通学生和初创团队构成资金门槛 [5] - 技术全链路存在断层,从业者常面临从机械臂控制到数据格式对齐的完整流程挑战 [5] 课程解决方案与核心亮点 - 课程定位为国内首个具身数采与遥操算法全栈课程,注重实战与手感,旨在帮助从业者节省摸索时间 [3] - 采用软硬结合的教学方式,同时覆盖MuJoCo仿真环境与真机实操,基于主流LeRobot框架教授工业标准数据集的采集方法 [7][8] - 引入自研手持夹爪遥操硬件方案Ringo,以解决遥操作中视角与控制不统一的痛点,实现更精准的TCP坐标转换与重定向 [9] - 课程内容设计实现全场景覆盖,从单臂操作延伸至双臂协同、力反馈采集及全身动捕方案 [10][12] - 课程提供完整的项目经验,目标使学员能够独立完成从硬件组装调试到算法部署的全流程 [26] 详细课程大纲与内容 - **第一章**:涵盖遥操作技术概述、基础定义、经典系统架构、核心技术挑战以及主流数据采集方法,并对具身智能前沿VLA模型进行详解 [6] - **第二章**:聚焦于MuJoCo仿真环境,介绍物理引擎基础、仿真要素,并实现基于仿真的遥操作应用与数据采集 [6][11] - **第三章**:以SO-100系统为例进行真机演示,深入讲解关节同构遥操作原理及LeRobot框架的驱动与数据采集代码 [6][14] - **第四章**:作为高阶进阶内容,详细讲解TCP映射遥操作原理,并深入介绍自研Ringo硬件方案的结构、传感器选型、组装调试及与LeRobot框架的集成 [6][16][19] - **第五章**:涉及更复杂的数据采集场景,包括双臂协同遥操作的难点与常用方法,以及力反馈数据采集的意义与实现方案 [6][17][19] - **第六章**:讲解全身动捕方案,包括光学与惯性动捕系统原理、结构设计以及坐标重映射算法 [6][17] 课程安排与面向人群 - 课程计划于2026年1月30日开课,采用离线视频教学与VIP群答疑结合的模式,预计两个半月完成全部内容 [23][24] - 课程内容将按章节逐步解锁,从1月30日的第一章开始,至3月8日解锁第六章 [23] - 目标学员包括具身智能领域的求职者、科研院校师生、计划从其他领域转行的开发者以及对机器人DIY感兴趣的硬件发烧友 [26] - 课程旨在使学员成为能独立完成硬件组装调试、采集工业级VLA训练数据、掌握模型真机部署技巧的复合型人才,并积累完整的实战项目经验以助力求职 [26]
你的模型真的能打吗?上交发布了近百项场景的GM-100,操作任务的长尾场景评测来了
具身智能之心· 2026-01-19 17:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 现有数据集真的推动机器人能力提升了吗? 近年来,随着机器人学习和模仿学习的快速发展,各类数据集与方法层出不穷。然而,这些数据集及其任务设计往往缺乏系统性的考量与原则。这引发了两个关键 问题:现有数据集与任务设计是否真正推动了机器人能力的提升?仅通过少数常见任务的评估,能否准确反映不同团队提出的各类方法在不同任务上的差异化性 能? 为解决这些问题,上海交大等研究团队提出GM-100基准测试,将其作为迈向机器人学习奥林匹克盛会的第一步。GM-100包含100项精心设计的任务,涵盖各类交互 场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。这些 任务通过对现有任务设计的系统性分析与扩展,并结合人物交互基元与物体功能特性的相关insights开发而成。 本数据集在不同的 ...
普林斯顿近300篇工作的综述,这一领域是如何为具身提供低成本的训练和测试方案的?
具身智能之心· 2026-01-19 08:49
编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 在机器人领域,物理仿真器的保真度局限与语言模型的表达瓶颈长期制约发展,而视频生成模型凭借高保真时空建模能力,成为破解这些难题的核心突破口。 普林 斯顿大学与天普大学联合发表的综述论文 ,以 "模型基础 - 核心应用 - 挑战方向" 为逻辑脉络,首次系统梳理了视频生成模型作为嵌入式世界模型在机器人领域的研 究现状,构建了完整的技术体系与应用框架,为机器人智能化升级提供了全新范式。 核心亮点:首个机器人领域视频生成模型全面综述、四大核心应用场景、十大关键挑战、针对性未来方向 点击下方 卡片 ,关注" 具身智能 之心 "公众号 问题根源:传统方法的核心痛点 视频生成模型的崛起,源于对机器人领域现有技术瓶颈的精准破解,三大核心矛盾构成研究起点: 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) 技术基础:视频生成模型的核心架构与分类 视频生成模型通过学习时空映射关系实现物理世界高保真建模,其核心架构可分为三大类,构成技术落地的基础,整体研究框架如图 2 所示: 论文题目:Video ...
如果说今年哪个方向最受欢迎,一定是VLA+RL
具身智能之心· 2026-01-19 08:49
纯模仿学习的 VLA,本质是在"复制数据分布"。一旦环境、物体、初始状态发生变化,就容易崩。很多 失败是连续动作误差累积导致的。RL提供的是闭环优化能力:用环境反馈修正动作,用value/reward信号 约束长时序行为。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 paper多,想入坑的人也多了起来...... 最近有同学后台留言,导师不熟悉这个领域,都是自己趟坑,从硬件到数据,再到训练,一直跑不出效 果,也没好的idea~ 如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛,使机器人 能够应对更加开放和复杂的场景。 然而,在真实机器人系统中,VLA 往往仍然面临执行不稳定、对初始状态敏感 ...