Workflow
具身智能之心
icon
搜索文档
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练达到实际可用的鲁棒性水平
具身智能之心· 2025-11-18 11:38
RECAP方法概述 - Physical Intelligence团队提出RECAP方法,使视觉语言动作模型能够通过强化学习在现实部署中实现自我改进[4] - RECAP方法通过优势条件机制实现VLA模型的强化学习训练,整合异构数据到自我改进过程,包括演示数据、在线收集数据以及专家远程干预数据[4][7] - 该方法首先通过离线强化学习预训练通用型VLA模型,随后通过机器人现场数据收集实现下游任务的专业化性能提升[4] 技术实现细节 - RECAP方法包含三个核心步骤:数据采集、价值函数训练和优势条件训练,通过重复执行这些步骤优化基础VLA模型[11] - 在数据采集阶段,系统运行VLA执行任务并为每个任务周期标注结果标签,可选择引入人工干预来为早期迭代中的错误提供修正范例[12] - 价值函数训练利用收集的全部数据训练大型多任务价值函数,该函数能检测故障并预估任务完成所需时间[13] - 优势条件训练在VLA前缀中加入基于价值函数推导优势值的最优性指标,提供从次优数据中基于价值函数提取更优策略的有效方法[13] 模型架构改进 - 基于VLA模型实例化RECAP,该模型是在基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制[8] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略[8][14] - 基础视觉语言模型采用Gemma 3 4B模型,动作专家的规模增加到860M参数[19] - 价值函数采用670M参数视觉语言模型backbone,从Gemma 3初始化,并在少量多模态网络数据的混合集上联合训练以防止过拟合[20] 实验性能表现 - 在衣物折叠、咖啡制作和纸箱组装任务中,采用完整RECAP方法训练的模型实现任务吞吐量提升超过两倍[4][29] - 在高难度任务中,RECAP将任务失败率降低约50%,相当于故障率降低超过两倍[4][31] - 模型达到实际可用的鲁棒性水平:成功部署连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断[10] - 在工厂场景中组装实际包装所用纸箱的任务也展示了稳定的成功率表现[10][31] 训练流程优化 - 预训练阶段在多样化多任务多机器人数据集上进行离线强化学习,该数据集包含来自大量任务和不同机器人的数万小时示范数据[8][13] - 部署阶段采用迭代式离线更新模式,收集数据批次后重新训练模型并循环进行,而非实时更新策略与价值函数[23][37] - 价值函数和策略均从预训练检查点微调,而非上一轮迭代的模型,这有助于避免多轮迭代中的漂移[23] - 即使一轮迭代也能带来显著的结果改进,但随着RECAP方法迭代次数的增加,任务吞吐量实现持续提升[23][31]
开箱子,叠毛巾!从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-18 11:38
支持pi0部署了~ 最近刚把pi0任务打通,代码也会对客户正式开源,助力大家加速具身科研落地。感兴趣的同学可以关注下 ~ 面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2,并提供 URDF 模型,仿真与真机无缝切换; ✅ 24小时快速售后响应,遇到问题不卡壳,学习路上有保障! 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全 流程开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 | 重量 | 631g | | --- | --- | | 尺寸 | ...
大多数开始具身研究的同学卡在了这些地方.......
具身智能之心· 2025-11-18 11:38
社区技术进展与成员表现 - 部分成员采用低成本硬件方案取得良好效果,已成功部署act和pi0模型 [1] - 部分成员在算力、数据采集、模型优化和项目实战方面遇到障碍 [1] - 针对算力不足问题,社区分享轻量化方法可实现SOTA性能 [1] - 数据采集建议从遥操作入手,重点关注数据质量,噪声数据影响模型效果 [1] - 数据量不足时可尝试real2sim2real方法,机械臂用户可采用RL+VLA方案 [1] - 人形和高自由度本体不建议轻易尝试RL+VLA方案,效果难以实现 [1] 社区资源与服务体系 - 社区已建立技术路线分享、直播、问答、求职、赛事等多版块,形成产业、学术、求职闭环 [2] - 提供持续直播分享,涵盖本体、数据、算法等领域,探讨行业问题与发展方向 [4][5] - 汇总近40+开源项目、60+数据集、主流仿真平台及各类技术学习路线 [12] - 建立与多家具身公司的岗位内推机制,帮助成员对接心仪公司 [11] - 社区成员近3000名,来自斯坦福大学、清华大学等200家高校及机器人公司 [11][12][81] 技术专题研究内容 - 数据采集专题包括遥操作算法与硬件、RoboTwin 2.0数据生成器等研究方向 [6] - 灵巧手专题涵盖视觉语言动作模型、硬件设计、触觉传感器等5个子领域 [6] - VLA模型专题包含交错图文指令框架、泛化差解决方法、安全建模等5项内容 [6] - 具身世界模型专题涉及4D世界模型EnerVerse、空间泛化智能等4个前沿方向 [6] - 大模型技术专题覆盖推理加速、微调、部署框架等6个关键技术点 [6][52][62] 行业知识库建设 - 汇总国内外具身智能高校实验室信息,助力成员学术深造 [14] - 整理国内外机器人公司资料,覆盖教育、工业、医疗等应用方向 [17] - 汇集机器人导航、动力学、路径规划等基础理论书籍PDF资源 [23] - 整合机器人零部件品牌,包括芯片、激光雷达、相机等供应链信息 [25] - 建立仿真平台、ToF相机、数据采集方案等工程实践数据库 [27][29][31][35]
人形机器人赛道,早已挤满车企
具身智能之心· 2025-11-18 08:46
车企入局人形机器人赛道概况 - 一场由车企深度参与的机器人竞赛已拉开帷幕,已有广汽、上汽、比亚迪、长安、奇瑞等十余家车企涌入人形机器人赛道 [2][3] - 海外市场特斯拉、宝马等也提出了自己的人形机器人思路 [2] - 车企集体杀入机器人赛道是产业升级与技术演进的必然结果,也是新能源资本故事退潮后市场亟需的新估值锚点 [2][15] 主要车企的战略布局与进展 - 特斯拉CEO马斯克称人形机器人Optimus预计市场规模达数十亿台 [4] - 小鹏汽车计划在2026年底实现人形机器人IRON的规模化量产 [5] - 广汽计划在2025年实现自研机器人零部件的批量生产,2026年实现整机小批量生产 [6] - 奇瑞将机器人业务视为公司的第二增长曲线 [6] - 多家车企已将机器人应用于总装车间、质检区等复杂场景,实现大负载搬运、精密装配等多任务协同作业 [6] 车企布局机器人的战略分类 - 布局机器人赛道的汽车公司可分为四大类:自主研发派、投资与收购派、场景驱动派、投资+自研派 [7] - 特斯拉、小鹏、广汽为自主研发派,强调底层技术复用与协同 [7] - 现代、宝马、上汽为投资与收购派,通过投资收购快速补齐技术短板 [7] - 比亚迪为投资+自研派,兼具自研与投资特点 [7] - 北汽、奇瑞为场景驱动派,与合作方研发定制化机器人 [8] 汽车零部件产业链上游的跟进 - 2025年以来,A股近30家汽车零部件公司设立机器人子公司,瞄准核心零部件、灵巧手、传感器等关键环节 [9][10] - 例如金固股份注册全资子公司作为拓展具身智能业务的核心平台 [11] - 拓普集团投资50亿元建设机器人电驱系统生产线,年产能为30万套电驱执行器 [13] - 电驱执行器是机器人核心零部件,单机价值约数万元人民币 [13] - 雷迪克通过收购傲意科技20.41%股权,补齐灵巧手的关键生产能力 [14] 车企入局机器人的驱动力与挑战 - 车企布局机器人的核心初衷是应用于自身生产线以实现提效降本,并灵活应对市场产能波动 [6] - 汽车零部件和机器人零部件的技术同源性是车企入局的底气所在 [14] - 汽车行业竞争加剧导致零部件企业主业毛利率下降,布局机器人是为寻找增量 [14] - 车企对非结构化人机交互场景理解有限,在动态平衡、精细操作等关键环节尚处追赶阶段 [15] - 工业机器人核心零部件加速国产化,为跨界企业带来更激烈的市场竞争 [15] 资本市场视角与竞争关键 - 人形机器人仍处于技术验证与商业模式探索阶段,技术路线未收敛 [16] - 对于多数年营收达数十亿的上市企业,布局机器人更多承载着市值管理的战略意图 [16] - 胜负的关键已不在于某一单项技术的突破,而是跨系统整合能力与资本耐力的综合较量 [2][16]
CMU团队等!机器人记忆新架构:物体中心状态建模,实现长时序操作!
具身智能之心· 2025-11-18 08:46
研究背景与核心挑战 - 现实机器人操作任务的成功依赖于对象交互历史而非仅当前观测[5] - 现有视觉-语言-动作模型多遵循马尔可夫假设缺乏对象级记忆机制在重复操作视觉相似物体遮挡等场景中易失效[5] - 核心挑战集中在部分可观测性对象身份模糊和长时程时间依赖三方面[5] LIBERO-Mem基准套件 - 基准专为评估非马尔可夫场景下的对象级记忆能力设计涵盖短长时程任务与多维度记忆挑战[5] - 包含10类任务覆盖对象运动对象序列多对象关系多对象遮挡四种记忆维度[7][9] - 每个任务包含200-700帧120条轨迹支持子目标分解的细粒度性能评估[9] - 通过视觉相似物体引入身份模糊填补现有基准在非马尔可夫场景评估的空白[8] Embodied-SlotSSM模型架构 - 模型以对象槽为核心整合状态空间建模与关系推理实现高效时间序列记忆与动作预测[11] - 采用槽状态空间建模通过状态空间模型近似历史信息实现历史状态映射[13] - 核心机制包括瞬时记忆保障时间定位与一致性以及动作解码实现关系推理与上下文融合[14] - 通过槽注意力将视觉嵌入分解为离散对象槽并结合时序初始化保障对象身份跨时间传播[16] 实验结果与性能表现 - 在通用任务LIBERO-Goal中模型平均成功率达80.1%显著优于SlotVLA等基准模型[15][17] - 在非马尔可夫任务LIBERO-Mem中平均子目标完成率达14.8%远超传统模型的5.0%[23] - 在重复操作任务如3次放置碗中实现33.3%的完成率证明模型在长时程任务中的有效性[23] - 优势集中在多对象交互遮挡任务证明结构化记忆对复杂场景的适配性[19] 核心价值与行业意义 - 填补非马尔可夫机器人操作基准空白为记忆增强型模型提供标准化评估工具[24] - 验证对象中心记忆在复杂场景中的必要性为机器人从反应式操作向推理式操作转型提供新思路[24] - 时间窗口预测与关系推理机制提升动作预测稳健性为非马尔可夫场景提供可行解决方案[24]
离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了
具身智能之心· 2025-11-18 08:46
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 刚过去的这个周末,围绕 ICLR 2026 审稿意见中很多被标记为完全由 AI 生成的说法,引发了社区热烈讨论。本届会议将于 2026 年 4 月 23 日至 27 日在巴西里约 热内卢举行。 随着首轮分数的公布,有第三方机构开始对 ICLR 2026 的审稿意见进行系统性统计,其中发现了大量 AI 审稿的现象。 在对 75800 篇论文的审稿意见统计中,竟然 有 21% 完全由 AI 生成 、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑, 完全由人类(审稿人)撰 写的仅占 43% 。 图源: X@ Graham Neubig 并且还呈现出一些趋势,包括 AI 审稿意见篇幅更长、AI 审稿更可能给出高分 。 这项统计是由 潘格拉姆实验室(Pangram Labs) 完成的,这是一家专门检测 AI 生成(自动撰写或由大语言模型生成文字内容)的科技公司。此次,该机 ...
3DV 2026最新 | GaussianArt:清华智源通过高斯模型解决机器人操作仿真中关键问题
具身智能之心· 2025-11-17 18:01
研究背景与核心创新 - 提出GaussianArt单阶段训练框架,通过关节式3D高斯模型统一运动与外观建模,简化了传统两阶段流程[2][4] - 该方法支持最多20个部件的复杂物体,并集成鲁棒部件分割模块以精确分解关节级运动[2][5] - 相较于仅在19个物体上评估的先前研究,该研究通过90个铰接物体进行了大规模扩展评估[2][4] 技术方法与实现 - 采用基于3DGS的显式场景表示法,将关节物体重构为基于规范高斯表示的运动场[10] - 通过基础模型SAM2进行部件分割并微调为专用模型Art-SAM,用于初始化规范高斯分布[11] - 在训练过程中增加权重分布、空间稀疏性和刚性估计等约束,以精确表示关节物体[10][13] 数据集构建 - 构建了包含90个关节物体的综合基准测试集MPArt-90,其中79%为合成物体,36%为真实世界物体[12][16] - 数据集涵盖20个类别,主要基于Partnet-Mobility数据集构建,并包含从Multiscan数据集中选取的三个真实物体[16][17] 性能评估与结果 - 在运动参数估计方面,GaussianArt在轴向角度误差上为12.17度,优于对比方法ArtGS的24.34度[20] - 在几何重建方面,GaussianArt的静态部件倒角距离为2.68,显著优于ArtGS的11.57[20] - 对于动态部件,GaussianArt的倒角距离为5.42,远低于ArtGS的380.29[20] 应用前景 - 生成的铰链物体高斯模型可用于生成4D资产,实现数字人与动态物体的交互[25] - 该方法为机械臂操控铰接物体提供了支持,可集成至Isaac等仿真系统[7][26]
具身智能之心招募VLA+RL方向的合作伙伴~
具身智能之心· 2025-11-17 18:01
需是VLA+RL的研究方向,学术界我们希望是博士及以上(包含在读),手握相关方向的顶会。工业界希 望您有一定的实战经验和真机调试经验。 待遇说明 具身智能之心是国内首个具身全栈技术交流社区,聚集了大量VLA和RL相关方向的同学。 最近收到社区内很多同学关于VLA和RL相关内容的咨询,也希望具身智能之心能够有更深入的讲解。在 此,我们向全平台粉丝招募1名VLA+RL方向的课程讲师,和我们一起开发这个方向的在线课程。 我们将提供高于行业平均水平的薪酬以及丰富的行业资源。 一些要求 详细内容欢迎添加微信:oooops-life咨询。 ...
具身界影响力最大的两位博士创业了!
具身智能之心· 2025-11-17 12:00
创业团队核心成员 - 公司CEO为Tony Z Zhao,其为斯坦福大学计算机科学专业三年级博士生(已辍学)[2][5] - 公司CTO为Cheng Chi,其为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者[2][10] - 两位创始人在具身智能界具有重要影响力[2] 创始人的技术背景与成就 - Tony Z Zhao在斯坦福期间主导参与了ALOHA、ALOHA2、Mobile ALOHA等具有行业影响力的机器人项目[4][5] - Cheng Chi是通用操作接口UMI的主要提出者,该成果获RSS 2024最佳系统论文决赛奖,同时是Diffusion Policy方案的作者[4][10] - 这些技术成果为公司在机器人操作与策略学习领域奠定了坚实基础[4][5][10]
登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人
具身智能之心· 2025-11-17 08:47
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,"高效学习" 始终是核心难题——现有模仿学习方法往往需要数百甚至数千次演示才能掌握单个任务,规模化扩展到千种日常任务更是需要 海量数据与资源。而由帝国理工学院机器人学习实验室提出的 Multi-Task Trajectory Transfer(MT3) ,用 "轨迹分解为对齐 - 交互两阶段 + 检索式泛化" 的创 新思路,打破了这一困局:仅需单条演示即可教会机器人完成单个任务,在不到 24 小时的人类演示时间内,成功掌握 1000 种不同的日常操作任务,同时还能泛 化到全新物体实例,彻底革新了机器人模仿学习的效率天花板。 对齐阶段:解决 "去哪里操作" 的定位问题 为什么要重构机器人模仿学习的范式? 当前主流的机器人模仿学习方案陷入了 "数据效率困境":要么依赖单阶段整体策略,学习过程复杂且数据需求大;要么泛化能力弱,无法 ...