Workflow
LeRobot
icon
搜索文档
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-15 08:32
模型技术概览 - π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的新型模型 [1] - 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的 [1] - 相比π0等扩散模型方法,其训练速度提升高达5倍 [1] 技术方案与优势 - 传统机器人动作编码方法(如按维度、按时间步分箱方案)在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效 [3] - π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题 [4] - 原版π0-FAST实现仅支持JAX框架,本次已用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术 [6] 框架集成与生态 - π0-FAST目前已集成到LeRobot框架中 [2] - LeRobot框架现已支持π0、π0.5、π0-fast系列模型,此外国产模型WALL-OSS也被集成进去 [7] - 相关文档和基础检查点已公开,文档位于Hugging Face,基础检查点为`lerobot/pi0fast-base` [9]
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-14 17:00
模型技术概览 1. π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的创新模型[1] 2. 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的[1] 3. 在训练速度上,相比π0等扩散模型方法,π0-FAST实现了高达5倍的提升[1] 技术方案与优势 1. 传统机器人动作编码方法,如按维度或按时间步的离散化方案,在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效[3] 2. π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题[4] 框架集成与实现 1. π0-FAST模型目前已经集成到LeRobot机器人框架中[2] 2. LeRobot框架已基本支持pi系列工作,包括π0、π0.5、π0-fast,同时国产模型WALL-OSS也被集成进去[7] 3. 原版π0-FAST实现仅支持JAX框架,本次集成用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术[6] 资源与文档 1. 相关技术文档可在Hugging Face的LeRobot页面查阅[9] 2. Pi0Fast基础模型检查点已发布在Hugging Face平台上[9]
最近开源的一个框架,使用各种SOTA技术训练你的VLA模型
具身智能之心· 2026-01-12 11:36
行业痛点与市场缺口 - 行业现有的VLA模型训练工具(如OpenPi、LeRobot)缺乏一站式解决方案,核心能力存在明显缺失,无法满足前沿模型训练需求 [3] - 现有工具不支持异构数据集按可调混合比例进行协同训练,也不支持离散动作训练、VLM与动作解码器间的知识隔离,以及风格强化学习pipeline [3] - OpenPi的PaliGemma中Dropout层仅支持Jax框架,PyTorch版本缺失;LeRobot则缺少完整的checkpoint(缺失文本嵌入) [4] - 整体来看,行业缺少可复现、易访问、可扩展的VLA模型训练工具链,这制约了机器人领域嵌入式AI的科研进展与技术落地 [4] OpenTau框架的核心优化与功能 - 该框架基于LeRobot(PyTorch框架)进行拓展开发,完全兼容LeRobot生态,其所有合规的策略和数据集可直接复用 [5] - 补齐了PaliGemma在PyTorch框架下的Dropout层支持,解决了OpenPi仅Jax框架支持该功能的短板 [5] - 项目统一采用PyTorch框架,降低了跨框架适配带来的研发成本 [6] - 完善了checkpoint,补充了LeRobot缺失的文本嵌入,保证了模型功能的完整性 [7] - 保留了LeRobot多节点/多GPU训练、仿真环境评估的能力,同时新增多项核心训练能力,旨在打造一站式VLA训练工具链 [7] - 重要模块支持异构数据集按可调混合比例进行协同训练 [8] - 更新/新增功能包括:提供离散动作训练能力以加速VLM收敛;实现VLM backbone与动作解码器间的知识隔离;在VLM中加入Dropout层以降低过拟合风险;内置风格的强化学习pipeline [12] - 该框架填补了OpenPi、LeRobot在异构数据集协同训练、离散动作训练、VLM与动作解码器知识隔离、风格RL流水线等核心能力上的空白 [12] - 提供了完整可运行的checkpoint,并基于LeRobot拓展,在兼容其生态的同时补齐核心能力 [12] 开发者资源与社区生态 - 提供了详细的文档指引、本地Notebook示例和谷歌Colab笔记本,方便用户快速上手进行模型训练和评估 [12] - 提供了高成功率的预训练模型checkpoint(如TensorAuto/tPi0.5-libero、TensorAuto/pi05_base),可供用户直接下载使用 [12] - 存在一个名为“具身智能之心知识星球”的社区,自称是国内首个具身智能开发者社区,也是最专业最大的交流平台,关注方向广泛 [14][15] - 该社区汇总了近30条学习路线、40多个开源项目、近60个具身智能相关数据集,并声称有近200家公司和机构参与交流 [15] - 此外,还存在近60个技术交流群,覆盖大模型、VLA、强化学习、机器人仿真等多个方向,供开发者加入交流 [17][18]
用低成本复现这几个Git上最受欢迎的VLA任务
具身智能之心· 2026-01-11 11:02
行业痛点与市场需求 - 复现视觉语言动作模型任务面临高成本障碍,可用的机械臂基本价格在1.5万元以上,加上相机等传感器,对自学者或缺乏设备的群体构成硬伤 [3] - 开源低成本机械臂存在使用门槛,初学者在数据采集、模型训练和动作生成方面难以调出效果,导致大量时间浪费在踩坑上 [4][5] - 打通数据采集、VLA模型、训练优化与部署的全流程任务对初学者非常困难,特别是对于π0、π0.5、GR00T等模型,其数据采集和训练存在许多技巧 [5] - 市场存在对低成本完成各类VLA任务的强烈需求,许多学习者希望在预算有限的情况下也能入门该领域 [7] 解决方案与课程产品 - 具身智能之心平台基于SO-100和LeRobot复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、真机昂贵以及不知如何上手的问题 [8] - 平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,以应对技术更新快、学习难度大的挑战 [9] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流VLA模型部署、VLA结合世界模型、各类真机实验以及具身产业讲解 [14] - 该课程被描述为平台最大、最完整的课程,采用软硬结合的方式,旨在提升学习效率 [15] - 课程已正式开课,学员社群内交流活跃,能够为学习过程中遇到的问题提供解答 [16] 课程硬件与师资 - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂,通过淘宝购买后直接发货给学员 [18] - 课程讲师为某机器人公司VLA高级研究员,拥有超过5年的机器人行业实战经验,聚焦产学研协同落地,熟练掌握具身智能全栈技术 [21] - 讲师在人形/轮式机器人、机械臂等多种具身本体上有深度实操经验,并在自动控制、机器人领域的IEEE Trans系列、Neural Networks等顶级期刊发表过10篇以上学术论文 [21] 目标人群与课程要求 - 课程面向正在具身领域求职需要实战项目的同学、VLA领域需要进阶的入门者、从事具身智能研究的本硕博学生、希望从传统CV/机器人/自动驾驶转行至具身领域的人员,以及对具身智能感兴趣的其他人员 [25] - 课程对计算资源有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,学员也可自行租赁云服务器资源 [25] - 学员需要具备一定的Python和PyTorch基础 [25] 学习收获与课程安排 - 完成课程后,学员将掌握真机的调试与数据采集、各类VLA算法在真机上的部署,并对VLA模型的量化有深入了解 [25] - 学员将对具身产业和落地应用有清晰认识,简历上能积累足够多的项目支撑,学完后能达到具备1-2年以上经验的算法工程师水平 [27] - 课程项目经验可直接写入简历,所学技巧可作为面试答案,能帮助学员节省大量自行摸索踩坑的时间 [12] - 课程计划于2025年12月30日开课,后续章节将持续至2026年2月25日 [28] - 课程价格为788元 [29]
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-21 00:03
行业趋势与VLA技术发展现状 - 视觉语言动作模型领域正经历爆发式增长 新算法和框架不断涌现 推动模型性能更加泛化 [2] - 开源数据规模已达百万级 数据采集设备日益多元化 行业评测标准逐渐统一 预示着产业化进程可能加速 [2] - VLA作为核心模块 其应用场景将不断扩展 吸引更多下游合作伙伴和优秀人才加入 [2] VLA技术落地面临的挑战与痛点 - VLA模型调试难度大 数据采集过程复杂且耗时 成为从业者普遍面临的难题 [3][5] - 具身智能领域高度依赖硬件本体 仅依靠论文和仿真难以评估真实性能 导致学习与实践存在鸿沟 [4] - 真实数据采集依赖遥操、VR、动捕等方式 但采集的数据质量不佳 而仿真数据又存在泛化性问题 形成数据困境 [5] - 从数据采集、模型训练优化到部署的全流程打通 对初学者而言极为困难 许多人长期无法有效入门 [10] - 部分先进模型如π0、π0.5、GR00T 在数据采集和模型训练中存在大量未公开的技巧 增加了应用门槛 [11] VLA技术落地的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕 以及强化学习 如何获取高质量数据及实现real2sim2real是关键 [13] - **模型训练**:在真机数据不足时 仿真和sim2real技术至关重要 训练技巧直接影响效果 不同算法难度差异大 [14] - **模型部署**:大参数量模型对边缘部署构成挑战 需通过量化、蒸馏等轻量化技术压缩模型 以平衡性能与资源消耗 [15] 行业解决方案与生态建设 - 开源技术框架如LeRobot为入门学习提供了支持 近两年涌现出ACT、OpenVLA、π系列等多种新方法 性能持续提升 [7] - 开源机器人本体日益丰富 如SO-100机械臂、openarm双臂操作平台、XLeRobot移动操作平台 支持多样化研究需求 [7] - 行业内出现了面向实战的培训课程 旨在系统化解决学习难题 内容涵盖硬件、算法、仿真、部署及产业认知 [17][20]
都在说VLA,很多同学连demo都跑不好......
具身智能之心· 2025-12-03 18:00
文章核心观点 - 视觉语言动作模型领域面临从理论到实践的巨大挑战,特别是在真机数据采集、模型训练与部署等环节,存在显著的学习壁垒和落地困难 [2][6] - 行业技术发展迅速,开源框架和新算法不断涌现,但模型性能高度依赖硬件本体和数据质量,仿真与真实场景存在泛化差距 [2][4] - 为应对上述挑战,推出了一个全面的实战课程,旨在通过软硬结合的方式,系统化地培养VLA领域的实操人才 [14][16][19] 技术发展现状与挑战 - 算法层面近2年涌现大量新方法,如ACT、OpenVLA、π0、π0.5、π0.6系列,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,支持不同类型的研究需求,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台 [4] - 核心挑战在于数据、模型、训练、部署的全流程打通,初学者常陷入长期调试而难以入门,尤其π0、π0.5、GR00T等模型的数据采集和训练包含大量未公开技巧 [6] VLA模型落地关键模块 - **数据采集**:主要基于模仿学习(遥操作、VR、全身动捕捉)和强化学习,机械臂领域多采用前两种,如何保证数据质量及实现real2sim2real是关键问题 [7][8] - **模型训练**:真机部署前需进行仿真调试,Mujoco、Isaac Gym等框架在数据不足时尤为重要,训练技巧至关重要,不同算法难度差异大,ACT相对简单易出效果,而π0和π0.5则极难训练成功 [9][10] - **模型部署**:面临模型参数量大(即使2B规模)导致的边缘芯片部署挑战,必须进行轻量化操作如量化、蒸馏,以在保证性能的同时最小化参数量 [11][12] 课程解决方案与目标 - 课程定位为国内首个面向实战与求职的VLA小班课,内容覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解 [14][16] - 课程目标为使学员掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对产业落地有清晰认识,学完后达到1-2年算法工程师经验水平 [30] - 面向人群包括具身领域求职者、VLA入门进阶者、相关专业学生、以及希望从传统CV/机器人/自动驾驶转行的人员,建议具备Python和PyTorch基础,推理需3060及以上显卡,训练需2张以上3090ti显卡 [27]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
机器之心· 2025-05-31 12:00
开源机器人发布 - Hugging Face开源两款人形机器人HopeJR和Reachy Mini,推动马斯克2040年百亿机器人预言实现[1] - HopeJR为全尺寸人形机器人,具备66个驱动自由度,可行走和手臂移动[3] - Reachy Mini是桌面机器人,可移动头部、说话、倾听,用于AI应用测试[5] 产品定价与供应 - HopeJR售价约3000美元,Reachy Mini售价250-300美元,显著低于宇树G1的16000美元[7] - 首批机器人预计2024年底发货,已开放等候名单[7] - 两款机器人均提供完整物料清单和零件采购链接[16][21] 技术细节与功能 - HopeJR需手动录制动作数据,通过模仿学习算法训练自主控制策略[10] - 目前HopeJR仅在3D模拟环境行走,计划向现实世界转移[12] - HopeJR配备机械臂,可通过专用手套远程控制执行握手、指向等任务[13] 设计特点与用户反馈 - HopeJR设计粗糙,头部框架结构类似动画角色班德[9] - 网友评价HopeJR动作像患帕金森症,外观不太聪明[8][14] - Reachy Mini采用可伸缩颈部设计,基于Pollen Robotics的Orbita执行器技术[17][18] 应用场景与生态建设 - Reachy Mini可用于工业自动化AI模型测试,如人机交互场景[20] - Reachy 2已展示多语言理解能力,集成GPT-4实现带情绪响应[23][24] - Hugging Face构建开源机器人生态,包括LeRobot项目和SO-100机械臂[26][28] 行业影响与开源价值 - 开源模式打破技术壁垒,使机器人技术不再被大公司垄断[7][28] - 开源硬件平台有望像开源软件一样推动行业加速发展[30] - 社区共同塑造的"公共智慧"将成为机器人进化新范式[30]
速递|Hugging Face全力进军AI机器人:发布两款开源人形机器人,最低仅售250美元
Z Potentials· 2025-05-30 11:23
Hugging Face发布新款人形机器人 - 公司发布两款开源人形机器人HopeJR和Reachy Mini HopeJR是全尺寸机器人具备66个驱动自由度可完成行走和手臂运动 Reachy Mini是桌面版机器人可转动头部说话聆听并用于AI应用测试 [1] - HopeJR单价约3000美元 Reachy Mini价格区间在250至300美元之间具体取决于关税政策 [3] - 两款机器人均为开源设计允许用户组装重构和理解运作原理旨在防止技术被少数大公司垄断 [3] 机器人技术发展背景 - 此次发布部分得益于公司对仿人机器人初创企业Pollen Robotics的收购该收购于四月公布 Pollen团队为公司提供了开发机器人的新能力 [4] - 2024年公司推出LeRobot平台包含开源AI模型数据集及机器人系统构建工具 [6] - 2025年公司发布3D打印可编程机械臂SO-101升级版本并与The Robot Studio合作开发 同时通过与Yaak合作扩展LeRobot平台新增自动驾驶机器训练数据集 [6] 产品交付计划 - 公司预计今年年底前交付首批产品目前等候名单已开放注册但未公布具体发货时间表 [1]