手把手带你入门机器人学习，HuggingFace联合牛津大学新教程开源SOTA资源库

文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变，强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程，并配套开源了数据集、模型和代码库LeRobot，旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进，重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手，阐述了其从依赖正向/逆向运动学的显式建模，向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略，但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性，离线到在线强化学习框架利用专家数据引导学习，显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督，使机器人能在1-2小时内掌握复杂真实世界操作任务，成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作，规避了复杂奖励函数设计并确保训练安全，但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据，后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列，仅需T=10步去噪即可获得完整动作块，并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型，其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术，基于超过1000万条轨迹的数据集预训练，展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型，参数量仅为π₀的约七分之一（4.5亿参数 vs 33亿），内存消耗降低6倍，大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库，提供预训练模型、人工采集数据集及模拟环境，支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库，收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]