franka机械臂
搜索文档
近2k star的RLinf又又又上新了!支持真机强化学习,像使用GPU一样使用你的机器人~
具身智能之心· 2025-12-26 11:38
RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本,旨在支持与仿真路线并行的技术探索,解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源,通过编写YAML配置文件即可完成模型与机器人的映射与数据通信,极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式,这被视为继扩大数据规模和模型规模之后的第三条发展路径:扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式,将上层工作流与底层计算优化解耦,以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置,能够灵活适配端云协同场景,例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计,将端侧推理节点与云侧训练节点解耦,通过数据通道进行周期性同步,实现训练与推理并行,以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法,包括SAC、CrossQ和RLPD等,以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法,允许在训练过程中融入专家示教或实时标注数据,从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法,提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练,过程中约有20次人在环鼠标接管;“Peg Insertion”任务使用异步RLPD算法训练,并预先采集了20条人类操作数据[12] - 实验结果显示,两个任务均能在1.5小时内收敛,收敛后“Peg Insertion”任务可连续成功100+次,“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来,几乎保持每两周更新一次功能的开发速度,并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成,背景涵盖基础设施、算法和机器人领域,形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念,认为基础设施应支撑算法研发,同时算法应指导基础设施的构造[20]