真机强化学习
搜索文档
近2k star的RLinf又又又上新了!支持真机强化学习,像使用GPU一样使用你的机器人~
具身智能之心· 2025-12-26 11:38
RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本,旨在支持与仿真路线并行的技术探索,解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源,通过编写YAML配置文件即可完成模型与机器人的映射与数据通信,极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式,这被视为继扩大数据规模和模型规模之后的第三条发展路径:扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式,将上层工作流与底层计算优化解耦,以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置,能够灵活适配端云协同场景,例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计,将端侧推理节点与云侧训练节点解耦,通过数据通道进行周期性同步,实现训练与推理并行,以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法,包括SAC、CrossQ和RLPD等,以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法,允许在训练过程中融入专家示教或实时标注数据,从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法,提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练,过程中约有20次人在环鼠标接管;“Peg Insertion”任务使用异步RLPD算法训练,并预先采集了20条人类操作数据[12] - 实验结果显示,两个任务均能在1.5小时内收敛,收敛后“Peg Insertion”任务可连续成功100+次,“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来,几乎保持每两周更新一次功能的开发速度,并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成,背景涵盖基础设施、算法和机器人领域,形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念,认为基础设施应支撑算法研发,同时算法应指导基础设施的构造[20]
稚晖君5000台机器人量产下线,创业仅3年,订单数亿元
36氪· 2025-12-09 14:59
公司核心进展 - 智元机器人公司第5000台通用具身机器人正式量产下线,创始人彭志辉(稚晖君)年仅33岁并已成为上市公司董事长 [1] - 公司从创始人2023年创业开始,仅用不到三年时间即达到量产规模 [2] - 创始人彭志辉2018年硕士毕业,2019年在B站走红,2020年以“天才少年”身份入职华为,2023年创业 [4] 行业量产进度 - 此前有机构预测2025年中国人形机器人商用销售出货量约5000台,而目前仅智元一家公司即已达到该目标,显示行业量产进度快于预期 [5] - 2026年成为具身智能量产元年的可能性增大 [5] - 在国内同行中,宇树未披露产量,优必选披露截至今年11月交付约200台,智元处于行业前排 [5] - 海外进展更快,Figure公布的年产能为1.2万台,并计划4年内提升至10万台 [5] - 特斯拉Optimus虽多次宣称今年产量目标近1万台,但多家机构调研认为其实际生产进度明显不及预期 [5] 产品线与产量构成 - 智元已量产的5000台机器人具体构成如下:远征A1/A2系列下线1742台,灵犀X1/X2系列下线1846台,精灵G1/G2系列下线1412台 [6] - **远征系列**:为身高175cm的全尺寸人形机器人,主攻工业制造与交互服务 [6] - 远征A2身高169cm,体重69kg,自由度超过40个,外观更接近人类体态,定位交互服务 [6] - A2搭载ActionGPT动作大模型,可根据语音指令生成上百种仿人自然动作 [6] - **灵犀系列**:为半尺寸人形机器人,累计下线1846台,是三大系列中出货量最高的产品线 [8] - 灵犀X2身高约1.31米,体重35-39公斤,拥有25至30个主动自由度 [8] - 集成运动、交互和作业三大智能模块,具备自主导航行走、主动避障和自动补能功能 [8] - 旗舰版搭载激光雷达和RGB-D相机,可实现精准三维空间感知 [8] - 设计兼顾人形亲和力与成本控制,主要面向家庭陪伴、文娱商演等场景 [8] - **精灵系列**:为轮式具身机器人,累计下线1412台,采用轮式底盘以换取更高稳定性和工业适用性 [10] - 精灵G2是重大升级版,以工业场景可靠性为核心,采用100%车规级零部件,整机防护等级达IP42,具备亚毫米级力控装配精度 [10] - G2拥有三自由度腰部结构,可完成弯腰、扭转等复杂动作,更贴合工厂实际作业需求 [10] - 该系列落地场景明确,包括工业智造、物流分拣、数据采集训练,并可通过采集真实世界数据反哺AI大模型训练,形成“数据飞轮”效应 [10] 商业化应用场景与订单 - **工业制造(核心阵地)**: - 在汽车零部件企业富临精工工厂,近百台远征A2-W轮式机器人已上岗,从最初2个产线点位拓展至15个上料点,负责周转箱的拆码垛、搬运及上下料 [13] - 单班次可完成近万次搬箱动作,承接超过500台产能的原材料配送任务 [13] - 在一次三小时直播作业中,一台A2-W成功搬运超800个周转箱,实现单班次近万次操作零故障 [13] - 该订单价值数千万元,为国内首个工业具身机器人规模化商业签单案例 [13] - 在3C电子领域,与全球智能产品ODM头部企业龙旗科技达成数亿元合作,精灵G2机器人被投入平板电脑组装产线,执行内存条插接等毫米级精密操作 [15] - 在该项目中首次应用“真机强化学习”技术,将新技能训练和部署周期从数周锐减至数十分钟 [15] - 汽车电子企业均胜电子给出过亿元订单,精灵G2被投入汽车安全带锁芯生产流程 [15] - 在奇瑞汽车的供应链企业,精灵G1机器人承担料箱转移和物料分拣工作 [15] - **讲解接待**: - 成功中标中国移动7800万元的全尺寸人形双足机器人采购项目,预计将有200台远征A2陆续部署在各省公司展厅或大型营业厅,此为国内人形机器人领域已披露的最大单笔采购订单之一 [16] - **文娱商演**: - 远征A2机器人“小玖”作为非人类合伙人加入湖南卫视综艺《中餐厅·非洲创业季》,与黄晓明等明星互动 [17] - 与百事可乐合作,推出品牌首个人形机器人代言人“百事蓝宝”,在发布会上与贝克汉姆同台表演太极 [17] - 在量产下线仪式上,将一台预植入“黄晓明式”性格设定的灵犀X2交付给黄晓明工作室 [11]
机器人“10分钟上岗”,智元实现真机强化学习工业落地
新浪财经· 2025-11-04 09:45
技术突破核心 - 真机强化学习技术实现工业级落地,机器人可在真实产线自主学习并优化作业策略,新技能训练与稳定部署仅需约十分钟 [1][4] - 技术目标为实现工业级稳定性与100%任务完成率,AI模型在工厂标准下实现真正部署 [1][6] - 技术突破标志着具身智能机器人在算法智能与执行智能的一体化融合上迈出关键一步,是从前沿算法研究到工业级验证的落地 [5] 技术优势与特点 - 具备极速部署优势,训练周期从数周缩短至数十分钟,任务变更仅需快速再训练,无需定制夹具或复杂工装 [4] - 具备高适配性,在长周期运行中持续保持工业级稳定性与100%任务完成率,对于小幅变化几乎无需新增样本即可适应 [4][5] - 具备柔性换型能力,系统在换线、换型时只需最小硬件改动和标准化部署流程,可显著压缩部署时间与成本 [4] 商业合作与订单 - 公司与全球智能产品ODM企业龙旗科技合作,龙旗科技下达数亿元金额的智元精灵G2机器人框架订单 [1] - 此次合作将部署近千台机器人,是目前国内工业具身智能机器人领域最大订单之一 [1] - 双方将基于成果持续推进技术迭代,推动技术在消费电子、汽车电子等更多精密制造场景的应用与复制 [8] 行业背景与痛点 - 精密制造产线面临刚性瓶颈,传统自动化方案调试周期长、换线成本高,难以应对高频率产品迭代,近70%制造企业认为订单弹性导致生产效率下降 [4] - 行业趋势指向具身智能工业机器人,其通过多模态感知、环境理解和自主决策,推动工业机器人从单纯执行向感知-学习-决策-执行闭环转变 [9] - 公司技术契合制造业对智能柔性自动化的需求,理想的具身智能产线可由一条生产线满足多款手机生产需求,完全由数据驱动 [9] 应用现状与未来规划 - 技术已处于接近常态化作业的部署状态,覆盖任务主要集中在准生产测试产线的一个工位,其中约80%任务属于上下料等需要柔性换线的工序 [6] - 当前测试线已极其精密,例如应用于iPad等产品电检的FCT工位精度达到毫米级 [6] - 未来计划将已验证的智能技能通过OTA方式实现标准化分发,并与合作伙伴共同验证更多工序及整线级别的应用推广 [6][8]
智元机器人真机强化学习落地;云深处科技更名“股份有限公司”
每日经济新闻· 2025-11-04 07:21
智元机器人技术突破 - 智元机器人宣布其真机强化学习技术在与龙旗科技合作的验证产线中成功落地,标志着该技术首次从学术论文走向工业应用 [1] - 该技术突破解决了精密制造产线的刚性瓶颈,实现了机器人在真实产线中自主学习和优化作业策略,大幅提高了柔性制造的效率和适应性 [1] - 强化学习正成为机器人智能化的核心驱动力,此次落地体现了产研结合的优势 [1] 云深处科技战略发展 - 云深处科技公司名称正式由“杭州云深处科技有限公司”变更为“杭州云深处科技股份有限公司”,此次更名标志着公司迈入新的发展阶段 [2] - 从“有限责任公司”到“股份有限公司”的转变,通常意味着公司正在为后续的资本运作铺路,可能包括引入战略投资者、筹备上市等计划 [2] - 这一举动显示出公司治理结构的完善和规模化发展的决心,机器人企业正在从技术研发向商业化落地加速转型 [2] 人形机器人产业链影响 - 北方稀土表示,随着人形机器人研发加速落地、商业化场景逐步拓展,人形机器人正成为稀土磁材需求增长的核心新引擎 [3] - 人形机器人多精密关节的结构使其对稀土磁材形成刚性需求,每个关节的伺服电机均依赖稀土磁材,以在小体积下实现强扭矩输出 [3] - 高性能稀土永磁材料是人形机器人关节电机不可或缺的核心材料,其需求增长将直接受益于人形机器人产业化进程 [3]
智元机器人真机强化学习落地;云深处科技更名“股份有限公司”|数智早参
每日经济新闻· 2025-11-04 07:16
智元机器人技术突破 - 智元机器人宣布其真机强化学习技术在与龙旗科技合作的验证产线中成功落地,标志着该技术首次从学术论文走向工业应用 [1] - 该技术突破解决了精密制造产线的刚性瓶颈,实现了机器人在真实产线中自主学习和优化作业策略 [1] - 技术应用大幅提高了柔性制造的效率和适应性 [1] 云深处科技战略发展 - 云深处科技公司名称正式由“杭州云深处科技有限公司”变更为“杭州云深处科技股份有限公司” [2] - 从“有限责任公司”到“股份有限公司”的转变,通常意味着公司正在为后续的资本运作铺路,可能包括引入战略投资者、筹备上市等计划 [2] - 这一举动显示出公司治理结构的完善和规模化发展的决心,机器人企业正在从技术研发向商业化落地加速转型 [2] 人形机器人产业链影响 - 北方稀土表示,随着人形机器人研发加速落地和商业化场景拓展,人形机器人正成为稀土磁材需求增长的核心新引擎 [3] - 人形机器人多精密关节的结构使其对稀土磁材形成刚性需求,每个关节的伺服电机均依赖稀土磁材,以在小体积下实现强扭矩输出 [3] - 高性能稀土永磁材料是人形机器人关节电机不可或缺的核心材料,其需求增长将直接受益于人形机器人产业化进程 [3]
机器人“干中学”,人类不用再给工厂中的机器人当保姆
第一财经· 2025-11-03 20:49
技术应用与突破 - 智元机器人团队研发的真机强化学习技术已在与龙旗科技合作的验证产线中落地 [1] - 强化学习是一种让机器人通过不断尝试和反馈自主优化动作策略的AI训练方式 [1] - 传统强化学习通常在仿真环境中完成,但仿真到真实环境之间存在沟壑,虚拟策略需大量调试才能在真机稳定复现 [1] - 真机强化学习直接嵌入真实产线,使产线作业的通过率、作业节拍、良率直接成为机器人优化目标 [3] - 机器人可通过产线的原生信号完成训练,部署时间可缩减至分钟级 [3] 行业现状与挑战 - 人形机器人企业进入实际场景时,常需耗时数月进行部署和调试 [2] - 在工厂实际产线中,仅有两三台机器人作业,但负责调试与维护的工作人员达数十人 [2] - 为人形机器人配备10位工作人员进行调试、标定与安全监控被视为常态 [2] - 真机强化学习部署过程中可能存在物料损耗或安全风险,需通过预训练和底层控制将风险控制在可控范围内 [3] - 该技术不仅依赖算法本身,更依赖于与工厂系统在通信技术、数据接口等方面的深度对接 [3] 未来发展路径 - 团队正通过本地私有云与OTA机制,实现不同工序的真机强化学习经验共享,以解决批量复制难题 [3] - 此方法旨在实现模型的批量更新和复现 [3] - 需在实际环境中逐步打通底层环节,以确保工序间的数据流和反馈闭环真正形成 [3]
智元宣布真机强化学习落地工业产线,训练周期从“数周”减至“数十分钟”
财经网· 2025-11-03 20:08
技术突破 - 智元机器人研发的真机强化学习技术在与龙旗科技合作的验证产线中成功落地 [1] - 该技术使机器人能在真实产线中自主学习和持续优化作业策略 [1] - 新技能训练与稳定部署时间从数周大幅缩减至数十分钟 [1] - 具体可实现10分钟学会新技能 [1] 技术实现方式 - 技术实现通过预训练模型结合少量示范和纠错快速点亮策略 [1] - 在工业给定范围内微调参数达成快速学习目标 [1] - 目前测试工站有一两个工序后期将在多个工序间实现泛化 [1] - 新技能将通过本地OTA方式进行部署 [1] 应用效益 - 在换线换型或流线调整时系统只需最小硬件改动和标准化部署流程 [1] - 该方案能显著提升产线柔性并压缩部署时间与成本 [1]