Workflow
强化学习
icon
搜索文档
为什么RL在人形/四足/机械臂等本体上依然还有很多工作可以做?
具身智能之心· 2025-10-28 12:00
最近社区内部有同学留言,强化学习是不是比较古老的学科,审稿人还会青睐吗? 先回答这位同学的问题,RL是个学科,但是以发展时间来判断fashionable不是很合理。最近这段时间,在 arxiv上看到了很多关于RL、RL+VLA的内容,应用在机械臂、人形等本体上。 甚至其他领域也在依靠RL来做产品优化比如自驾,可以说,RL相当重要,相关工作在顶会上出现的也比较 多。 强化学习发挥着重要作用~ 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具身 必须要攻克的难关。 而目前主要方案即是强化学习,宇树、智元等公司的人形机器人大多通过强化学习完成对应任务,包括: 爬楼梯、爬山、跑步、跳舞、翻跟头等各类高难度动作的学习,从而赋予产品能够适应救援、测量、危险 环境的场景。 除此之外机械臂的VLA+RL方案在学术领域越来越受欢迎,RL让机器人执行的更高效、丝滑与顺畅。 但强化学习涉及内容众多,而且非常吃研究经验。体系较大、内容繁杂,很多小白根本不知道怎么入门, 发出一篇论文更是难度极大。产出一篇符合对应标准的论文需要在方法论证、实验结果、写作方式等几个 大模块上突击。哪一环节出错了, ...
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
36氪· 2025-10-28 10:00
刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 值得注意的是,在这篇新博客中,TML 明确表示这项新成果受到了 Qwen 团队研究的启发,并且其实验过程中也大量用到了 Qwen3 系列模型。事实上, 在原英文博客中,「Qwen」这个关键词一共出现了 38 次之多!比小米 17 系列发布会雷总提到「苹果」的 37 次还多一次。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手 时,TML 发现在策略蒸馏可以极低的成本超越其他方法。 该公司 CEO Mira Murati 表示,这种方法可用于小模型,使其具备强大的领域性能和持续学习能力。 作为一家明星创业公司,TML 的更新也吸引了广泛关注。有人总结其优势: 更是有网友盛赞,TML 才是真 Open AI。 博客地址:https://thinkingmachines.ai/blog/on-policy-distillation/ 这篇博客的主要作者是 ...
Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了
量子位· 2025-10-28 09:18
文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过结合在线策略的自主探索与离线策略的密集监督,显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势,训练效率提升高达50-100倍,并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏(在线策略)和请家教(离线策略)两种传统训练模式的优点,如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标,学生模型通过最小化逆向KL散度来模仿教师模型,该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中,使用在线策略蒸馏方法,仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%,计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中,该方法成功解决了灾难性遗忘问题,使模型在内部知识评估得分从36%提升至41%的同时,通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性(效率提升50-100倍)使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型,降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导,其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布,研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
机器之心· 2025-10-28 08:41
机器之心报道 机器之心编辑部 刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation) 是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。 值得注意的是,在这篇新博客中,TML 明确表示这项新成果受到了 Qwen 团队研究的启发,并且其实验过程中也大量用到了 Qwen3 系列模型。事实上,在原英文 博客中,「Qwen」这个关键词一共出现了 38 次之多!比小米 17 系列发布会雷总提到「苹果」的 37 次还多一次。 该公司 CEO Mira Murati 表示,这种方法可用于小模型,使其具备强大的领域性能和持续学习能力。 博客地址:https://thinkingmachines.ai/blog/on-policy-distillation/ 作为一家明星创业公司,TML 的更新也吸引了广泛关注。有人总结其优势: 更是有网友盛赞,TML 才是真 Open ...
无人机也能打排球吗?清华团队用强化学习探了探路
具身智能之心· 2025-10-28 08:02
研究背景与任务创新 - 清华大学团队提出“无人机打排球”新任务,将机器人运动挑战从地面推向三维空间,要求无人机集群在高机动性精确控制基础上实现团队合作与策略对抗 [1][2] - 该任务融合了混合博弈、回合制交互和复杂物理约束等难题,旨在验证具身智能在真实物理空间中的策略推理与高精度控制能力 [2][4] - 相关研究成果已被NeurIPS 2025与CoRL 2025国际顶会收录,标志着人工智能从虚拟博弈走向真实世界的关键进展 [1] VolleyBots测试平台 - 团队基于NVIDIA Isaac Sim高保真物理引擎构建了VolleyBots测试平台,精确模拟无人机动力学、气动力及碰撞反弹等真实物理效果 [6] - 平台模仿人类学习排球技能过程,设计了从单机基本技能到多机合作对抗的多层级任务体系,包括单机颠球、多机传球及3v3/6v6比赛等形式 [7][9] - 平台内置并测试了PPO、TD3、MAPPO、HAPPO等多种强化学习与博弈算法,为“空中对抗”研究提供了标准化仿真环境 [9][19] 分层协同自博弈算法(HCSP) - HCSP算法将复杂对抗任务拆分为负责团队战术的高层策略和负责精细飞行的低层技能,通过三阶段训练流程实现策略与技能的协同进化 [12][14] - 在对抗测试中,HCSP训练的策略以平均82.9%的胜率击败多种基线算法,对抗最强基于规则策略时仍保持71.5%的胜率 [15] - 算法使无人机队伍形成明确分工与协作,并自发演化出“二传吊球”等人类球赛中常见的临场战术,展现出高级策略推理能力 [15] 真实世界部署与性能突破 - 团队提出JuggleRL系统,首次实现四旋翼无人机基于强化学习的真实物理交互,通过系统辨识、域随机化和零样本部署完成“Real2Sim2Real”闭环 [16] - 在未经真实数据微调的情况下,真机连续颠球最高达462次(平均311次),较传统分层方法(最高14次)提升一个数量级 [18] - 该成果标志着具身强化学习从“虚拟对抗”走向“真实物理交互”的关键突破,为无人机在动态环境中的实时控制提供了技术验证 [16][19]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 08:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 12:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
摇人!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-26 00:03
业务拓展方向 - 公司计划在自动驾驶领域的企业培训和求职辅导等方向进行业务拓展 [2] - 合作领域包括技术服务、培训、课程开发与科研辅导等多个方面 [2] - 主要面向自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] 目标客户与岗位说明 - 培训合作业务B端主要面向企业和高校、研究院所 [5] - 培训合作业务C端面向较多学生和求职类人群 [5] - 岗位职责包括自动驾驶培训合作、课程开发和原创文章创作 [5] 合作与资源 - 公司面向全球自动驾驶领域从业者发出合作邀请 [2] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [3] - 感兴趣的从业者可通过指定微信联系方式进行进一步咨询 [6]