Workflow
强化学习(RL)
icon
搜索文档
Science Robotics 通过人机交互强化学习进行精确而灵巧的机器人操作
机器人圈· 2025-08-22 17:02
机器人操作技术挑战与现状 - 机器人操作是机器人技术中最困难的挑战之一 方法范围从基于经典模型的控制到现代模仿学习[2] - 现有方法需要大量手动设计 存在性能困难 需要大规模数据收集 限制实际世界大规模部署[2] - 强化学习(RL)使机器人通过交互自主获得复杂操作技能 但受样品效率和安全性问题限制[2] 强化学习方法的潜力与局限 - RL可自主获取复杂灵巧的机器人技能 通过反复试验学习获得高度熟练技能[3] - RL可能超越手工设计控制器和人类远程操作性能[3] - 但面临样本复杂性 奖励函数假设 优化稳定性等挑战[3] - 开发通用基于视觉的方法仍具挑战性 需在不同现实任务中有效学习物理复杂技能[3] HIL-SERL框架突破性进展 - UC伯克利BAIR实验室推出HIL-SERL强化学习框架 革命性解决机器人操作问题[4] - 仅需1-2.5小时训练就能在所有任务上达到100%成功率 远超基线方法不足50%的平均成功率[4] - 即使面临外部干扰也能保持出色表现 展现强大鲁棒性[4] 技术实现细节 - 使用预训练可视化主干网解决优化稳定性问题[5] - 采用基于RLPD的样本效率非策略RL算法处理样本复杂性问题[5] - 结合人工演示和校正 包含精心设计的低级控制器确保政策培训期间安全[5] - 人机交互纠正程序使策略能从错误中吸取教训 对挑战性任务至关重要[5] 任务复杂度与性能表现 - 任务包括组装家具 颠勺煎蛋 鞭打积木 插入U盘等操作[7] - 系统处理动态翻转平底锅对象 拿出叠叠乐块 双臂交接物体 组装复杂设备等任务[11] - 这些任务在动态复杂性 高维状态空间 长视野等方面提出挑战[11] - 训练1-2.5小时实现近乎完美成功率 受初始放置几厘米或程度变化影响[11] - RL策略相比IL方法平均成功率提高101% 周期时间缩短1.8倍[12] 实验验证与系统优势 - 与最先进RL方法比较 进行消融研究了解各组件贡献[19] - 系统不仅优于相关基线 且实证结果归功于组件的精心整合[19] - 支持从图像输入进行双臂协调 处理鞭打叠叠乐块和组装正时皮带等任务[21] - 在实际培训1-2.5小时内 任务成功率提高2倍 执行速度提高1.8倍[21] 行业影响与前景 - RL可在实际训练时间内直接在现实世界学习复杂基于视觉的操纵策略[21] - 这项工作可能激发新一代学习的机器人操作技术 有利于工业应用和研究进步[21]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 08:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]
能横着走的轮足机器人诞生?
机器人大讲堂· 2025-08-19 18:32
轮腿机器人FLORES的核心创新 - 采用轮腿结合设计,实现平路高效移动与复杂地形跨越的无缝切换 [12] - 前腿关节改造为侧摆结构,兼具汽车转向灵活性与四足机器人稳定性 [12][15] - 能耗表现突出:直线运动能耗仅为传统轮腿机器人的30%,转弯能耗仅35% [9] 技术实现细节 - 配备基于强化学习的智能控制器,可自适应生成多模态运动策略 [15][17] - 采用混合内部模型(HIM)架构,针对机械结构优化奖励机制 [18] - 关键硬件包括Intel i7处理器、44.4V锂电池及Motorevo系列关节电机 [11] 性能优势 - 全地形适应能力:在石板路/草坪/坑洼路面均能保持稳定行进 [6] - 运动模式切换速度超越宇树B2W等竞品 [6] - 支持横向移动等特殊机动动作 [3] 应用场景规划 - 重点部署于办公楼/商场等混合地形环境,执行物资运输/巡逻任务 [20] - 未来将加装机械臂拓展物体操控功能 [20] - 通过sim2real技术强化双足运动能力以适应极端环境 [20] 行业参考标的 - 直接竞品包括宇树科技B2W、ANYmal等轮足机器人 [15] - 技术借鉴对象涵盖传统轮式机器人mobED等成熟产品 [15] - 相关企业涉及优必选、云深处等50余家机器人产业链公司 [22][23][25][26]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
VLA/VLA+触觉/VLA+RL/具身世界模型等!国内首个具身大脑+小脑算法实战教程
具身智能之心· 2025-08-14 14:00
具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应,聚焦感知、理解、执行和反馈学习能力,其核心模块为大脑(语义理解与任务规划)和小脑(高精度运动执行)[1] - 技术演进分为四个阶段:从抓取位姿检测(静态物体单步决策)→行为克隆(端到端模仿但泛化弱)→Diffusion Policy(扩散模型提升时序稳定性)→VLA模型(多模态协同实现零样本泛化)[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合,以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动:华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等;京东2025年连续投资智元机器人等强化物流与家庭服务场景;腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发:Tesla/Figure AI推进工业物流机器人;Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人;中美进入关键技术竞赛阶段[5] - 明星创业团队涌现:星海图、银河通用、逐际动力等从实验室走向商业化,推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人,应用于工业、家居、餐饮、医疗康复等领域,融资与岗位呈爆发式增长[9] - 工程化需求激增:产业界要求从论文转向部署,需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈:包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计:每个模块配备实战代码(如DP3、SmolVLA)、大作业监督,目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确:面向算法从业人员、转行者及在校生,要求具备Python/Pytorch基础及3090ti以上算力[13][30]
OpenAI联合创始人Greg Brockman:对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代
AI科技大本营· 2025-08-13 17:53
行业演进与公司发展 - 计算机行业正经历从个人魔法到工业革命的演进,OpenAI驾驭十万GPU集群标志着AI基础设施的成熟[3] - Stripe早期通过第一性原理突破传统限制,24小时完成银行需9个月的技术对接,体现硅谷创新精神[15][16] - OpenAI构建了研究-工程双引擎文化,工程能力与研究洞见同等重要,共同推动AGI发展[27][28][29] 技术突破与创新 - 深度学习从AlexNet开始颠覆传统规则,神经网络在多个领域超越人类设计的系统[24][25] - 强化学习(RL)和混合专家模型(MoE)成为解决算法瓶颈的关键方向,推动AGI研究进入新阶段[49][48] - Codex已贡献OpenAI内部10%代码合并请求,外部GitHub日处理24000个PR,重塑软件开发流程[42] 基础设施与硬件需求 - AI基础设施需兼顾高计算量任务与低延迟响应,催生专用加速器需求[45][47] - 模型规模扩大带来系统复杂性挑战,检查点机制和可靠性设计成为训练长周期智能体的关键[43][44] - 黄仁勋提出未来数据中心需支持多样化工作负载,包括多模态AI和实时交互系统[45][46] 产品化与生态发展 - AI产品化面临模型与产品的鸿沟,需结合领域专业知识构建垂直智能体生态[52][53] - GPT-4o图像功能5天获1亿用户,反映AI应用病毒式传播特性与规模化挑战[35][36] - 经济将因AI驱动产生10倍增长,医疗、教育等领域需定制化解决方案[54][55] 研发趋势与瓶颈 - 基础研究回归成为核心,算法瓶颈重新成为制约AGI进展的关键因素[49][50] - 当前研发受计算资源、数据、算法、电力等多维度限制,需动态平衡[49] - GPT-4暴露可靠性问题,显示AI需突破"隔玻璃观察"的学习模式[50][51]
为何强化学习火遍硅谷?AGI的关键一步
虎嗅· 2025-08-07 15:46
强化学习技术趋势 - 强化学习在AI Agent技术架构和模型预训练中成为硅谷主流趋势,顶级人才需求旺盛[1] - 强化学习框架适用于目标驱动型任务,与监督学习形成互补[6][8] - RL pretraining(强化学习预训练)成为研究热点,但验证机制泛化仍是技术瓶颈[9][11][26] 技术架构对比 - 基于LLM的token决策架构与基于action的强化学习架构各有适用场景[5] - 监督学习适合已有标注数据的任务,强化学习适合无数据/目标驱动型任务[8][30] - 强化学习微调成本是监督学习的10倍,但复杂任务中不可替代[29] AGI发展路径 - OpenAI将AGI划分为五个层级:聊天机器人→推理型AI→Agent→创新型AI→组织型AI[13][15][16] - 第三到第四层级(Agent→创新型AI)存在最大技术鸿沟,核心是验证能力突破[16][21][24] - 创新型AI需具备反事实知识发现能力,可能产生超越人类认知的解决方案[13][27] 行业应用与商业化 - 专业领域工作流(金融、供应链、科研等)是强化学习的优势场景[10][44][45] - AI Agent商业化面临成本控制挑战,技术路径决定企业存活能力[63] - 多模态数据标注成为中期发展瓶颈,Meta收购ScaleAI旨在解决该问题[31][36][37] 人才与技术生态 - 强化学习核心人才集中在OpenAI、DeepMind、Meta等机构及少数高校[58][59] - 产业界强化学习应用从专用优化器向通用解决方案演进[60] - Richard S Sutton等先驱者奠定了强化学习理论基础,关注模型可塑性和奖励设计[55][56] 企业战略差异 - Pokee AI采用端到端模型架构,压缩工具链提升专业场景泛化能力[41][44][45] - 行业出现技术路线分化,各公司根据创始人背景形成差异化发展路径[62] - 产品体验与模型能力需平衡,专业型工作流是创业公司突破方向[46][47]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 10:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]
揭秘:OpenAI是如何发展出推理模型的?
华尔街见闻· 2025-08-04 15:02
文章核心观点 - OpenAI的ChatGPT成功被视为一次意外收获 公司真正的长期战略是开发具备推理能力的通用AI智能体(AI Agents) 其技术突破源于数学推理研究[1][2][3] - 公司通过结合大语言模型、强化学习和测试时计算三大技术 实现推理能力飞跃 关键突破内部代号为"Q*"或"Strawberry"[4][5] - 基于新方法开发的o1推理模型在2024年秋季问世 该模型使OpenAI在国际数学奥林匹克竞赛(IMO)中获得金牌[3][6] - 公司面临Google、Anthropic、xAI和Meta等竞争对手的激烈追赶 行业竞赛焦点在于谁能率先实现通用AI智能体愿景[9] OpenAI技术发展路径 - 数学领域被选为推理能力研究的起点 因为数学是纯粹逻辑和推理的试金石 2022年MathGen团队专注训练AI模型解答高中数学竞赛题[2] - 从语言处理到逻辑推理的跨越通过三大技术结合实现:大语言模型提供知识基础 强化学习通过奖惩机制优化决策 测试时计算允许模型反复验证思考步骤[5] - 新技术催生"思考链"(Chain-of-Thought)方法 模型展示完整解题思路而非直接输出答案 研究员观察到模型具备回溯错误和情绪化反应的特征[6] 推理能力的技术本质 - 公司从计算机科学角度定义推理为"有效消耗算力得到答案"的过程 强调功能实现而非形式模仿[7] - 研究文化采用自下而上模式 团队只需证明想法突破性即可获得GPU和人才资源支持 这种机制保障了对AGI使命的长期投入[7] - AI推理与人类思考的关系被类比为飞机与鸟类飞行 不同机制可实现相同甚至更强大的结果[7] 未来发展方向 - 当前AI智能体擅长定义明确的可验证任务(如编程) 但在处理主观性任务(如停车位选择或旅行规划)时仍存在瓶颈[8] - 核心挑战在于缺乏训练主观任务的数据 公司已开发新的通用强化学习技术训练模型处理无标准答案的问题[8] - IMO金牌模型采用多智能体协作机制 同时探索不同解题路径后选择最优解 这代表未来AI演进方向[8] - 终极目标是开发能处理互联网任何事务并理解用户偏好的超级智能体 所有研究均指向该方向[8] 行业竞争格局 - OpenAI曾为AI行业绝对引领者 但目前面临Google、Anthropic、xAI和Meta等对手的强势竞争[9] - 行业竞争焦点转向实现"智能体未来"的时间赛跑 关键在于能否在被超越前率先达到技术终点[9]
都说强化+VLA才是未来?相关工作汇总来啦
具身智能之心· 2025-08-01 08:03
视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式,能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性,论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习,论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力,论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型,项目已开源,论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型,论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究,项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现,项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作,项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型,项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型,论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调,项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略,论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破,由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调,项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏,项目已开源 [9] - Hume在VLA模型中引入系统2思维,项目已开源 [9] - 通过价值引导改进机器人基础模型,项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化,论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐,项目已开源 [12]