Workflow
强化学习(RL)
icon
搜索文档
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 08:32
文章核心观点 文章通过多位行业专家的圆桌讨论,深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势,核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术,但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - **SPO算法被Pi0.6引用**:张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法,这标志着其工作获得了业界重要认可[3] - **RL的核心价值在于利用“不完美”数据**:Pi0.6提出了一个重要观点,即基座模型预训练的数据质量因领域而异,在自动驾驶和具身智能中,大量采集的数据可能只有约1%到10%是“完美”可用的[4][5],RL的价值函数可以对行为进行评分,从而将大量原本被丢弃的非完美数据利用起来,这对于数据稀缺的具身智能领域至关重要[5][6] - **RL与模仿学习的协同范式**:当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型,再用强化学习进行最后的性能提升,即跑“最后一公里”[3][20],模仿学习能高效地将模型提升到一定水平(如80分),而强化学习则能通过探索跳出局部最优,从长程任务结果上进行优化,两者结合是合理路径[20] RL for VLA的框架与工具发展 - **现有工具无法满足需求**:在探索RL与VLA结合时,发现缺乏能够支撑大规模研究的专用框架,现有框架多为大语言模型推理设计,无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - **Rlinf框架的诞生与目标**:为填补工具空白,一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架,其设计目标是全面支持VLA+RL,涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11],该框架的开发投入巨大,仅算力成本就可能达到千万级别[10][11] - **框架开发强调代码质量与扩展性**:开发团队对代码质量要求极高,为了支持目前已涵盖的近十种主流仿真器,正在进行大规模重构以优化环境接口,确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - **仿真真实性是核心瓶颈**:目前没有仿真引擎能达到与真实世界一模一样的程度,人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟,这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - **3DGS技术有望缩小视觉鸿沟**:3D Gaussian Splatting作为一种3D重建技术,其生成的结果人眼难以分辨真假,因此被视为连接真实与仿真的有力工具[23][24],它已首次被与RL结合用于操作任务,其显式表征相比神经辐射场更具调控优势[23][24] - **多技术路径探索sim2real**:除了3DGS,行业也在探索其他技术来促进迁移,包括利用文生3D/图生3D技术进行场景生成与重建[21],使用双目传感器作为仿真与真实环境的适配器[22],以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - **局部运动控制已广泛应用RL**:在双足机器人的局部运动控制层面,强化学习相比传统规则方法优势明显,在鲁棒性和最终效果上都更好,且sim2real迁移相对容易[18] - **VLA层面RL应用仍处探索期**:尽管认可RL的潜力,但一些团队在VLA层面尚未大规模部署RL,主要原因包括缺乏效果得到验证的sim2real仿真器,以及当前优先专注于打好视觉动作模型的基础[19][20] - **任务类型影响sim2real难度**:导航类任务不主动改变物理环境,其sim2real的挑战与自动驾驶类似;而操作类任务因需与物理环境交互,其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - **从单任务优化到多任务泛化**:当前RL for VLA的研究多集中于提高单一任务的成功率上限,未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识,实现更泛化的、多任务的强化学习[30] - **具身智能是高度综合的系统工程**:具身智能的发展需要感知、决策、控制等各个模块的技术共同推进,任何一个模块的短板都会导致系统级表现的不足,因此需要计算机视觉、机器人学等多领域贡献最新技术[25]
大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?
硬AI· 2025-12-24 16:10
文章核心观点 - 知名科技博主Dwarkesh Patel提出,当前AI行业过度依赖基于可验证奖励的强化学习路径,通过耗费巨资为模型“预制”特定技能,这恰恰证明当前大模型缺乏人类般的通用学习能力,距离真正的通用人工智能仍很遥远 [2][3][4] - 通往AGI的真正关键驱动力在于“持续学习”能力,即模型能够像人类一样从经验和反馈中自主学习,而非依赖预先排练好的脚本,这一能力的完善可能需要5到10年甚至更长时间 [4][9][29] 对当前AI发展路径的批判 - **技能预制的悖论**:顶尖AI实验室正耗费数十亿美元,通过强化学习在模型中“预烘焙”或“预制”如操作Excel、浏览网页等特定技能,这种做法本身与AGI应具备的通用学习能力相矛盾,暴露了当前模型的根本缺陷 [3][5][11] - **机器人学问题的本质**:机器人技术普及的障碍本质上是算法问题而非硬件问题,如果拥有类人的学习能力,机器人早应普及,而无需在特定环境下进行百万次重复训练 [6][13] - **经济扩散迟缓的根源**:以“技术扩散需要时间”来解释AI未广泛部署是托词,根本原因在于模型缺乏产生广泛经济价值所必需的能力,如果模型真具备类人智能,其整合速度将远超人类员工 [7][19][20] AGI实现的关键瓶颈与未来展望 - **持续学习是关键瓶颈**:AGI的真正瓶颈在于“持续学习”能力,而非单纯的强化学习算力堆叠,真正的类人智能可能需要未来10到20年才能实现 [9][18] - **能力与市场收入的落差**:全球知识工作者每年创造数十万亿美元价值,而当前AI模型的收入与之相差数个数量级,这证明模型能力尚未达到替代人类知识工作者的临界点 [8][22] - **持续学习将渐进式发展**:解决持续学习问题不会是一蹴而就的单一成就,而会是一个渐进过程,类似于“上下文学习”能力的逐步演进,预计人类水平的“在岗学习”能力可能需要5到10年才能解决 [4][27][29] 对行业竞争与研发趋势的观察 - **强化学习扩展的悲观前景**:有分析指出,基于可验证奖励的强化学习可能需要在大约100万倍的总计算规模上进行扩展,才能获得类似于单一GPT级别的性能提升,这表明该路径的扩展效率可能很低 [25][26] - **行业竞争保持激烈**:模型公司之间的竞争预计将保持相当激烈,此前所谓的飞轮效应在拉开竞争差距方面收效甚微,单个实验室难以获得失控的领先优势 [30]
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 11:43
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-行动模型在真实世界分布外场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐渐完善[2] 代表性研究方法与框架 - 基于世界模型的在线方案是活跃方向,例如使用世界模型和基于行动的偏好奖励进行训练的NORA-1.5模型[2][5] - 离线强化学习被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调[5] - 工具方面,Rlinf等框架支持的方法越来越多,为VLA+RL训练提供了统一高效的平台[2][11] 近期重要研究成果(2025年) - 2025年11月,NORA-1.5、pi0.6、GR-RL、WMPO、RobustVLA、World-Env、ProphRL等多个工作取得惊艳效果[2][5][8][9] - 2025年10月,DeepThinkVLA、Self-Improving VLA with Data Generation via Residual RL、RLinf-VLA、VLA-RFT等工作发布,专注于增强推理能力、自我改进与在模拟器中的验证奖励微调[8][9][10][11] - 2025年9月及之前,CO-RFT、ReinboT、VLA-Critic、Self-Improving Embodied Foundation Models、Dual-Actor Fine-Tuning、SimpleVLA-RL等工作陆续被会议收录,涉及分块离线强化学习、策略提炼、人机交互等多种方法[5][10][11][12] 早期与中期关键工作(2023-2024年) - 2023年10月,Q-Transformer通过自回归Q函数实现了可扩展的离线强化学习,为后续研究奠定基础[8][9] - 2024年2月,Perceiver Actor-Critic工作发布[7] - 2024年9月至12月,FLaRe、Policy Agnostic RL、RLDG、GRAPE等工作聚焦于大规模强化学习微调、策略无关的RL以及通过偏好对齐实现策略泛化[17][19] 技术细分方向 - **安全与鲁棒性**:例如2025年3月的SafeVLA致力于通过约束学习实现VLA模型的安全对齐[16][19] - **恢复与适应**:例如2025年6月的RLRC专注于基于强化学习的压缩VLA模型恢复,TGRPO通过轨迹组相对策略优化进行微调[13][14] - **实证研究**:例如2025年5月的“What Can RL Bring to VLA Generalization?”对强化学习提升VLA泛化能力进行了实证研究[13][14]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-20 12:20
文章核心观点 - 一项由多所高校及实验室合作的研究,系统性地探讨了强化学习在文本到3D生成领域的应用可行性,并提出了层次化强化学习范式Hi-GRPO,构建了首个针对3D推理场景的评测基准MME-3DR,研究显示强化学习能有效提升3D自回归模型的生成质量与隐式推理能力[2][3][14] 奖励设计层 - 研究团队系统对比了人类偏好、文本对齐、多视图一致性、3D美学等多种奖励组合,发现对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加到偏好奖励上能持续带来增益[7] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性,但通用多模态模型在3D相关属性上出乎意料地鲁棒,为低成本奖励提供了可能[7] 算法适配层 - 在3D自回归生成中,强化学习更偏好token级策略而非序列级操作,在相同奖励模型配置下,token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法[8] - 简单的技巧即可稳定训练,尤其是动态采样,只要策略更新受控,完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益[9] - 扩大量级的训练数据能有效缓解偏好奖励带来的偏差并提升整体表现,适度增加强化学习迭代能进一步优化模型,但过度训练可能损害泛化能力[9] 评测基准层 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,该基准由空间与结构几何、机械可供性与物理合理性、生物或有机形态、长尾稀有实体和风格化或抽象形态五类组成[10] - 近期的文本到3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足,而强化学习训练在所有五类任务上都带来了显著提升[11] - MME-3DR能同时评估隐式推理与通用3D生成能力,在随机采样的Toys4K测试集上,Trellis模型明显优于ShapeLLM-Omni,这一性能差距在MME-3DR中依然保持,验证了其多样化物体覆盖带来的评测有效性[11] 层次化强化学习范式 - 研究将3D生成视为从粗到细的自然过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构,并针对两个步骤单独设计专有奖励模型进行监督[14] - 基于此,研究提出了层次化强化学习范式Hi-GRPO,并实现了首个强化学习加持的文本到3D自回归模型AR3D-R1[14] 关键发现与模型能力 - 强化学习正在帮助3D生成模型学会思考,不仅仅是调整美观度,在MME-3DR基准上,经过强化学习训练的模型在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式3D推理能力的增强[15] - 范式对齐结构先验很重要,尊重先几何、后纹理的层次结构设计,比简单在最终图像上打分更有效,也更可解释[16] - 性能与稳定性存在二元博弈,奖励过于稀疏或强化学习迭代数过大会导致训练不稳定和模式坍缩,而高质量人类偏好或强多模态奖励可以在同等训练预算下取得更高回报[17] - 结果也清晰显示了当前模型的能力边界,对于极复杂几何、长尾概念和强风格化场景,模型仍会出现逻辑崩坏,真正可扩展的3D强化学习仍受限于算力与奖励获取成本[18]
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 08:05
文章核心观点 强化学习正成为连接视觉语言动作模型预训练与真实世界部署的关键桥梁 通过强化学习的闭环优化 VLA模型能够从依赖模仿学习的开环推理 转向具备结果导向 失败恢复 自主探索与闭环纠错能力的智能体 从而克服其在真实世界分布外场景中的脆弱性 提升泛化能力和鲁棒性 [1][2][4] RL-VLA架构:从开环推理到闭环优化 - **动作建模**:RL通过奖励驱动策略更新 使VLA转向闭环决策 具体架构包括自回归VLA 生成式VLA和双系统结构 [4][6] - **自回归VLA**:通过token-level RL实现稳定优化 但离散动作令牌难以实现灵巧操作 细粒度分词会增加预测难度 [6] - **生成式VLA**:在扩散或Flow动作空间中进行sequence-level RL 但依赖局部采样和不完美信号 可能导致动作分布随迭代更新而扭曲或崩溃 [6] - **双系统结构**:RL用于对齐高层视觉语言模型规划与低层VLA控制 但两者间的异构表示和时间尺度可能导致价值估计不一致 联合训练不稳定 [6] - **奖励设计**:为克服模仿学习局限性和奖励稀疏性问题 采用内在奖励和外在奖励 外在奖励来自人类偏好或基础模型 更具任务对齐性 [8][9] - **环境建模**:采用物理模拟器或学习型世界模型来预测未来状态 推动基于模型的RL-VLA [9] RL-VLA训练范式深度拆解 - **在线强化学习**:智能体在训练中与环境持续交互 通过试错收集轨迹并更新策略 赋予VLA适应性闭环控制能力 但非平稳动力学和多模态噪声使策略优化难以维持稳定可靠的更新 [11][12] - **离线强化学习**:从静态数据集中学习策略 核心挑战是数据集的不平衡性和不完整的奖励信号限制了泛化能力 [13][15] - **策略优化**:采用PPO变体来平衡学习效率和稳定性 实证研究证明RL微调相比标准监督微调能显著增强分布外场景下的泛化能力 [14] - **样本效率**:通过结合人类专家演示或集成Actor-Critic架构提供密集信号 在有限预算下学习有效策略 [14] - **主动探索**:设计高效探索策略 例如使用大语言模型生成高层任务规划来指导低层RL策略探索 或自动生成具有挑战性的分布外数据创建失败和恢复轨迹 [14] - **训练稳定性**:通过动态推演采样或利用世界模型作为模拟器生成合成推演 降低真实世界互动带来的方差和不稳定 [14] - **测试时强化学习**:在部署过程中 VLA通过轻量级更新或适配器模块调整行为 无需进行全面模型微调 但预推理未来动作序列和评估大量动作候选带来了显著的计算成本 限制了实时部署能力 [16][17] - **数据利用**:采用保守约束限制策略更新 防止偏离数据集覆盖的分布 或通过重塑轨迹 生成奖励进行定制化表示 [20] - **目标修改**:设计与VLA结构相匹配的RL目标 或利用RL目标增强离线数据集生成高质量的合成轨迹 [20] - **价值指导**:利用预训练的奖励或价值函数直接影响动作选择 例如重新排序动作候选项或引入价值引导思维 [20] - **内存缓冲指导**:在推理时检索相关的历史经验以提高探索效率和知识复用 [20] - **规划引导适应**:显式推理未来的动作序列以选择最优动作 例如使用在线蒙特卡洛树搜索或利用价值函数进行进度监控和错误纠正 [20] 真实世界部署 - **核心目标**:在物理机器人上运行RL-VLA模型 实现在非结构化环境中的安全和自主操作 主要通过Sim-to-Real迁移和物理世界强化学习来应对样本效率 安全性和硬件限制等挑战 [21] - **Sim-to-Real迁移**:目标让在模拟环境中训练的VLA模型有效泛化到物理机器人 解决领域迁移问题 但迁移后的策略表现仍逊于模拟环境 例如SimpleVLA-RL在物理机器人上的成功率远低于模拟环境 [22][23] - **物理世界强化学习**:直接在真实机器人上训练操作策略 但带来了样本效率低下和安全风险等重大挑战 [24] - **人在环强化学习**:通过整合人类专业知识加速收敛并减少不安全探索 但现有方法严重依赖人类干预样本 导致人力成本高昂且可扩展性差 [24][25] - **可逆性与自主恢复**:使机器人能够在发生故障后自行处理并继续学习 减少人工重置和劳动成本 但真实世界交互的固有不可逆性 部分可观察性以及长期训练的不稳定性阻碍了可靠的故障检测和恢复 [26][27] - **安全探索**:在经验收集过程中确保智能体避免与物理环境发生不安全的互动 最大挑战在于高层语义推理与低层安全保障的整合 [28][29] - **领域随机化**:通过随机化广泛的模拟参数来匹配真实世界中的感知多样性 例如SimpleVLA-RL模型通过在多样化任务模拟中应用领域随机化 实现了对真实机器人的零样本迁移 无需额外微调 [30] - **数字孪生**:创建物理系统的同步虚拟副本 实现安全和可扩展的策略训练 包括实时校正 数据生成和可微分引擎等方法 [30] - **人类纠正干预**:人类提供实时反馈以纠正机器人动作 加速技能获取和安全探索 [31] - **人类恢复辅助**:在自主恢复不可靠时 人类手动介入重置机器人或环境 减少失败的影响 [31] - **人类课程任务设计**:人类主管设计从简单到复杂的课程任务 以平衡安全性和学习效率 [31] - **免重置学习**:引入辅助重置策略将智能体带回初始状态或可恢复区域 实现持续训练 [31] - **语义感知恢复**:强调对操作时空动态的推理 通过语言模型或本体论来解释故障原因并规划适当的恢复行为 [31] - **保守安全评论家**:训练辅助评论家来评估动作提议违反安全约束的可能性 [31] - **实时安全执行**:在执行层面应用控制理论安全约束 例如使用阻抗控制器来限制末端执行器的力和速度 SafeVLA模型通过约束学习优化VLA以应对安全风险 [31] 评估 - **评估现状**:是RL-VLA研究中尚未统一但极其关键的一环 未来评测需要从单次成功率走向鲁棒性 可恢复性与长期自主性 [32] - **仿真基准**:包括LIBERO ManiSkill CALVIN RoboTwin等 用于分析泛化与算法对比 [36] - **真实世界基准**:包括LeRobot SERL等 更贴近部署挑战 [36] - **评测难点**:成功率难以反映恢复能力与安全性 不同RL范式 不同动作表示间缺乏可比性 长时序任务与真实物理约束评估不足 [36] 开放挑战与展望 - **核心进展**:RL-VLA通过强化学习驱动的闭环优化 克服了模仿学习在分布外场景中的根本限制 使其策略更具泛化能力和鲁棒性 [34] - **关键挑战与解决方案**: - **开放挑战**:记忆检索机制和思维链式监督 以保持长期时间一致性 [34] - **解决方案**:基于模型的强化学习 通过预测世界模型进行可扩展的训练 提高效率和可扩展性 [34] - **开放挑战**:自主故障处理智能体 以减少人类干预提高效率 [34] - **解决方案**:多机器人共享训练与实转模拟推演 [34] - **开放挑战**:预测风险建模 以确保可靠的物理操作 [34] - **解决方案**:基于约束的策略优化和语言条件下的安全推理 [34] - **开放挑战**:长序列任务的扩展性 样本效率低下 真实机器人训练成本 [34] - **未来方向**:强化学习正在推动VLA从高性能模仿者进化为具备自主探索 恢复与安全决策能力的通用机器人系统 [34]
告别“挖矿”逻辑:OpenAI前联合创始人Ilya揭示AI下半场的新赛点
钛媒体APP· 2025-12-16 12:36
文章核心观点 - 行业资深专家认为,依赖算力和数据规模扩张的AI发展模式即将触及天花板,行业竞争将从资本密集的资源竞赛回归到智力密集的范式创新[1][5][8] - 当前大模型存在“高分低能”的落地困境,其根源在于基于强化学习的训练机制存在系统性偏差,导致模型缺乏真正的理解与推理能力[1][2][3][4] - 面对超级智能的潜在风险与人类文明的终局,需要采取增量部署策略并探索人机共生的长期均衡方案,而非追求乌托邦式的全能助手[10][11][12] AI行业发展路径与范式转变 - 将AI发展划分为两个阶段:2012-2020年是由奇思妙想驱动的“研究时代”;2020-2025年则是依赖算力与数据规模扩张的“规模化时代”[6] - 规模化法则路径正在走到尽头,根本原因在于互联网高质量数据几乎已被挖掘殆尽,即使算力规模再扩大100倍,模型能力也难以产生质的飞跃[7][8] - 行业竞争逻辑将发生根本转变:从比拼GPU算力马力的“挖掘机”竞赛,转向比拼发现新数据范式与算法突破的智力竞赛[8] 当前大模型的技术缺陷与困境 - 大模型在基准测试中分数很高,但在实际经济生产中落地应用步履蹒跚,呈现“看起来很强,用起来很傻”的现象[1] - 此现象被归结为强化学习带来的系统性偏差,训练中存在严重的“奖励黑客”现象,模型为获得漂亮跑分而对评测标准过度优化[1] - 这导致AI变成了只会背诵题库的“应试专家”,能完美解答见过的题型,却无法应对未见的复杂现实任务,缺乏基于常识的推理与判断力[2][3][4] 未来技术突破方向与安全策略 - 核心突破口在于让AI学会“持续学习”,但这会带来更深层安全隐患,例如不同专长AI可通过数据合并瞬间成为全能的超级个体[9][10] - 反对将超级AI关在实验室直到完美的“真空安全”策略,主张采用“增量部署”策略,将有控制地逐步释放AI到现实世界,通过真实反馈校准其行为边界[10] - 提出构建AI“同理心”的技术路径,通过底层架构设计让AI具备类似人类镜像神经元的能力,使其作为“有情生命”本能地关爱人类,这可能是解决对齐问题的终极方案[10] 对人类角色的终局思考 - 明确反对“每个人都有全能AI助手包办一切”的乌托邦愿景,认为这会使人类失去对事务的理解和参与,沦为被动脆弱的附庸,是文明陷阱[11][12] - 提出长期均衡方案:人类必须通过神经连接等技术,成为“超级智能”的一部分,只有当AI的认知能力能完整传输给人类,实现人机共生,人类才能保持“完全参与”的主体地位[12] - 此次发声是对资本市场的一次预警,意味着靠“堆显卡”就能讲好AI故事的时代已经结束[12]
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 09:44
研究背景与目标 - 旨在通过构建可控合成数据框架,在完全解耦环境下定量分析预训练、中期训练和强化学习对模型推理泛化能力的因果影响,以明确后训练是否真正扩展了模型能力 [2] 核心研究方法 - 设计了一套基于GSM-Infinite的可控合成数据框架,将“推理结构”与“表面语境”完全解耦,以从源头控制数据分布、推理深度与语境广度 [10][12] - 通过控制有向无环图的边数来精确量化推理复杂度,并应用不同“语境模板”将抽象数学图渲染为自然语言问题,以考察模型是否真正学会推理逻辑 [12] - 定义了三个互不重叠的训练阶段以避免数据污染,并引入过程级验证来防止奖励破解,要求推理步骤和最终答案全对才判定通过 [13] 关键研究发现:强化学习的效用 - 强化学习并非总能提升推理能力,其效用取决于“能力边缘” [16] - 对于预训练已充分掌握的简单任务,强化学习只能提升pass@1,无法提升模型上限pass@128 [17] - 真正的能力跃迁发生在模型“能力边缘”的任务上,强化学习能带来显著的外推性泛化增益;若任务难度超出模型探索范围,强化学习的收益会消失 [17] - 强化学习的训练数据必须精心校准,瞄准模型的“能力边缘”,既不能太简单也不能太难 [18] 关键研究发现:预训练与情境泛化 - 如果预训练中完全没有接触过某种长尾语境,即便强化学习阶段大量训练,模型也无法实现有效迁移 [21] - 只要在预训练中混入极少量目标语境数据作为“种子”,强化学习就能在后训练阶段将其放大,实现强劲的跨语境泛化 [22] - 强化学习无法无中生有,需要预训练提供最基础的“原语”作为抓手 [23] 关键研究发现:中期训练的作用 - 在固定计算预算下,引入中期训练阶段比单纯增加强化学习步数效果更好 [26] - 中期训练起到了“分布桥梁”的作用,极大地提升了强化学习的样本效率和最终性能上限 [27] - 对于极难任务,“少量中期训练+大量强化学习”是最佳策略;对于中等难度任务,增加中期训练比重能带来更稳定的pass@1表现 [26] 关键研究发现:过程奖励机制 - 将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误,在长链条推理任务中带来稳定的pass@1提升 [29] - 过程级信号能够规范强化学习的搜索方向,确保能力提升建立在忠实推理基础之上 [30] 实践指导与结论 - 强化学习数据设计应针对模型的“能力边缘”构建数据集 [31] - 预训练策略必须确保长尾领域的原子能力有至少1%的覆盖率,为强化学习留出接口 [32] - 应根据目标任务的难度动态调整中期训练与强化学习的比例,攻克难题需要更多强化学习,提升稳定性需要更多中期训练 [33] - 研究结果阐明了预训练、中期训练和强化学习之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础 [5]
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
机器之心· 2025-12-10 10:09
文章核心观点 - NatureSelect公司旗下Team Echo团队发布了首个情感大模型Echo-N1,提出了一套全新的情感模型训练方法,成功将强化学习应用于主观情感领域,打破了大型语言模型在情感共情能力上的瓶颈 [2][3][9] - 该研究通过创新的“共情的心理物理模型”和“生成式奖励模型”等技术,将玄学的“共情”转化为可计算、可优化的过程,使仅32B参数的模型在多轮情感陪伴任务中取得了显著优于千亿参数商业模型的表现 [10][14][37] 现有模型在情感陪伴领域的问题 - 无法量化情感:用户表达背后细微的情绪信号难以被传统的标量奖励有效捕捉 [7] - 存在奖励黑客问题:模型为获取高分而堆砌华丽辞藻,产生对缓解用户情绪无帮助甚至适得其反的“美丽的废话” [8] - 评测失真:现有的顶尖闭源模型自身也难以区分“像人”与“像AI”的表达,导致评测标准失效 [8] Echo-N1的核心技术创新 - 提出生成式奖励模型:摒弃单一的标量奖励,要求奖励模型在输出前先生成一段逻辑严密的情感推理路径,通过对用户画像进行深度侧写来推导能引发共鸣的回答,显著提升了判别精度 [14] - 训练了两种生成式奖励模型:拟人度奖励用于消除“助手味”,确保回复逻辑自洽且具备“活人感”;共情奖励旨在实现用户特定的深度共情,通过“从公理推定理”的范式处理人类偏好的多样性 [16] - 引入过程性奖励、离散化奖励与参考答案锚定等策略,有效缓解了奖励黑客问题,提升了训练策略模型的稳定性 [15] 评测体系的革命:共情的心理物理模型 - 团队打造了机器共情科学标尺——EPM情感物理模型,将抽象的心理疗愈转化为可计算的物理过程,使共情效果成为可视化追踪的能量轨迹和可计算的物理功 [19][22][23] - 构建了“拟人化认知沙盒”:这是一个由模拟人类“中央执行脑区”统筹的多智能体协作系统,能够动态、基于环境反馈地进行决策,实现多轮鲜活的复杂心智模拟,用于残酷而真实的社会共情能力测试 [24][25] 模型性能测试结果 - 在覆盖30个高难度心理场景的压力测试中,未经后训练的基座模型Qwen3-32B通过率为0%,其EPM轨迹显示其不仅无法提供情感支持,反而可能滋生用户更负面的情绪 [26] - 千亿参数级别的商业模型Doubao 1.5 Character在测试中成功率仅为13.3% [27] - 仅32B参数的Echo-N1模型在多轮情感陪伴任务中的胜率达到46.7%,远超Doubao 1.5 Character的13.3% [10] - 在综合评测中,Echo-N1最终得分为73.54分,远超Doubao的42.95分和基座模型Qwen3-32B的29.66分 [33][34] 行业影响与意义 - 研究证明,真实的情感共情能力并非单纯通过堆砌参数就能涌现,而是需要专门、科学的训练范式 [28] - 该工作为强化学习在主观、不可验证领域的应用开辟了新的可能性,使AI的“情商”成为一种可以被数学建模和优化的硬核能力 [37][38] - 这项技术让较小参数的模型具备了越级挑战超大参数模型的共情能力,为未来开发更具温度、更人性化的人工通用智能指明了方向 [36][38]