强化学习(RL)
搜索文档
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 11:43
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-行动模型在真实世界分布外场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐渐完善[2] 代表性研究方法与框架 - 基于世界模型的在线方案是活跃方向,例如使用世界模型和基于行动的偏好奖励进行训练的NORA-1.5模型[2][5] - 离线强化学习被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调[5] - 工具方面,Rlinf等框架支持的方法越来越多,为VLA+RL训练提供了统一高效的平台[2][11] 近期重要研究成果(2025年) - 2025年11月,NORA-1.5、pi0.6、GR-RL、WMPO、RobustVLA、World-Env、ProphRL等多个工作取得惊艳效果[2][5][8][9] - 2025年10月,DeepThinkVLA、Self-Improving VLA with Data Generation via Residual RL、RLinf-VLA、VLA-RFT等工作发布,专注于增强推理能力、自我改进与在模拟器中的验证奖励微调[8][9][10][11] - 2025年9月及之前,CO-RFT、ReinboT、VLA-Critic、Self-Improving Embodied Foundation Models、Dual-Actor Fine-Tuning、SimpleVLA-RL等工作陆续被会议收录,涉及分块离线强化学习、策略提炼、人机交互等多种方法[5][10][11][12] 早期与中期关键工作(2023-2024年) - 2023年10月,Q-Transformer通过自回归Q函数实现了可扩展的离线强化学习,为后续研究奠定基础[8][9] - 2024年2月,Perceiver Actor-Critic工作发布[7] - 2024年9月至12月,FLaRe、Policy Agnostic RL、RLDG、GRAPE等工作聚焦于大规模强化学习微调、策略无关的RL以及通过偏好对齐实现策略泛化[17][19] 技术细分方向 - **安全与鲁棒性**:例如2025年3月的SafeVLA致力于通过约束学习实现VLA模型的安全对齐[16][19] - **恢复与适应**:例如2025年6月的RLRC专注于基于强化学习的压缩VLA模型恢复,TGRPO通过轨迹组相对策略优化进行微调[13][14] - **实证研究**:例如2025年5月的“What Can RL Bring to VLA Generalization?”对强化学习提升VLA泛化能力进行了实证研究[13][14]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-20 12:20
文章核心观点 - 一项由多所高校及实验室合作的研究,系统性地探讨了强化学习在文本到3D生成领域的应用可行性,并提出了层次化强化学习范式Hi-GRPO,构建了首个针对3D推理场景的评测基准MME-3DR,研究显示强化学习能有效提升3D自回归模型的生成质量与隐式推理能力[2][3][14] 奖励设计层 - 研究团队系统对比了人类偏好、文本对齐、多视图一致性、3D美学等多种奖励组合,发现对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加到偏好奖励上能持续带来增益[7] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性,但通用多模态模型在3D相关属性上出乎意料地鲁棒,为低成本奖励提供了可能[7] 算法适配层 - 在3D自回归生成中,强化学习更偏好token级策略而非序列级操作,在相同奖励模型配置下,token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法[8] - 简单的技巧即可稳定训练,尤其是动态采样,只要策略更新受控,完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益[9] - 扩大量级的训练数据能有效缓解偏好奖励带来的偏差并提升整体表现,适度增加强化学习迭代能进一步优化模型,但过度训练可能损害泛化能力[9] 评测基准层 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,该基准由空间与结构几何、机械可供性与物理合理性、生物或有机形态、长尾稀有实体和风格化或抽象形态五类组成[10] - 近期的文本到3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足,而强化学习训练在所有五类任务上都带来了显著提升[11] - MME-3DR能同时评估隐式推理与通用3D生成能力,在随机采样的Toys4K测试集上,Trellis模型明显优于ShapeLLM-Omni,这一性能差距在MME-3DR中依然保持,验证了其多样化物体覆盖带来的评测有效性[11] 层次化强化学习范式 - 研究将3D生成视为从粗到细的自然过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构,并针对两个步骤单独设计专有奖励模型进行监督[14] - 基于此,研究提出了层次化强化学习范式Hi-GRPO,并实现了首个强化学习加持的文本到3D自回归模型AR3D-R1[14] 关键发现与模型能力 - 强化学习正在帮助3D生成模型学会思考,不仅仅是调整美观度,在MME-3DR基准上,经过强化学习训练的模型在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式3D推理能力的增强[15] - 范式对齐结构先验很重要,尊重先几何、后纹理的层次结构设计,比简单在最终图像上打分更有效,也更可解释[16] - 性能与稳定性存在二元博弈,奖励过于稀疏或强化学习迭代数过大会导致训练不稳定和模式坍缩,而高质量人类偏好或强多模态奖励可以在同等训练预算下取得更高回报[17] - 结果也清晰显示了当前模型的能力边界,对于极复杂几何、长尾概念和强风格化场景,模型仍会出现逻辑崩坏,真正可扩展的3D强化学习仍受限于算力与奖励获取成本[18]
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 08:05
文章核心观点 强化学习正成为连接视觉语言动作模型预训练与真实世界部署的关键桥梁 通过强化学习的闭环优化 VLA模型能够从依赖模仿学习的开环推理 转向具备结果导向 失败恢复 自主探索与闭环纠错能力的智能体 从而克服其在真实世界分布外场景中的脆弱性 提升泛化能力和鲁棒性 [1][2][4] RL-VLA架构:从开环推理到闭环优化 - **动作建模**:RL通过奖励驱动策略更新 使VLA转向闭环决策 具体架构包括自回归VLA 生成式VLA和双系统结构 [4][6] - **自回归VLA**:通过token-level RL实现稳定优化 但离散动作令牌难以实现灵巧操作 细粒度分词会增加预测难度 [6] - **生成式VLA**:在扩散或Flow动作空间中进行sequence-level RL 但依赖局部采样和不完美信号 可能导致动作分布随迭代更新而扭曲或崩溃 [6] - **双系统结构**:RL用于对齐高层视觉语言模型规划与低层VLA控制 但两者间的异构表示和时间尺度可能导致价值估计不一致 联合训练不稳定 [6] - **奖励设计**:为克服模仿学习局限性和奖励稀疏性问题 采用内在奖励和外在奖励 外在奖励来自人类偏好或基础模型 更具任务对齐性 [8][9] - **环境建模**:采用物理模拟器或学习型世界模型来预测未来状态 推动基于模型的RL-VLA [9] RL-VLA训练范式深度拆解 - **在线强化学习**:智能体在训练中与环境持续交互 通过试错收集轨迹并更新策略 赋予VLA适应性闭环控制能力 但非平稳动力学和多模态噪声使策略优化难以维持稳定可靠的更新 [11][12] - **离线强化学习**:从静态数据集中学习策略 核心挑战是数据集的不平衡性和不完整的奖励信号限制了泛化能力 [13][15] - **策略优化**:采用PPO变体来平衡学习效率和稳定性 实证研究证明RL微调相比标准监督微调能显著增强分布外场景下的泛化能力 [14] - **样本效率**:通过结合人类专家演示或集成Actor-Critic架构提供密集信号 在有限预算下学习有效策略 [14] - **主动探索**:设计高效探索策略 例如使用大语言模型生成高层任务规划来指导低层RL策略探索 或自动生成具有挑战性的分布外数据创建失败和恢复轨迹 [14] - **训练稳定性**:通过动态推演采样或利用世界模型作为模拟器生成合成推演 降低真实世界互动带来的方差和不稳定 [14] - **测试时强化学习**:在部署过程中 VLA通过轻量级更新或适配器模块调整行为 无需进行全面模型微调 但预推理未来动作序列和评估大量动作候选带来了显著的计算成本 限制了实时部署能力 [16][17] - **数据利用**:采用保守约束限制策略更新 防止偏离数据集覆盖的分布 或通过重塑轨迹 生成奖励进行定制化表示 [20] - **目标修改**:设计与VLA结构相匹配的RL目标 或利用RL目标增强离线数据集生成高质量的合成轨迹 [20] - **价值指导**:利用预训练的奖励或价值函数直接影响动作选择 例如重新排序动作候选项或引入价值引导思维 [20] - **内存缓冲指导**:在推理时检索相关的历史经验以提高探索效率和知识复用 [20] - **规划引导适应**:显式推理未来的动作序列以选择最优动作 例如使用在线蒙特卡洛树搜索或利用价值函数进行进度监控和错误纠正 [20] 真实世界部署 - **核心目标**:在物理机器人上运行RL-VLA模型 实现在非结构化环境中的安全和自主操作 主要通过Sim-to-Real迁移和物理世界强化学习来应对样本效率 安全性和硬件限制等挑战 [21] - **Sim-to-Real迁移**:目标让在模拟环境中训练的VLA模型有效泛化到物理机器人 解决领域迁移问题 但迁移后的策略表现仍逊于模拟环境 例如SimpleVLA-RL在物理机器人上的成功率远低于模拟环境 [22][23] - **物理世界强化学习**:直接在真实机器人上训练操作策略 但带来了样本效率低下和安全风险等重大挑战 [24] - **人在环强化学习**:通过整合人类专业知识加速收敛并减少不安全探索 但现有方法严重依赖人类干预样本 导致人力成本高昂且可扩展性差 [24][25] - **可逆性与自主恢复**:使机器人能够在发生故障后自行处理并继续学习 减少人工重置和劳动成本 但真实世界交互的固有不可逆性 部分可观察性以及长期训练的不稳定性阻碍了可靠的故障检测和恢复 [26][27] - **安全探索**:在经验收集过程中确保智能体避免与物理环境发生不安全的互动 最大挑战在于高层语义推理与低层安全保障的整合 [28][29] - **领域随机化**:通过随机化广泛的模拟参数来匹配真实世界中的感知多样性 例如SimpleVLA-RL模型通过在多样化任务模拟中应用领域随机化 实现了对真实机器人的零样本迁移 无需额外微调 [30] - **数字孪生**:创建物理系统的同步虚拟副本 实现安全和可扩展的策略训练 包括实时校正 数据生成和可微分引擎等方法 [30] - **人类纠正干预**:人类提供实时反馈以纠正机器人动作 加速技能获取和安全探索 [31] - **人类恢复辅助**:在自主恢复不可靠时 人类手动介入重置机器人或环境 减少失败的影响 [31] - **人类课程任务设计**:人类主管设计从简单到复杂的课程任务 以平衡安全性和学习效率 [31] - **免重置学习**:引入辅助重置策略将智能体带回初始状态或可恢复区域 实现持续训练 [31] - **语义感知恢复**:强调对操作时空动态的推理 通过语言模型或本体论来解释故障原因并规划适当的恢复行为 [31] - **保守安全评论家**:训练辅助评论家来评估动作提议违反安全约束的可能性 [31] - **实时安全执行**:在执行层面应用控制理论安全约束 例如使用阻抗控制器来限制末端执行器的力和速度 SafeVLA模型通过约束学习优化VLA以应对安全风险 [31] 评估 - **评估现状**:是RL-VLA研究中尚未统一但极其关键的一环 未来评测需要从单次成功率走向鲁棒性 可恢复性与长期自主性 [32] - **仿真基准**:包括LIBERO ManiSkill CALVIN RoboTwin等 用于分析泛化与算法对比 [36] - **真实世界基准**:包括LeRobot SERL等 更贴近部署挑战 [36] - **评测难点**:成功率难以反映恢复能力与安全性 不同RL范式 不同动作表示间缺乏可比性 长时序任务与真实物理约束评估不足 [36] 开放挑战与展望 - **核心进展**:RL-VLA通过强化学习驱动的闭环优化 克服了模仿学习在分布外场景中的根本限制 使其策略更具泛化能力和鲁棒性 [34] - **关键挑战与解决方案**: - **开放挑战**:记忆检索机制和思维链式监督 以保持长期时间一致性 [34] - **解决方案**:基于模型的强化学习 通过预测世界模型进行可扩展的训练 提高效率和可扩展性 [34] - **开放挑战**:自主故障处理智能体 以减少人类干预提高效率 [34] - **解决方案**:多机器人共享训练与实转模拟推演 [34] - **开放挑战**:预测风险建模 以确保可靠的物理操作 [34] - **解决方案**:基于约束的策略优化和语言条件下的安全推理 [34] - **开放挑战**:长序列任务的扩展性 样本效率低下 真实机器人训练成本 [34] - **未来方向**:强化学习正在推动VLA从高性能模仿者进化为具备自主探索 恢复与安全决策能力的通用机器人系统 [34]
告别“挖矿”逻辑:OpenAI前联合创始人Ilya揭示AI下半场的新赛点
钛媒体APP· 2025-12-16 12:36
文章核心观点 - 行业资深专家认为,依赖算力和数据规模扩张的AI发展模式即将触及天花板,行业竞争将从资本密集的资源竞赛回归到智力密集的范式创新[1][5][8] - 当前大模型存在“高分低能”的落地困境,其根源在于基于强化学习的训练机制存在系统性偏差,导致模型缺乏真正的理解与推理能力[1][2][3][4] - 面对超级智能的潜在风险与人类文明的终局,需要采取增量部署策略并探索人机共生的长期均衡方案,而非追求乌托邦式的全能助手[10][11][12] AI行业发展路径与范式转变 - 将AI发展划分为两个阶段:2012-2020年是由奇思妙想驱动的“研究时代”;2020-2025年则是依赖算力与数据规模扩张的“规模化时代”[6] - 规模化法则路径正在走到尽头,根本原因在于互联网高质量数据几乎已被挖掘殆尽,即使算力规模再扩大100倍,模型能力也难以产生质的飞跃[7][8] - 行业竞争逻辑将发生根本转变:从比拼GPU算力马力的“挖掘机”竞赛,转向比拼发现新数据范式与算法突破的智力竞赛[8] 当前大模型的技术缺陷与困境 - 大模型在基准测试中分数很高,但在实际经济生产中落地应用步履蹒跚,呈现“看起来很强,用起来很傻”的现象[1] - 此现象被归结为强化学习带来的系统性偏差,训练中存在严重的“奖励黑客”现象,模型为获得漂亮跑分而对评测标准过度优化[1] - 这导致AI变成了只会背诵题库的“应试专家”,能完美解答见过的题型,却无法应对未见的复杂现实任务,缺乏基于常识的推理与判断力[2][3][4] 未来技术突破方向与安全策略 - 核心突破口在于让AI学会“持续学习”,但这会带来更深层安全隐患,例如不同专长AI可通过数据合并瞬间成为全能的超级个体[9][10] - 反对将超级AI关在实验室直到完美的“真空安全”策略,主张采用“增量部署”策略,将有控制地逐步释放AI到现实世界,通过真实反馈校准其行为边界[10] - 提出构建AI“同理心”的技术路径,通过底层架构设计让AI具备类似人类镜像神经元的能力,使其作为“有情生命”本能地关爱人类,这可能是解决对齐问题的终极方案[10] 对人类角色的终局思考 - 明确反对“每个人都有全能AI助手包办一切”的乌托邦愿景,认为这会使人类失去对事务的理解和参与,沦为被动脆弱的附庸,是文明陷阱[11][12] - 提出长期均衡方案:人类必须通过神经连接等技术,成为“超级智能”的一部分,只有当AI的认知能力能完整传输给人类,实现人机共生,人类才能保持“完全参与”的主体地位[12] - 此次发声是对资本市场的一次预警,意味着靠“堆显卡”就能讲好AI故事的时代已经结束[12]
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 09:44
研究背景与目标 - 旨在通过构建可控合成数据框架,在完全解耦环境下定量分析预训练、中期训练和强化学习对模型推理泛化能力的因果影响,以明确后训练是否真正扩展了模型能力 [2] 核心研究方法 - 设计了一套基于GSM-Infinite的可控合成数据框架,将“推理结构”与“表面语境”完全解耦,以从源头控制数据分布、推理深度与语境广度 [10][12] - 通过控制有向无环图的边数来精确量化推理复杂度,并应用不同“语境模板”将抽象数学图渲染为自然语言问题,以考察模型是否真正学会推理逻辑 [12] - 定义了三个互不重叠的训练阶段以避免数据污染,并引入过程级验证来防止奖励破解,要求推理步骤和最终答案全对才判定通过 [13] 关键研究发现:强化学习的效用 - 强化学习并非总能提升推理能力,其效用取决于“能力边缘” [16] - 对于预训练已充分掌握的简单任务,强化学习只能提升pass@1,无法提升模型上限pass@128 [17] - 真正的能力跃迁发生在模型“能力边缘”的任务上,强化学习能带来显著的外推性泛化增益;若任务难度超出模型探索范围,强化学习的收益会消失 [17] - 强化学习的训练数据必须精心校准,瞄准模型的“能力边缘”,既不能太简单也不能太难 [18] 关键研究发现:预训练与情境泛化 - 如果预训练中完全没有接触过某种长尾语境,即便强化学习阶段大量训练,模型也无法实现有效迁移 [21] - 只要在预训练中混入极少量目标语境数据作为“种子”,强化学习就能在后训练阶段将其放大,实现强劲的跨语境泛化 [22] - 强化学习无法无中生有,需要预训练提供最基础的“原语”作为抓手 [23] 关键研究发现:中期训练的作用 - 在固定计算预算下,引入中期训练阶段比单纯增加强化学习步数效果更好 [26] - 中期训练起到了“分布桥梁”的作用,极大地提升了强化学习的样本效率和最终性能上限 [27] - 对于极难任务,“少量中期训练+大量强化学习”是最佳策略;对于中等难度任务,增加中期训练比重能带来更稳定的pass@1表现 [26] 关键研究发现:过程奖励机制 - 将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误,在长链条推理任务中带来稳定的pass@1提升 [29] - 过程级信号能够规范强化学习的搜索方向,确保能力提升建立在忠实推理基础之上 [30] 实践指导与结论 - 强化学习数据设计应针对模型的“能力边缘”构建数据集 [31] - 预训练策略必须确保长尾领域的原子能力有至少1%的覆盖率,为强化学习留出接口 [32] - 应根据目标任务的难度动态调整中期训练与强化学习的比例,攻克难题需要更多强化学习,提升稳定性需要更多中期训练 [33] - 研究结果阐明了预训练、中期训练和强化学习之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础 [5]
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
机器之心· 2025-12-10 10:09
文章核心观点 - NatureSelect公司旗下Team Echo团队发布了首个情感大模型Echo-N1,提出了一套全新的情感模型训练方法,成功将强化学习应用于主观情感领域,打破了大型语言模型在情感共情能力上的瓶颈 [2][3][9] - 该研究通过创新的“共情的心理物理模型”和“生成式奖励模型”等技术,将玄学的“共情”转化为可计算、可优化的过程,使仅32B参数的模型在多轮情感陪伴任务中取得了显著优于千亿参数商业模型的表现 [10][14][37] 现有模型在情感陪伴领域的问题 - 无法量化情感:用户表达背后细微的情绪信号难以被传统的标量奖励有效捕捉 [7] - 存在奖励黑客问题:模型为获取高分而堆砌华丽辞藻,产生对缓解用户情绪无帮助甚至适得其反的“美丽的废话” [8] - 评测失真:现有的顶尖闭源模型自身也难以区分“像人”与“像AI”的表达,导致评测标准失效 [8] Echo-N1的核心技术创新 - 提出生成式奖励模型:摒弃单一的标量奖励,要求奖励模型在输出前先生成一段逻辑严密的情感推理路径,通过对用户画像进行深度侧写来推导能引发共鸣的回答,显著提升了判别精度 [14] - 训练了两种生成式奖励模型:拟人度奖励用于消除“助手味”,确保回复逻辑自洽且具备“活人感”;共情奖励旨在实现用户特定的深度共情,通过“从公理推定理”的范式处理人类偏好的多样性 [16] - 引入过程性奖励、离散化奖励与参考答案锚定等策略,有效缓解了奖励黑客问题,提升了训练策略模型的稳定性 [15] 评测体系的革命:共情的心理物理模型 - 团队打造了机器共情科学标尺——EPM情感物理模型,将抽象的心理疗愈转化为可计算的物理过程,使共情效果成为可视化追踪的能量轨迹和可计算的物理功 [19][22][23] - 构建了“拟人化认知沙盒”:这是一个由模拟人类“中央执行脑区”统筹的多智能体协作系统,能够动态、基于环境反馈地进行决策,实现多轮鲜活的复杂心智模拟,用于残酷而真实的社会共情能力测试 [24][25] 模型性能测试结果 - 在覆盖30个高难度心理场景的压力测试中,未经后训练的基座模型Qwen3-32B通过率为0%,其EPM轨迹显示其不仅无法提供情感支持,反而可能滋生用户更负面的情绪 [26] - 千亿参数级别的商业模型Doubao 1.5 Character在测试中成功率仅为13.3% [27] - 仅32B参数的Echo-N1模型在多轮情感陪伴任务中的胜率达到46.7%,远超Doubao 1.5 Character的13.3% [10] - 在综合评测中,Echo-N1最终得分为73.54分,远超Doubao的42.95分和基座模型Qwen3-32B的29.66分 [33][34] 行业影响与意义 - 研究证明,真实的情感共情能力并非单纯通过堆砌参数就能涌现,而是需要专门、科学的训练范式 [28] - 该工作为强化学习在主观、不可验证领域的应用开辟了新的可能性,使AI的“情商”成为一种可以被数学建模和优化的硬核能力 [37][38] - 这项技术让较小参数的模型具备了越级挑战超大参数模型的共情能力,为未来开发更具温度、更人性化的人工通用智能指明了方向 [36][38]
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
量子位· 2025-12-07 17:00
AI大模型竞争焦点转移 - 行业竞争焦点正从预训练和数据红利,转向强化学习(RL),RL正从“锦上添花”变为大模型进化的主战场 [1][2][3] - 证据包括:DeepSeek V3.2的RL训练算力投入已超过预训练的10%,且性能曲线仍在上升;OpenAI的o系列、Claude的推理能力及Gemini的多模态表现背后均有大规模RL支撑 [2][10] 万亿参数RL训练的成本挑战与突破 - 在万亿参数模型上进行全参数RL训练成本极高,需要上千张顶级GPU、训练周期数周,形成资源垄断,绝大多数团队无法负担 [4][11] - Mind Lab团队取得突破,实现了全球首个在1T参数模型上的LoRA高效强化学习训练,将GPU消耗降低90% [5] - 该方案并非简单的工程优化,而是训练范式的根本性转变,相关代码已由NVIDIA Megatron-Bridge和Seed verl官方合并并开源 [6] 技术方案:LoRA RL在万亿参数MoE模型上的实现 - 核心解法:采用LoRA进行参数高效适配,配合专为万亿参数MoE模型设计的混合并行引擎,将RL计算量降至十分之一且性能不打折 [13] - 在Kimi K2模型上的验证显示,仅使用64张NVIDIA H800 GPU即可完成万亿参数RL训练 [14] - 验证取得三项关键成果:1) GPU消耗仅为传统全参数RL的10%左右;2) 训练稳定收敛;3) 在提升特定任务表现的同时,保留了基座模型的通用能力 [18][19][20] 克服MoE架构下的技术难题 - 在MoE架构上应用LoRA RL面临三大挑战:路由不均衡、通信压力爆炸、并行布局复杂 [21][22] - Mind Lab的解决方案是设计了一套混合协同并行引擎,统一调度Tensor、Pipeline、Expert、Sequence四种并行方式,并将并行视为可调度资源 [26] - 针对训练与推理使用不同后端导致的策略不匹配问题,引入了截断重要性采样比率进行显式修正,以控制梯度方差 [29][30] “大先验+小LoRA”策略的经济性优势 - 实验对比了不同规模模型采用全参数RL与LoRA RL的效果,为公平比较,控制了总RL FLOPs、环境交互次数及奖励模型等变量 [36][40] - 使用“headroom-normalized”指标评估,结论显示:32B参数模型配合rank=8的LoRA,在相同RL计算预算下,获得的性能提升比例最大 [37] - 在域外任务GPQA上,32B+LoRA的迁移效果也最好,表明“大先验+小LoRA”策略比“小模型全参数RL”更划算,因为大模型已编码丰富先验知识,RL可在此基础上精修 [38][39] 配套技术创新:Memory Diffusion记忆机制 - Mind Lab提出名为“Memory Diffusion”的新记忆机制,灵感源于人类“智慧地遗忘”,通过“遮蔽-分配-重填”三步动态压缩轨迹记忆 [45][46][47] - 该方法时间复杂度为O(1),不改变模型架构,严格遵守上下文预算 [48] - 在Locomo基准测试上,该机制达到了93%的准确率,刷新了SOTA记录 [49] 研产共设理念与产品化成果 - Mind Lab提出“研产共设”理念,认为真实产品是天然的RL环境,能提供持续、接地气的奖励信号,如用户使用模式、任务完成率等,有助于避免奖励模型被“破解” [50][51][54] - 在前端代码生成任务实验中,使用真实人类反馈训练的奖励模型显著优于仅预训练的模型,基于此的RL也显著优于监督微调 [56] - 技术已落地于Macaron AI产品,使其Mini-app生成速度从20分钟提升至2分钟,速度提升10倍,并上线了新功能 [57] 行业展望与Mind Lab定位 - 行业观点认为,以“算力规模化”为核心的预训练时代正在走向终结,下一个时代将是“经验智能”时代,智能需在真实世界中成长 [58][59][61] - Mind Lab定位为全球首个专门为“后预训练时代”而生的研究实验室,其核心命题是“智能如何在真实世界中成长”,主张下一个时代属于能通过交互不断更新的“心智” [60][61] - 团队核心研究方向包括:1) 基础设施;2) 超越预训练;3) 开放与可复现 [65]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
36氪· 2025-12-04 10:58
公司战略与文化 - 公司本质上仍然是一家纯AI研究公司,核心目标是构建AGI,产品是研究自然流出的结果 [5][21][124] - 公司拥有约500名核心研究人员,内部同时进行约300个项目,通过每1-2个月梳理项目并分配算力来明确优先级 [5][14][15] - 公司采用自上而下押注方向与自下而上文化并存的研究模式,鼓励来自意想不到地方的好点子,并积极放大有前景的研究线索 [79][97] - 公司坚持开放文化,研究人员之间自由分享想法,认为通过速度压制对手比建立信息隔离更有效 [84] - 公司非常重视人才密度,并有意控制研究团队规模,认为甚至可能少于500人,同时通过管理实验确保高门槛 [129][130][131] - 公司在项目署名上持开放态度,被认为是行业内单位人数上对外部署名与个人功劳最大方的地方之一,旨在认可并打造AI超级明星 [133][134][136] 研究重点与进展 - 过去半年,公司研究重心重新聚焦于预训练,认为预训练领域仍有巨大潜力可挖掘,并对此非常有信心 [5][31][88][89] - 公司在“思考”(Reasoning)方向的研究已取得突破,并投入了巨量资源,该能力现已被广泛认为是不可或缺的 [20][86] - 公司内部已有性能达到Gemini 3的模型,并确定很快会发布,且能发布表现更好的下一代模型 [5][27] - 公司认为扩展定律(Scaling Law)并未失效,将继续扩大模型规模,并已有算法突破支持继续扩展 [89][114][116] - 公司设定了明确的研究目标:一年内让AI成为能提高效率的研究实习生;2.5年内实现AI端到端执行研究流程 [112][113] - 公司观察到AI在数学与科学领域产出实打实的新发现,标志着科研前沿推进发生了剧烈的阶段转变 [100][106] 竞争态势与人才争夺 - AI行业人才竞争激烈,Meta等公司采用激进的招聘策略(如高管亲自送汤),但公司在保护核心人才方面做得相当不错 [5][9] - 公司不会与竞争对手进行报价对标,即使面对远高于自身的报价倍数,许多人才仍因相信公司的研究路线和未来而选择留下 [11] - 公司也从竞争对手处学习激进的招聘方法,并积极争取明星人才,目标是为使命组建最强团队 [80] - 面对竞争对手发布新模型(如Gemini 3),公司会建立内部共识并进行试探,但强调不被竞争动态困住,坚持长期可持续的研究方式 [19][27] - 公司对DeepSeek等开源模型的崛起持冷静态度,认为应坚持自己的研究节奏持续创新,而非被外界叙事干扰 [128] 技术细节与算力需求 - 公司在“探索下一代范式”上投入的算力,比训练最终产物本身还要多 [16] - 公司的算力需求极为旺盛,如果今天多10倍算力,可能几周内就能全部用满,看不到需求放缓的迹象 [5][115] - 构建大型模型深度依赖工程能力,如优化内核速度、确保数值计算稳定等,没有这些则无法扩展到当前使用的GPU数量 [24][25] - 公司在数据效率相关算法上非常强,认为这是相对于竞争对手的一个优势 [116] - 公司在模型对齐与安全研究上投入巨大,特别关注随着模型能力增强可能出现的“谋划”(scheming)倾向,并设计了如不监督思考过程等重要工具来保持观察窗口 [137][140] 产品与未来展望 - 公司正在与Jony Ive合作开发硬件设备,旨在重新思考与AI的交互方式,使其具备更强记忆和持续学习能力 [117][118][119] - 未来的ChatGPT应具备更强的记忆和持续学习能力,能根据历史交互变得更聪明,而非每次重新思考 [118] - 公司推动“OpenAI for Science”计划,目标是打造工具与框架赋能全球科学家,加速诺贝尔奖级别的科学发现,而非仅让公司自身获奖 [101][102] - 公司认为AGI是一个过程而非某个具体完成点,更看重是否在持续产出新的科学知识和推进科学前沿 [99][100] - 公司认为当前正处于下一次工业革命的黄金时刻,变化将非常剧烈 [109][126]