强化学习
搜索文档
速递|前OpenAI员工创立Applied Compute以5亿美元估值融资,Lux Capital领投
Z Potentials· 2025-09-28 22:29
公司融资与估值 - Applied Compute公司正以5亿美元估值洽谈新一轮融资 而三个月前其上一轮融资估值为1亿美元 [1] - 本轮融资可能由投资过Cognition、Hugging Face和Runway等AI企业的Lux Capital领投 [1] - 公司此前已从Benchmark、Conviction和红杉资本等投资者处筹集了2000万美元资金 [2] - 由OpenAI前首席技术官联合创立的Thinking Machines Lab公司近期以100亿美元估值融资20亿美元 [4] 公司背景与技术 - Applied Compute由三位前OpenAI员工Rhythm Garg、Yash Patil和Linden Li于五月创立 三位创始人均曾就读于斯坦福大学并在2023和2024年加入OpenAI [2][3] - 公司旨在帮助软件开发者和企业运用强化学习技术为法律、金融等特定领域定制AI系统 [2] - 创始人在OpenAI期间曾参与开发ChatGPT的推理模型、编程AI及深度研究工具 [3] 行业技术与应用 - 强化学习技术通过奖励AI实现特定目标并惩罚其他行为 帮助OpenAI、Anthropic、xAI等开发者改进模型 [4] - 随着研究人员发现利用网络抓取数据改进模型的难度加大 强化学习方法已成为AI实验室的关键技术 [4] - 强化学习能显著降低企业开发行业专用AI应用的成本 例如修订法律合同或分析金融文件等场景 [3] - 该技术可能更容易构建能够自动化取代某些领域工作的模型 OpenAI高管预期整个经济将成为某种强化学习机器 [4]
限时权益价16.99万元,别克至境L7上市
北京商报· 2025-09-28 21:32
产品发布 - 上汽通用别克品牌推出至境L7车型 共5款配置 限时权益价16.99万至21.59万元[1] - 至境L7作为别克高端新能源子品牌"至境"的首款旗舰轿车 基于"逍遥"超级融合架构打造[3] 动力系统 - 搭载"真龙"增程系统 采用252kW增程单电驱 匹配1.5T混动专用发动机和峰值功率100kW发电机[3] - 百公里综合能耗低至0.5升 纯电续航达302公里 综合续航里程达1420公里[3] - 支持130kW快充 18分钟可完成30%至80%电量补充[3] 智能技术 - 采用"逍遥智行"辅助驾驶系统 全球首发搭载基于端到端"强化学习"的Momenta R6飞轮大模型[3] - 全球首发搭载高通SA8775P芯片 提供72 TOPS AI算力 支持智能座舱服务[3] - 通过软硬件系统整合 提供适配不同出行场景的沉浸式自然交互体验[3]
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心· 2025-09-28 12:50
文章核心观点 - 提出一种名为“基于模型奖励思维的强化学习”(RLMT)的新方法,旨在弥合大型语言模型在专门推理能力与通用对话能力之间的差距 [5] - RLMT方法将显式的思维链推理融入通用聊天模型,使模型在开放式任务中能进行“思考”,从而提升整体对话表现 [5][7] - 该方法结合了RLHF和RLVR的优势,通过优化目标函数,要求模型在生成最终答案前先生成推理轨迹,并使用奖励模型进行评分 [10][11] - 实验结果表明,启用思维的RLMT模型在多项基准测试中表现优于非思维基线模型,甚至在部分任务上媲美或超越更大的模型 [16][19] RLMT方法原理与动机 - 当前大模型训练面临两难:RLVR方法在数学、编程等可验证领域表现突出但难以泛化到日常对话,RLHF方法擅长对齐人类偏好但未鼓励内部推理过程 [6] - RLMT的动机源于人类处理开放式任务时会进行审慎思考(如规划、权衡、修正),该方法让语言模型模仿此过程以提升能力 [7] - 优化目标函数要求语言模型在生成最终回答y之前,先生成推理轨迹z,并使用奖励模型r对回答进行评分,而非依赖基于规则的验证 [11] 训练方法与实验设置 - 研究尝试了两种训练方法:通过有监督微调(SFT)进行热启动,以及直接在基础模型上应用RLMT的“Zero”方法 [12] - 热启动方法从数据集中采样6k个提示,使用Gemini 2.5 Flash作为教师模型生成模拟思维轨迹进行SFT [13] - “Zero”方法直接在未经后训练的Llama-3.1-8B和Qwen-2.5-7B基础模型上应用RLMT,仅通过添加指令前缀引导输出结构 [14] - 实验比较了不同模型(基础版和指令微调版)在热启动与“Zero”训练设置下,启用思维(RLMT)与不启用思维(RLHF)的表现 [15][17] 实验结果与性能表现 - 启用思维的RLMT模型在聊天基准测试(如WildBench、AlpacaEval2、ArenaHardV2)和创意写作任务上普遍优于非思维基线 [18] - 具体而言,最佳模型Llama-3.1-8B-Instruct-RLMT在WB、AE2、AH2上的得分分别为50.4、58.7、22.9,综合表现优于Llama-3.1-70B-Instruct(32.1)和Qwen2.5-72B-Instruct(45.2),并接近GPT-4o(53.2)和Claude3.7-Sonnet(58.9)的水平 [19] - 在训练算法上,GRPO下的RLMT整体效果优于DPO和PPO,尤其在“Zero”训练设置下优势更明显 [21] 模型行为分析 - 分析表明,RLMT训练能诱发模型产生更优秀的写作习惯,其思维过程与SFT模型不同 [23] - SFT模型的思维过程倾向于从分层规划开始,风格是线性的;而RLMT模型则先列出约束和子主题,再进行分组和规划,风格是迭代式的,会回头修订之前的内容 [25][29] - 这种行为差异使得RLMT模型在规划时更注重全局检查和修正,从而提升了输出质量 [25] 总结与行业意义 - RLMT成功将显式推理优势从专业化领域扩展到通用对话AI,在保持计算效率的同时实现了显著性能提升 [26] - 该方法在不同模型架构、训练算法和评测基准上均有效,表明其具有广泛适用性,有潜力重塑语言模型的训练方式 [26] - “先思考再表达”的RLMT范式代表着迈向更智能、更强大的对话式人工智能系统的重要一步 [26]
为什么自动驾驶中的强化学习,没有很好的落地?
自动驾驶之心· 2025-09-28 11:50
如果您也想和自动驾驶学术界或工业界的大佬交流,欢迎加入自动驾驶之心知识星球。 我们是一个认真做内容的社区,一个培养未来 领袖的地方。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。 为什么自动驾驶领域内的强化学习,没有很好的落地? 柱哥昨晚和星球嘉宾讨论自动驾驶强化学习的内容,分享给大家。 强化学习一直面临一个很严重的问题 - reward hack,当安全要求提高后,效率会降低。效率提升又可能导致安全性降低。所以这就引申 出一个问题,如何设计一个balance的reward,能够去平衡每一项表现。想得到一个全面性能提升的强化学习模型,其实非常难。多个 reward之间如何达到平衡也非常困难的。当然也有类似使用逆强化学习的方法去训练每一个reward的权重。 具身智能在我的理解中是一个local motion 的工作,它的目标很清晰。但自动驾驶不仅要完成最终行驶的目标,在中间的过程还要强依 赖某些驾驶规则。比 ...
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-28 07:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 摘 要 在大模型飞速发展的当下,让多模态大语言模型(VLM)在自动驾驶场景图像中做出准确的空间推理,依然是人工智能领域的一大挑战。学术界一直缺 乏针对自动驾驶场推理的大规模基准,现有方法往往依赖外部专家模型,难以全面衡量模型能力。 与此形成鲜明对比的是,人类可以凭借已有知识轻松判断图像中物体的朝向,或推理多个物体的相对位置。而VLM同样具备丰富的知识,却仍在此类任务上 表现不足。 为此,武汉大学联合中科院自动化所,北京智源人工智能研究院 (BAAI)等多家单位推出 首个面向驾驶场景的VLM空间推理大规模基准 SURDS ,系统评测了 包括 GPT 系列在内的通用模型及 SpatialRGPT 等空间推理模型,全面揭示了当前VLM在空间理解方面的短板。研究团队通过设计"感知准确性"和" ...
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
具身智能之心· 2025-09-27 09:33
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 此外,模型在训练过程中还展现出自主探索能力,并涌现出新的操作策略,例如通过"推动"替代"抓取"的 Pushcut现象 。这些结果表明, SimpleVLA-RL为VLA模型的高效训练与泛化能力提升开辟了新的研究路径。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨在融合视觉感知、语言理解与动作生成,从而在复杂物理环境中实现灵活的任务执行。 ...
OpenAI两位首席最新采访信息量好大,终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
36氪· 2025-09-26 20:15
文章核心观点 - OpenAI高管阐述了公司未来战略,核心是将GPT-5作为推动推理能力和Agentic行为成为主流的关键一步,并致力于实现“自动化研究员”的长期目标 [6][13][25] - 公司认为现有模型评估指标正趋近饱和,未来将重点关注模型在科学发现和经济相关领域取得实际进展的能力 [8][13][15] - 强化学习被强调为远未达到瓶颈的关键技术,其与语言模型的结合是重要突破点,公司预计相关工具和方法论将持续快速迭代 [16][17] 技术发展路线图 - GPT-5是公司策略重心转向默认提供推理和更多Agentic行为的重要标志,旨在整合此前GPT系列(即时响应)和o系列(推理)的不同模式 [6][7] - 未来技术发展的一个关键衡量指标是模型进行有效推理和取得进展的时间跨度,当前水平为1~5小时,公司下一步将专注于延长此时间跨度,提升模型的长期规划能力和记忆保持 [13][15] - 编程模型已取得显著进步,从解决八年级数学问题到在编码竞赛中达到人类水平仅用约一年时间,改变了默认的编码方式,下一代方向可能是“氛围研究” [19][21] 研究与评估方法演进 - 公司承认过去依赖的评估体系已接近饱和,早期通过大规模预训练评估泛化能力,现在则通过针对严肃推理的强化学习培养领域专家,但缺乏更合适的评估体系 [8] - 未来评估将不再局限于传统基准测试,而是转向模型能否发现新事物以及在具有经济相关性的领域取得实际进展 [8][13] - 编程竞赛被视为一个良好的封装测试环境,可用于衡量模型在受限环境和时间范围内提出新想法的能力 [18] 公司文化与人才策略 - 公司招人并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐那些具备坚持不懈特质、曾解决过难题、有扎实技术功底并愿意迎难而上的人才 [23][24] - 研究文化强调对假设保持清晰、对进展保持极度诚实,并保护基础研究不被短期产品竞争的节奏带偏,为研究员提供思考未来一两年重大问题的空间 [23][25] - 成功的秘诀在于专注于基础研究而非简单模仿竞争对手,公司通过清晰的研究目标和创新氛围来吸引和留住人才 [23] 资源分配与核心约束 - 若有10%的额外资源,公司明确会投向计算资源,认为计算仍是当前的决定性约束因素,而非数据或人员 [26][27] - 公司处于强烈的计算限制下,其研究路线主要基于长期信念而非短期市场反馈,并需考虑能源等物理约束 [27][28] - 公司预测机器人技术会在不久的将来成为主要焦点 [28]
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
量子位· 2025-09-26 12:56
GPT-5的战略定位与能力演进 - 公司试图将推理能力带入主流,GPT-5是朝着默认提供推理和更多Agentic行为迈出的一步[7][8][9] - 公司策略重心是让用户无需在即时响应模型和推理模型之间选择,未来将聚焦于增加推理和Agents能力[8] - 相比o3等先前模型,GPT-5在多方面有改进,但其主要意义在于将推理模式带给更多用户[10] 模型评估体系的演变与未来方向 - 过去依赖大规模预训练的评估方法已非常接近饱和,早期通过评估测试模型泛化能力,如今针对严肃推理的强化学习使模型能在特定领域成为专家,但泛化性可能不足[12] - 未来将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展[13] - 对衡量模型自主运行时间长度的评估很感兴趣,当前推理水平达1~5小时,未来将专注于延长该时间跨度,提升长期规划与记忆能力[23][24][25] 强化学习(RL)的发展现状与前景 - 强化学习是一种通用且强大的方法,建立在深度学习的通用学习方法之上,其发展远未达到瓶颈[27][28] - 奖励模型的发展速度预计会非常快,未来会变得更简单,公司正逐步向更接近人类学习的方向迈进[29][30] - 理解强化学习的关键思维模式是不要将当下状态视为终局,需保持灵活,因工具和方法论将持续快速迭代[31] AI编程的进展与影响 - 新一代编程模型投入大量精力调整预设,以匹配程序员对解决方案等待时长的预期,解决了上一代模型在困难问题上耗时过少、简单问题上耗时过多的问题[33][34] - 编程竞赛提供了封装的测试环境,可衡量模型在受限环境和时间内提出新想法的能力[36] - 模型进步已改变编码默认方式,新一代认为“凭感觉编码”是常态,公司首要任务是使编码工具摆脱“恐怖谷”体验,达到如同事般好用的水平[37][41][42] 自动化研究员的长远目标与衡量标准 - 公司的一个宏大目标是培养自动化研究员,使其能自动发现新想法,计划先自动化内部研究工作,再扩展至其他科学领域[20][21] - 衡量该进展的“好方法”是观察模型可进行推理和取得进展的时间跨度[22] - 模型已能推动非常困难的前沿科学研究,自动化解决可能需要学生花费数月时间的工作,这被视为灵光一闪的时刻[15][16][17] 公司人才战略与研究文化 - 招聘并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐曾解决过难题、具备扎实技术功底并愿意迎难而上者,即使其原领域非深度学习[46][47] - 关键研究特质包括坚持不懈、对进展保持极度诚实、有清晰假设并知道何时调整方向,研究无捷径,需经验学会选择合适问题[44][45] - 团队文化强调保护基础研究,避免被短期产品竞争带偏,研究员需空间思考未来一两年的重大问题,公司优势在于专注基础研究而非模仿竞争对手[46][48] 资源分配与未来技术焦点 - 若有10%额外资源,将优先投入计算资源,因研究人员始终感觉算力不足,计算仍是决定性因素[49][50][51] - 研究路线基于长期信念而非短期市场反馈,需明确优先级以避免在所有方向都做第二名[51] - 除计算外,未来需考虑能源等物理约束,预测机器人技术将在不久的将来成为主要焦点[52]
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 10:08
为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 SimpleVLA-RL团队 投稿 量子位 | 公众号 QbitAI 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了 SoTA 的性能。更为关键的是,即便在有限数据的条件下, SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。 在 "单轨迹 SFT"(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率 从48.9%提升至96.9% ,长时序任务LIBERO-Long 从17.3%提升至91.7% 。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨 ...
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-26 07:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]