ROLL - 财报，业绩电话会，研报，新闻

ROLL

搜索文档

机器之心· 2026-01-07 13:16

文章核心观点 - 传统的“氛围编程”（Vibe Coding）在应对AI基础设施（AI Infra）等复杂系统开发时，存在上下文丢失、决策偏离和质量不稳定三大痛点，根源在于缺乏持久化、结构化的决策管理机制[3][4] - 为解决上述问题，文章提出并实践了“文档驱动的氛围编程”新范式，通过系统化的设计文档将关键决策前置、结构化和持久化，使开发者专注于高层设计，AI负责实现细节，从而高效、高质量地完成复杂系统开发[5][6][7] - 该新范式在阿里巴巴团队开发的、面向Agentic RL的GPU资源调度系统（一个数万行代码的分布式训练系统）中成功应用，通过“时分复用”方案解决了GPU利用率挑战，并在生产级集群上验证了其显著性能提升[9][14][45] AI编程范式演进与挑战 - “氛围编程”（Vibe Coding）因其“聊一聊就能生成代码”的体验，在简单任务上提升了开发效率，成为开发者新宠[2] - 但在AI Infra等复杂系统（动辄数万行代码、成百上千个相互关联的决策点）开发中，传统氛围编程面临三大困境：1) 上下文丢失：对话历史被压缩，关键设计决策在多轮交互中被遗忘；2) 决策偏离：AI自主做出的技术决策容易偏离开发者意图；3) 质量不稳定：相同需求在不同时间可能得到截然不同的实现方案[3][4] - 这些问题的根源在于当前对话式编程缺乏对复杂决策进行持久化、结构化管理的机制[4] 文档驱动的氛围编程方法论 - 核心理念是将复杂系统的关键决策前置到设计阶段，通过结构化设计文档体系化、持久化地记录所有决策点，让开发有章可循，大幅降低复杂度门槛[5][6] - 设计文档作为关键工具，实现了开发者与AI在关键决策上的对齐，直接解决了传统氛围编程的三大痛点：持久化文档消除上下文丢失，明确决策避免AI偏离意图，规范和代码逻辑确保质量稳定[24] - 该方法带来了工作方式的根本转变：开发者从编码、调试等执行层面，转向与AI讨论设计、通过文档明确决策直至完全对齐，然后由AI负责实现[24] - 与传统开发和单纯氛围编程相比，文档化氛围编程在理解架构、设计方案、编码效率与质量、团队协作等方面展现出综合优势[26] 方法论实施：组织、审阅与分步开发 - **内容组织**：设计文档需系统性地跟进自顶向下的决策点，并层次化拆解，形成决策体系。文档模板需包含迭代版本记录和代码实施进度[31][32] - **审阅修改**：建立了系统化的多轮迭代审阅流程以确保文档质量。利用工具（如iFlow CLI）将常见审阅场景的指令固化为Prompt模板，以应对理解困难、修改一致性、内容爆炸、AI过度设计、逻辑错误隐蔽性等挑战[28][33][35] - **分步实施**：实施分为两个阶段：1) 规划阶段：将设计拆解为依赖有序的小步骤（通常每步包含3-5个相互关联的方法），并绘制依赖图；2) 增量开发循环：AI按步骤读取设计并生成代码，开发者审查后提交，循环直至完成[36][37][39] 防御性编程与系统健壮性 - 在分布式AI训练等复杂系统中，微小的错误可能引发级联故障，而AI编程倾向于主动进行错误处理，有时反而会掩盖真实错误信息[40] - 新范式将防御性思维前置到设计阶段：在关键节点设置验证点，构建标准化的错误处理模式库，并利用AI自动生成健壮的防御代码[40] - 具体措施包括：1) 维护统一的验证模式库（如检查整数范围、出口条件检查等），遵循单一定义、多处复用原则；2) 在设计文档中用标准化注释标注验证需求；3) AI实施时自动将标注展开为具体验证逻辑；4) 对于超过10行的复杂验证，定义独立的验证函数[41][42][44] 应用案例：Agentic RL的GPU资源调度优化 - **业务挑战**：在Agentic RL采样过程中，智能体执行任务的时间呈长尾分布，导致经典的“落后者效应”，即必须等待最慢的样本完成，造成GPU资源闲置和浪费，成为性能瓶颈[12] - **方案对比**：业界主流方案存在缺陷：1) 共置方案：rollout和training严格串行，阶段内和阶段间均存在资源闲置；2) 异步分离方案：静态分配rollout和training专用GPU，引入“双边空泡”问题，即两侧GPU都可能出现闲置[13] - **创新方案**：提出“时分复用”方案，其核心是基于rollout对GPU资源需求动态波动的洞察，设计智能资源调度机制：在采样需求低谷期分配部分GPU执行训练任务，实现需求波动与资源调度的匹配[14] - **技术实现**：采用两阶段流程：1) 全力采样阶段：所有GPU协同处理大多数样本；2) 并行执行阶段：当采样完成度达标后，系统缩容，释放固定GPU转入训练模式，同时长尾样本迁移至剩余GPU继续处理。训练完成后立即扩容，回收所有GPU准备下一轮采样[14] - **方案价值**：该策略将训练的快速执行特性与rollout需求波动在时间维度巧妙匹配，提升了整体GPU资源利用效率，但显著增加了系统复杂度[15][18] 方案性能验证与结果 - **实验配置**：在生产级大规模集群（160卡GPU）上验证，使用Qwen3-235B-A22B模型（235B参数），设置最大交互轮数100轮，最大token长度64K，batch size为512[46] - **性能对比**：与采用128卡training、32卡rollout静态分配的baseline（异步分离方案）相比，采用动态调度的时分复用方案使rollout吞吐率提升了3.5倍[47] - **任务完成率**：Baseline方案因rollout资源受限（仅32卡），采样速度慢，导致大量任务触发超时限制。时分复用方案通过动态释放更多GPU用于rollout，显著加快采样速度，完全避免了超时，提升了训练稳定性和样本利用效率[50] - **系统开销**：分析表明，时分复用方案引入的额外参数同步开销（在160卡间进行）在整体训练时间中占比极小。缩容操作（释放rollout模型参数）的实测开销在秒级，未成为性能瓶颈[53][55]

文档驱动的Vibe Coding方法论

AI Infra

Agentic RL

Artificial Intelligence

Artificial Intelligence

Vibe Coding

iFlow CLI

聊聊关于 Agentic RL 训推框架的一点看法和思考

自动驾驶之心· 2025-12-16 08:03

文章核心观点文章是一篇对当前开源强化学习训练框架的技术调研与对比分析，作者基于其多模态模型在实际环境中进行多轮强化学习训练的业务需求，重点评估了verl、slime、AReaL、RL2等框架，并最终选择了AReaL框架其核心观点在于，当前强化学习训练框架在适配复杂、长尾的Agentic环境时面临挑战，而异步训练架构与灵活的环境交互设计是解决这些挑战的关键方向 [2][3][11] 强化学习训练框架的现状与挑战 - 开源社区强化学习训练框架呈现百花齐放的状态，包括老牌的openlhf、trl、unsloth、verl以及今年新开源的slime、AReaL、Rlinf、RL2、ROLL等 [2] - 目前没有一款框架能很好地适配多模态模型进行Agentic强化学习训练，主要难点在于Agentic环境与具体业务强相关，难以从框架层面抽象出通用函数或类来适配所有环境 [2] - 作者在调研中主要纠结于几个关键点：框架的社区活跃度与环境适配代码修改量、训练过程中的GPU编排问题、数据流向与数据结构的设计，以及异步训练的支持程度 [2][3][5][6] 同步与异步训练架构的对比 - 在2025年前半年的RLHF和RLVR时代，训练长尾效应不明显，因此早期成熟的强化学习训练框架（如verl）主要采用训练和推理同步的架构方案 [3] - 同步训练架构遵循先推理后训练的固定流程，可能导致训练效率低下和GPU资源空转，例如在相同GPU集群上交替卸载模型，或在不同集群上采用流水线方案 [3][5] - 异步强化学习训练成为新框架的优先支持特性，它能提升效率，但会引入数据偏移问题，使训练从on-policy退化为off-policy，并且需要为训练和推理分配不同的GPU资源以优化资源利用率 [11] 关键技术实现与设计考量 - **训推分离**：当前几乎所有强化学习训练框架都采用训练与推理分离的架构，训练引擎使用FSDP、Megatron，推理引擎采用sglang或vllm，中间通过Ray进行资源分配与调度 [12] - **权重更新机制**：训练侧更新模型权重后，需将新权重传递给推理引擎，涉及不同模型切分方案间的适配，常用技巧包括分桶传输、通过Router转发等以降低通信开销 [16][17][18] - **训推Gap问题**：由于推理引擎的优化（如KV量化、算子融合）可能导致其输出的logits与训练引擎存在差异，解决方法包括使用重要性采样来拟合分布差异，并需注意推理量化（如4bit）可能因分布差异过大而被裁剪，导致训练不稳定 [19][20][21][22] - **Token一致性**：为避免二次编码导致的token分布不一致，所有强化学习训练框架在rollout返回时会同步返回输出的token ids，直接供训练引擎使用 [23] 环境交互与Agentic训练支持 - 环境交互部分在所有强化学习框架中均为异步实现，以避免阻塞 [28] - verl框架的Agent多轮训练逻辑相对僵化，其设计以工具调用视角为主，处理流程写死，难以适应每个rollout环境状态不一致的复杂交互需求 [24][25] - AReaL和slime框架在环境适配上设计更巧妙，支持通过自定义函数或工作流基类来实现复杂的、自定义的环境交互逻辑，灵活性更高 [26][27] 异步训练与长尾问题解决方案 - **异步训练核心**：采用生产者-消费者模型，推理引擎作为生产者进行rollout，训练引擎作为消费者获取数据进行训练，通过消息队列管理数据 [29] - **陈旧度管理**：引入staleness参数控制数据有效性，当rollout数据的模型版本号与当前最新模型版本号差距超过设定值（通常为1-2）时，数据将被丢弃，以防止因模型分布偏离过大导致训练无效 [32] - **部分Rollout**：这是解决长尾任务导致资源浪费的关键技术，当需要更新推理引擎权重时，可暂停正在进行的rollout任务，更新权重后从中断处继续，从而兼顾训练连续性与模型更新及时性 [37][38] 强化学习算法与奖励设置的思考 - 当前大语言模型的强化学习算法主要分为序列级奖励和Token级奖励两类，根本上都是PPO算法的变体 [39] - 奖励设置在Token粒度上难度较大，因为很难为序列中的每个Token设计客观合理的奖励，而实际业务的动作粒度通常由多个Token组成，因此是否存在针对业务动作粒度的最优奖励方案仍有待验证 [39] - 强化学习训练的成功关键被认为在于环境和奖励的设置，当前主流方案仍依赖大语言模型或智能体作为评判者，并辅以多种提示词技巧，但根本上仍无法完全避免奖励黑客问题 [42] 各框架特点总结与选择建议 - **verl**：代码工程化程度高，侧重训练与推理引擎的调度，践行SPMD思想，但异步训练支持较晚，且Agent循环控制流较为僵化，修改成本高 [12][25][43] - **slime**：代码简洁，流程明确，但早期对FSDP适配及异步训练的支持尚不成熟 [43] - **AReaL**：代码结构复杂但质量高，异步训练方案成熟，环境交互设计灵活，支持自定义工作流，是作者最终的选择 [2][29][44] - **RL2**：代码逻辑简单，适合初学者入门以理清强化学习训练的基本逻辑 [45]

ROCK & ROLL！阿里给智能体造了个实战演练场 | 开源

量子位· 2025-11-26 14:37

阿里开源项目ROCK的核心价值 - 解决了智能体无法在真实环境中规模化训练的难题，为AI执行复杂任务提供了标准化的“实战演练场”[1][2][3] - 与此前开源的强化学习训练框架ROLL协同，构成了完整的智能体训练闭环，打通了从单机实验到集群大规模训练的链路[4][5] - 该组合推开了Agentic AI规模化应用的大门，让开发者不再被底层基础设施困扰[5] 环境服务的重要性与行业趋势 - 大语言模型正经历深刻范式转变，前沿模型已进化为能与外部环境深度交互的Agentic模型，从“能说”扩展到“会做”[6][7] - 训练高效的Agentic模型是一个系统工程，需要四块拼图：大脑（LLM）、考卷（任务描述）、教练（RL框架）和训练场（环境服务）[8] - 环境服务的稳定性和效率直接决定了模型的Scaling潜力，其性能瓶颈往往成为整个训练流程的“卡脖子”问题[9][10] ROLL框架的功能特性 - 基于Ray构建，专为大规模LLM强化学习打造，覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程[12] - 提供环境异步交互和冗余采样等功能，采用极简的GEM标准接口，通过env.reset和env.step两个核心方法大幅简化交互过程[13][14] - 简洁的设计使得新业务应用能快速适配，环境开发者只需实现标准方法即可无缝接入训练体系[15] ROCK项目的核心能力 - 核心使命是规模化，旨在击碎传统训练中因资源限制导致的硬性天花板[19][21][24] - 基于Ray构建，能将计算集群抽象为弹性伸缩的“环境资源池”，支持分钟级别自动调度和拉起成千上万个并行训练环境[25] - 支持在同一集群中同时运行同构与异构环境，既满足大规模重复探索需求，也提升Agent在不同任务间的泛化能力[27][28] ROCK的调试与部署优势 - 提供程序化的Bash交互能力，通过SDK和HTTP API开放Linux Shell功能，使开发者可像操作本地终端一样与成百上千个远程Sandbox深度交互[32][33] - 设计“一次编写，随处运行”的方案，支持本地独立运行、本地集成调试和云端规模化部署三种模式，确保开发与生产环境一致性[37][38][39] - 具备企业级稳定性，包括故障隔离、精细资源调度和快速状态管理，按阿里内部核心基础设施标准构建[42][43][44][45] ModelService的架构创新 - 作为“中间人”完美实现了解耦，通过“提问-拦截-回答”三步让Agent和ROLL各司其职[50][51] - 带来四大好处：彻底解耦、控制权在手、节约成本以及兼容性强[52][57] - 该架构将昂贵的GPU资源集中用于ROLL的中心推理服务，而ROCK Sandbox可在低成本的CPU实例上大规模运行，极大降低训练成本[57] 对行业的影响与总结 - ROCK与ROLL的组合从根本上解决了Agentic模型训练中的两大核心挑战：高效的学习算法和可规模化的环境服务[55] - 为开发者提供了标准化解法，包括弹性扩展、无缝衔接、极致稳定和架构革新四大优势[58] - 使Agentic模型训练从少数顶尖团队的黑科技，转变为每个开发者都能上手的标准工业流程[56]

AI前线· 2025-11-12 12:53

核心观点 - 强化学习是提升大语言模型智能程度的核心且复杂的训练环节，其复杂度体现在算法和系统整体要求上 [2] - 行业正从单轮、单信号的人类反馈强化学习向多轮复杂交互条件下的端到端强化学习进化 [27] - 超大规模强化学习系统面临推理、评估和训练三方面的协同挑战，需要算法与系统的协同设计 [27][58] 理论基础与工程化 - 强化学习算法理论要求策略与环境交互，使大语言模型高效探索世界并获得更好奖励以适应环境目标 [4] - 策略层面的核心是学习算法，指导策略更新梯度；环境层面的核心是奖励函数，用于对问题给予正确奖励 [4] - 算法理论看似简洁，但实际工程化执行逻辑极为复杂，涉及多个算法组件的相互作用 [5] - 工程化实践的现状是框架运行图高度复杂，远超理论抽象 [5] 核心算法演进 - 人类反馈强化学习是早期关键实践，通过人工评价模型响应并训练奖励模型拟合人类判断 [10] - 该方法优势是模型结构简单、训练稳定，但存在奖励劫持风险，且人类标注无法覆盖所有行为方面 [11] - 行业实践转向人类反馈与机器反馈结合，例如DeepSeek的生成式奖励模型会在输出分数前给出文字解释 [11] - 传统PPO算法全链路复杂，涉及推理、评估和训练三个环节，需同时训练Actor和Critic模型 [13][14][15] - 算法演进出现两条路径：一是基于偏好对的DPO类算法，可跳过奖励模型训练但假设强且易过拟合 [17]；二是DeepSeek R1应用的GRPO算法，通过重复推理估计优势，避免Critic函数训练稳定性问题 [19] - GRPO在编程等纯推理场景优势明显，但未来在多轮长上下文交互中，价值函数可能发挥更大作用 [19] 超大规模系统挑战 - 强化学习进展迅速，应用范围从模型安全对齐扩展到追求推理能力上限 [24] - 超大规模系统需整合推理、评估和训练，每个维度都面临升级挑战 [27] - 推理引擎需支持权重动态更新和高效传递，例如670亿参数模型的权重需广播到整个集群 [28][35] - 需要灵活的打断机制，在权重更新时停止推理以避免产生无效数据，并优化路由机制利用KV Cache等资源 [35] - 评估环节目前主要基于CPU，但未来复杂场景需GPU参与，评估系统算力占比将大幅提升 [41][58] - 训练框架需在兼容性和效率间权衡，行业多在Megatron、DeepSpeed/FSDP等方案中选择 [44] 开源生态现状 - 中国厂商推出多个高质量开源框架，包括OpenRLHF、VeRL、AReaL、ROLL、Slime等 [50][53][56] - 各框架在调度引擎、训练引擎、推理引擎选择上各有特点，但核心都是对超大规模系统设计的思考 [55][56] - 开源系统未来需在推理效率、评估系统算力、训练性能与生态平衡方面进一步共建 [58]

阿里巴巴(US:BABA)

强化学习

大语言模型

Artificial Intelligence

Artificial Intelligence

Open RLxF

AReaL

Open RLHF

AI不再「炫技」，淘宝要让技术解决用户每一个具体问题

机器之心· 2025-10-28 12:31

文章核心观点 - 颠覆性创新通过使产品更简单、更便宜、更易用，让更多人参与，此观点在AI浪潮中依然适用 [2] - 淘宝将AI深度融入电商场景的每个环节，致力于解决具体用户问题，AI已成为其算法基因 [3] - 技术创新与商业变革双向驱动，形成“技术创造价值—价值反哺技术”的双螺旋演进模式 [12] - 多模态智能是AI时代的关键技术域，能实现跨模态推理，是支撑“所想即所得”终极消费体验的基石 [11][34] - 公司判断，若模型能力保持当前进化速度，狭义AGI很可能在5-10年内到来 [40] AI时代的技术演进与商业驱动 - 当前AI技术迭代迅猛，每年都呈现跳跃式发展，从ChatGPT到Sora 2，技术突破速度震撼 [7] - 回顾互联网发展史，技术升级与产品迭代始终围绕技术发展与商业变革双向驱动的螺旋轨迹演进 [7] - PC互联网时代关键词为“数字基石”，无线互联网时代关键词为“时空折叠”，AI时代关键词为“智能增强”，实现人类与技术的“共生” [10] - 与前两次技术革命不同，AI时代生成式AI带来生产力的代际提升，多模态智能成为核心技术域 [11] 淘宝的AIGX技术体系与多模态布局 - 公司于2024年3月全面升级AIGX技术体系，具备完整的技术链条，覆盖电商经营全部场景 [3] - 从2023年起大力布局AI，自研多模态、搜推广、视频生成等大模型家族，通用能力达国内第一梯队水平 [11] - AIGX技术体系覆盖AIGI（索引）、AIGR（推荐）、AIGB（出价）、AIGA（拍卖）、AIGC（创意）、AIGD（数据）等场景 [3] - 多模态智能是公司最重要的AI技术域，已在AIGX技术体系中深度应用 [13] 生成式推荐系统RecGPT的应用与成效 - 公司于2024年7月发布百亿参数推荐大模型RecGPT，实现生成式推荐技术升级，并接入手机淘宝“猜你喜欢” [14] - RecGPT基于多模态大模型，能结合世界知识生成新内容或个性化推荐序列，突破传统推荐系统的数据局限 [14][16] - 模型能理解用户长达十年的行为信息，全模态认知数以亿计商品，进行推理推荐潜在需求商品 [17] - 搭载RecGPT的推荐信息流实现用户点击量增长超过16%，用户加购次数和停留时长提升5%以上 [21] 多模态生成技术在电商场景的实践 - 自研视频生成模型“淘宝星辰”能基于单张商品平铺图，全自动生成虚拟模特展示图、视频片段及完整带货视频 [23] - 升级版“淘宝星辰・视频生成模型3.0”采用更紧凑的时空压缩VAE，提升语义理解，动作更灵动，画面更原生 [25] - 全模态大模型“TStars-Omni”支持文本、图像、视频、音频等多模态输入输出，能进行深度推理 [27] - 基于TStars-Omni的商品理解功能，可分析用户提问并给出建议，如判断冰箱是否能放入特定厨房 [28] 技术开放与生态建设 - 公司于2024年6月开源强化学习训练框架ROLL，专为高效、可扩展、易用设计，支持高达600B+参数模型的训练 [38][39] - 于2024年10月初开源生成式预估训练框架RecIS，为推荐模型与多模态大模型训练提供统一架构解决方案 [39] - 通过开源内部验证后的技术能力，旨在形成生态扩张动能，促进行业迈向超级智能时代 [39] - AI Agent产品iFlow CLI采用“一个内核，多种应用方式”设计，面向个人用户永久免费开放 [28][30]

从现有主流 RL 库来聊聊RL Infra架构演进

自动驾驶之心· 2025-09-26 07:33

强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界不仅是弥补数据瓶颈的利器更是构建下一代通用智能体的核心方法论背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励计算开销大设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高涉及大规模并行推理和参数更新优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架更像训练器集合而非复杂分布式系统算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等集成transformers库支持vLLM加速Rollout 训练后端依赖accelerate库支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富适合快速原型和中小规模实验但不支持环境交互生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节网易等联合开发旨在提供高效可扩展的RLHF和Agentic RL框架训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发是功能最全面算法支持最广泛的框架之一算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等架构采用HybridFlow控制器支持多轮训练和工具调用目前生成与训练耦合后续规划异步解耦集成vLLM和SGLang等推理后端训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码追求全能涵盖所有主流RL算法和应用场景是前沿算法研究和复杂任务如多模态多智能体实验的理想选择配置较复杂[16][22] - AReaL由蚂蚁开源专为大规模高吞吐推理模型RL设计核心是完全异步架构算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等架构支持异步Pipeline RLHF和异步Agentic RL模式后者通过Agent类API支持多轮对话深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦使用SGLang进行Rollout Ray进行集群管理训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架集成在NeMo生态系统中与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架强调异步和Agentic能力算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法架构采用基于Ray的多角色分布式设计将策略生成价值评估奖励计算等任务解耦到独立Worker角色中实现灵活资源调度异步训练和复杂任务编排深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算支持验证器沙盒LLM-as-judge等多种奖励源构建灵活奖励路由机制面向多样化用户高度可配置接口丰富[30][36] - slime由清华智谱开源是轻量级专注于将SGLang与Megatron无缝连接的框架架构强调可扩展性和生产级编排支持异步Rollout非Colocate放置等训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程支持异步训练和Agentic工作流追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建专门为Agentic RL优化支持异步Rollout和训练以及agent-lightning实现训练与推理解耦更容易支持多智能体训练关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发用于训练视觉语言推理模型以及DanceGRPO专门用于扩散模型如文生图的RL训练关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架通过统一框架整合多智能体推理与强化学习结合高性能引擎与灵活架构为复杂协作任务提供高效可扩展解决方案兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线框架设计越来越模块化将Rollout Reward Train等环节解耦便于复用和扩展库不再绑定单一推理后端支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性为应对Rollout和Train之间巨大计算不对称性异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程成为现代RL框架标配[66] - 从RLHF向Agentic RL演进早期库如TRL主要为单步任务设计新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色成熟库通常支持多种方案[66] - 场景驱动的二次开发通用框架如veRL OpenRLHF为生态奠定基础针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境使用Ray等进行任务编排资源管理和容错已成为行业共识[66]

自动驾驶之心· 2025-08-19 07:32

模型训练范式转变 - 2024年OpenAI发布O1系列模型后，训练重心从有监督微调（SFT）转向强化学习（RL），SFT作用弱化为参数初始化或策略引导[3] - RL算法持续迭代优化，从早期DPO到PPO，再到GRPO、RLOO、Reinforce++、DAPO等新方法，在策略更新方式、稳定性和样本效率方面不断提升[4] - RL训练流程包含三大模块：策略生成（Rollout）对应模型推理扩展阶段、奖励评估（Reward Evaluation）对应结果质量打分、策略更新（Policy Update）对应核心参数优化[4][6][7] RL训练框架设计挑战 - Rollout与训练模块需顺序执行，但分布式多卡训练趋势下，异构资源管理和参数同步机制成为关键挑战[12][13] - 底层训练框架（如Megatron-LM、DeepSpeed、PyTorch FSDP）与推理引擎（如vLLM、SGLang）架构差异大，导致参数同步和推理调度实现逻辑复杂化[14][25] - Rollout任务存在显著异构性，尤其在Agent行为模拟场景下，批次内部任务复杂度差异导致调度效率下降和资源利用率不均衡[19] 性能优化策略 - 7B参数模型在FP32精度下需约28GB显存存储参数和梯度，优化器状态额外占用84GB，单卡无法承载[21] - 分布式训练采用数据并行（DP）、张量并行（TP）、流水线并行（PP）策略，千卡规模以下DP与TP/PP性能相近，更大规模下TP/PP因避免All-Gather通信开销更具优势[22][23] - 推理引擎（vLLM、SGLang）通过KV Cache复用和算子优化提升性能，但与训练引擎的参数同步仍需解决精度差异问题[25][28] 训练与推理集成架构 - SPMD（单程序多数据）模式适用于数据量大但模型规模小的场景，MPMD（多程序多数据）模式支持异构程序执行但增加实现复杂度[29][39] - SLIME框架通过Buffer中间件实现推理引擎与训练模块间数据传输，支持命令行配置灵活适应业务需求[34][35] - ROLL框架通过集群角色定义（actor_train、actor_infer、reference等）隐藏训练与推理差异，支持按领域分开采样和奖励模型聚合[42][44] 分布式部署与资源管理 - 模型规模增大（如1000B参数）使并行计算开销显著，Reward模型较小（7-30B）适合分开部署[48] - Ray框架帮助管理分布式资源，但设计与Kubernetes云原生环境存在冲突，实际生产环境管理成本较高[53] - 非Colocation场景下，ROLL支持细粒度GPU资源配置提高资源利用效率，但要求算法侧具备更高资源调度能力[50] 框架技术选型 - OpenRLHF集成Ray、vLLM、ZeRO-3和HuggingFace Transformers，支持灵活混合部署适应异步训练需求[52][61] - SLIME代码简洁适合研究性修改，ROLL强调数据处理和异步操作支持Agentic RL探索，VERL稳定优化适合大规模集群部署[61] - 开源RL框架（VERL、SLIME、ROLL、OpenRLHF）展现技术领先性，但硬件资源（如显卡）仍存在差距[60]

强化学习（Reinforcement Learning

RL）

有监督微调（Supervised Fine-Tuning

SFT）

SPMD（Single Program

Multiple Data）

强化学习（Reinforcement Learning

RL）

有监督微调（Supervised Fine-Tuning

SFT）

SPMD（Single Program

Multiple Data）

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

量子位· 2025-07-20 10:49

移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励（SFT或RL），难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败，显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架，整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程：格式微调（SFT）、动作级训练（GRPO）、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集，覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证（边界框匹配）和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性，格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动，增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%，较最佳基线（AgentCPM-8B的30%）提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版，动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果，最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性，泛化能力优于基准模型[29][32]