Workflow
ROLL
icon
搜索文档
强化学习 AI 系统的设计实现及未来发展
AI前线· 2025-11-12 12:53
核心观点 - 强化学习是提升大语言模型智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [2] - 行业正从单轮、单信号的人类反馈强化学习向多轮复杂交互条件下的端到端强化学习进化 [27] - 超大规模强化学习系统面临推理、评估和训练三方面的协同挑战,需要算法与系统的协同设计 [27][58] 理论基础与工程化 - 强化学习算法理论要求策略与环境交互,使大语言模型高效探索世界并获得更好奖励以适应环境目标 [4] - 策略层面的核心是学习算法,指导策略更新梯度;环境层面的核心是奖励函数,用于对问题给予正确奖励 [4] - 算法理论看似简洁,但实际工程化执行逻辑极为复杂,涉及多个算法组件的相互作用 [5] - 工程化实践的现状是框架运行图高度复杂,远超理论抽象 [5] 核心算法演进 - 人类反馈强化学习是早期关键实践,通过人工评价模型响应并训练奖励模型拟合人类判断 [10] - 该方法优势是模型结构简单、训练稳定,但存在奖励劫持风险,且人类标注无法覆盖所有行为方面 [11] - 行业实践转向人类反馈与机器反馈结合,例如DeepSeek的生成式奖励模型会在输出分数前给出文字解释 [11] - 传统PPO算法全链路复杂,涉及推理、评估和训练三个环节,需同时训练Actor和Critic模型 [13][14][15] - 算法演进出现两条路径:一是基于偏好对的DPO类算法,可跳过奖励模型训练但假设强且易过拟合 [17];二是DeepSeek R1应用的GRPO算法,通过重复推理估计优势,避免Critic函数训练稳定性问题 [19] - GRPO在编程等纯推理场景优势明显,但未来在多轮长上下文交互中,价值函数可能发挥更大作用 [19] 超大规模系统挑战 - 强化学习进展迅速,应用范围从模型安全对齐扩展到追求推理能力上限 [24] - 超大规模系统需整合推理、评估和训练,每个维度都面临升级挑战 [27] - 推理引擎需支持权重动态更新和高效传递,例如670亿参数模型的权重需广播到整个集群 [28][35] - 需要灵活的打断机制,在权重更新时停止推理以避免产生无效数据,并优化路由机制利用KV Cache等资源 [35] - 评估环节目前主要基于CPU,但未来复杂场景需GPU参与,评估系统算力占比将大幅提升 [41][58] - 训练框架需在兼容性和效率间权衡,行业多在Megatron、DeepSpeed/FSDP等方案中选择 [44] 开源生态现状 - 中国厂商推出多个高质量开源框架,包括OpenRLHF、VeRL、AReaL、ROLL、Slime等 [50][53][56] - 各框架在调度引擎、训练引擎、推理引擎选择上各有特点,但核心都是对超大规模系统设计的思考 [55][56] - 开源系统未来需在推理效率、评估系统算力、训练性能与生态平衡方面进一步共建 [58]
AI不再「炫技」,淘宝要让技术解决用户每一个具体问题
机器之心· 2025-10-28 12:31
文章核心观点 - 颠覆性创新通过使产品更简单、更便宜、更易用,让更多人参与,此观点在AI浪潮中依然适用 [2] - 淘宝将AI深度融入电商场景的每个环节,致力于解决具体用户问题,AI已成为其算法基因 [3] - 技术创新与商业变革双向驱动,形成“技术创造价值—价值反哺技术”的双螺旋演进模式 [12] - 多模态智能是AI时代的关键技术域,能实现跨模态推理,是支撑“所想即所得”终极消费体验的基石 [11][34] - 公司判断,若模型能力保持当前进化速度,狭义AGI很可能在5-10年内到来 [40] AI时代的技术演进与商业驱动 - 当前AI技术迭代迅猛,每年都呈现跳跃式发展,从ChatGPT到Sora 2,技术突破速度震撼 [7] - 回顾互联网发展史,技术升级与产品迭代始终围绕技术发展与商业变革双向驱动的螺旋轨迹演进 [7] - PC互联网时代关键词为“数字基石”,无线互联网时代关键词为“时空折叠”,AI时代关键词为“智能增强”,实现人类与技术的“共生” [10] - 与前两次技术革命不同,AI时代生成式AI带来生产力的代际提升,多模态智能成为核心技术域 [11] 淘宝的AIGX技术体系与多模态布局 - 公司于2024年3月全面升级AIGX技术体系,具备完整的技术链条,覆盖电商经营全部场景 [3] - 从2023年起大力布局AI,自研多模态、搜推广、视频生成等大模型家族,通用能力达国内第一梯队水平 [11] - AIGX技术体系覆盖AIGI(索引)、AIGR(推荐)、AIGB(出价)、AIGA(拍卖)、AIGC(创意)、AIGD(数据)等场景 [3] - 多模态智能是公司最重要的AI技术域,已在AIGX技术体系中深度应用 [13] 生成式推荐系统RecGPT的应用与成效 - 公司于2024年7月发布百亿参数推荐大模型RecGPT,实现生成式推荐技术升级,并接入手机淘宝“猜你喜欢” [14] - RecGPT基于多模态大模型,能结合世界知识生成新内容或个性化推荐序列,突破传统推荐系统的数据局限 [14][16] - 模型能理解用户长达十年的行为信息,全模态认知数以亿计商品,进行推理推荐潜在需求商品 [17] - 搭载RecGPT的推荐信息流实现用户点击量增长超过16%,用户加购次数和停留时长提升5%以上 [21] 多模态生成技术在电商场景的实践 - 自研视频生成模型“淘宝星辰”能基于单张商品平铺图,全自动生成虚拟模特展示图、视频片段及完整带货视频 [23] - 升级版“淘宝星辰・视频生成模型3.0”采用更紧凑的时空压缩VAE,提升语义理解,动作更灵动,画面更原生 [25] - 全模态大模型“TStars-Omni”支持文本、图像、视频、音频等多模态输入输出,能进行深度推理 [27] - 基于TStars-Omni的商品理解功能,可分析用户提问并给出建议,如判断冰箱是否能放入特定厨房 [28] 技术开放与生态建设 - 公司于2024年6月开源强化学习训练框架ROLL,专为高效、可扩展、易用设计,支持高达600B+参数模型的训练 [38][39] - 于2024年10月初开源生成式预估训练框架RecIS,为推荐模型与多模态大模型训练提供统一架构解决方案 [39] - 通过开源内部验证后的技术能力,旨在形成生态扩张动能,促进行业迈向超级智能时代 [39] - AI Agent产品iFlow CLI采用“一个内核,多种应用方式”设计,面向个人用户永久免费开放 [28][30]
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-26 07:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]
强化学习框架的演进与发展趋势
自动驾驶之心· 2025-08-19 07:32
模型训练范式转变 - 2024年OpenAI发布O1系列模型后,训练重心从有监督微调(SFT)转向强化学习(RL),SFT作用弱化为参数初始化或策略引导[3] - RL算法持续迭代优化,从早期DPO到PPO,再到GRPO、RLOO、Reinforce++、DAPO等新方法,在策略更新方式、稳定性和样本效率方面不断提升[4] - RL训练流程包含三大模块:策略生成(Rollout)对应模型推理扩展阶段、奖励评估(Reward Evaluation)对应结果质量打分、策略更新(Policy Update)对应核心参数优化[4][6][7] RL训练框架设计挑战 - Rollout与训练模块需顺序执行,但分布式多卡训练趋势下,异构资源管理和参数同步机制成为关键挑战[12][13] - 底层训练框架(如Megatron-LM、DeepSpeed、PyTorch FSDP)与推理引擎(如vLLM、SGLang)架构差异大,导致参数同步和推理调度实现逻辑复杂化[14][25] - Rollout任务存在显著异构性,尤其在Agent行为模拟场景下,批次内部任务复杂度差异导致调度效率下降和资源利用率不均衡[19] 性能优化策略 - 7B参数模型在FP32精度下需约28GB显存存储参数和梯度,优化器状态额外占用84GB,单卡无法承载[21] - 分布式训练采用数据并行(DP)、张量并行(TP)、流水线并行(PP)策略,千卡规模以下DP与TP/PP性能相近,更大规模下TP/PP因避免All-Gather通信开销更具优势[22][23] - 推理引擎(vLLM、SGLang)通过KV Cache复用和算子优化提升性能,但与训练引擎的参数同步仍需解决精度差异问题[25][28] 训练与推理集成架构 - SPMD(单程序多数据)模式适用于数据量大但模型规模小的场景,MPMD(多程序多数据)模式支持异构程序执行但增加实现复杂度[29][39] - SLIME框架通过Buffer中间件实现推理引擎与训练模块间数据传输,支持命令行配置灵活适应业务需求[34][35] - ROLL框架通过集群角色定义(actor_train、actor_infer、reference等)隐藏训练与推理差异,支持按领域分开采样和奖励模型聚合[42][44] 分布式部署与资源管理 - 模型规模增大(如1000B参数)使并行计算开销显著,Reward模型较小(7-30B)适合分开部署[48] - Ray框架帮助管理分布式资源,但设计与Kubernetes云原生环境存在冲突,实际生产环境管理成本较高[53] - 非Colocation场景下,ROLL支持细粒度GPU资源配置提高资源利用效率,但要求算法侧具备更高资源调度能力[50] 框架技术选型 - OpenRLHF集成Ray、vLLM、ZeRO-3和HuggingFace Transformers,支持灵活混合部署适应异步训练需求[52][61] - SLIME代码简洁适合研究性修改,ROLL强调数据处理和异步操作支持Agentic RL探索,VERL稳定优化适合大规模集群部署[61] - 开源RL框架(VERL、SLIME、ROLL、OpenRLHF)展现技术领先性,但硬件资源(如显卡)仍存在差距[60]
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
量子位· 2025-07-20 10:49
移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励(SFT或RL),难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败,显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架,整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程:格式微调(SFT)、动作级训练(GRPO)、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集,覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证(边界框匹配)和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性,格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动,增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%,较最佳基线(AgentCPM-8B的30%)提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版,动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果,最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性,泛化能力优于基准模型[29][32]