PPO

搜索文档
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
36氪· 2025-09-01 12:38
大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好 预训练使模型掌握通用语言能力 但后训练强化特定领域知识和应用能力 增强模型适应性和灵活性[5] - 强化学习核心是反馈机制 目标是增加好结果出现概率 降低坏结果出现概率 在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制 加入Critic价值函数和CLIP操作 保证策略更新不过度同时高效提升性能 成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度 显著降低训练过程方差 同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度 避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数 采用策略模型多次输出采样奖励平均值作为基准线 超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍 训练速度比PPO快3-5倍 采用单策略网络架构 优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题 容易导致训练崩溃 需要大量数据降低策略梯度方差 中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进 让Qwen2.5-32B模型在AIME 2024基准获得50分 优于同等规模DeepSeek模型 训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间 提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语 保留有效梯度样本 提高训练效率 采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级 基于整个序列似然度计算重要性比值 显著降低长序列中积累的高方差 提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化 避免importance ratio对长度敏感造成不稳定 同一序列所有token共用同一重要性权重 裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作 成为Qwen3强化学习核心实践框架 可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题 可同时优化多个响应属性如简洁性和准确度 避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组 过滤不符合目标属性响应 在所选组内使用标准奖励计算相对优势 无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面 可与任何GRPO类似方法兼容 包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题 多个奖励信号被合并为单一标量信号 模型无法知道具体因什么行为被奖励 即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈 仅使用数值化奖励信号 文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支 使GRPO在多轮任务训练变得非常困难[44]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 10:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
圣泉集团(605589):电子及电池材料业绩亮眼,半年度业绩同比高增51.19%
国信证券· 2025-08-19 15:26
投资评级 - 优于大市评级 [1][6][18] 核心财务表现 - 2025年上半年营业收入53.51亿元(同比+15.67%),归母净利润5.01亿元(同比+51.19%) [1][7] - 第二季度营业收入28.92亿元(同比+16.13%,环比+17.62%),归母净利润2.94亿元(同比+51.71%,环比+42.34%) [1][7] - 销售毛利率25.40%,销售净利率10.55% [1][7] - 预计2025-2027年营业收入121.43/136.98/155.35亿元,归母净利润11.29/13.87/16.34亿元 [4][18] 业务板块表现 电子及电池材料 - 2025年上半年营收8.46亿元(同比+32.43%),销量4.01万吨(同比+14.90%) [2] - PPO树脂为芯片封装和服务器PCB关键材料,具备M4-M9全系列解决方案能力 [2][9] - 半导体封装用高纯树脂已规模化量产 [2] - 多孔碳材料开发双技术路线,覆盖消费电子/动力电池/储能场景 [2][10] 合成树脂 - 2025年上半年营收28.10亿元(同比+10.35%),销量39.18万吨(同比+15.48%) [3][16] - 酚醛树脂产能65万吨(全球前列),呋喃树脂12万吨(全球第一) [16] - 铸造辅助材料达100多种,应用于高档精密铸件 [16] 生物质业务 - 2025年上半年营收5.16亿元(同比+26.47%) [3][17] - 大庆项目稳定运行,章丘基地木糖项目预计下半年投产 [17] 行业前景 - 全球AI基础设施市场规模2024年279.4亿美元,预计2033年达12403亿美元(CAGR18.01%) [9] - 2025Q1全球ODM服务器出货量1857472台,市场规模596亿美元 [9][13] - 高频高速PCB板需求增长带动PPO树脂需求 [9] 竞争优势 - 合成树脂领域技术积淀深厚,产能规模领先 [18] - 生物质精炼技术自主知识产权 [17] - 研发投入持续,2025E研发费用5.83亿元 [20]
CoWoP未来有望逐步商用,一文详解PCB工艺及相关材料(附公司)
财联社· 2025-08-16 21:08
PCB行业市场增长 - HDI市场预计2024至2029年间年均复合增长率为6.4%,2029年全球市场规模将达170.37亿美元[3] - 生益电子2025年上半年营业收入37.69亿元同比增长91%,净利润5.31亿元同比增长452%[3] - 谷歌2025年Q2资本支出达224.46亿美元环比增长30.5%同比激增70.2%,其中三分之二用于AI服务器[3] 行业技术发展趋势 - PCB技术向高频高速化、轻薄化、无铅无卤化方向演进,铜箔、电子布、CoWoP工艺成为关注焦点[5] - CoWoP工艺要求PCB具备Low-CTE特性,全球Low-CTE玻璃布产能高度集中于日本日东纺,中材科技是国内技术领先企业[9] - mSAP工艺需要更高分辨率的LDI和激光钻孔设备,芯基微装和大族数控是相关设备龙头企业[10] 材料升级需求 - HVLP/RTF铜箔表面粗糙度可控制在1微米以下,满足AI服务器112Gbps以上高速信号传输需求[12][13] - 传统环氧树脂无法满足高频需求,行业转向PPO、PTFE、CH、BMI等先进树脂体系[14] - PPO和CH材料在性能与可制造性之间取得更好平衡,成为主流选择[14] 产业链投资机会 - Low-dK/CTE玻璃布相关企业包括中材科技、宏和科技、菲利华、平安电工[6] - LDI设备/激光钻孔设备领域重点关注芯基微装、大族数控[6] - HVLP铜箔供应商包括德福科技、铜冠铜箔、嘉元科技、逸蒙新材、宝鼎科技[6] - 先进树脂领域涉及圣泉集团、东材科技、宏昌电子、美联新材、世名科技等企业[6] 市场需求驱动因素 - 英伟达OAM和UBB架构对PCB提出苛刻要求,需要高阶HDI技术或超高层数多层板[7] - 谷歌TPU、亚马逊Trainium、Meta MTIA等定制ASIC芯片需要特定材料的超高层数多层板[8] - GB200服务器放量期和GB300出货启动将带动服务器、主机板与高频高速PCB需求攀升[4]
圣泉集团(605589):AI领航PPO树脂蓄势待发,硅碳负极放量多孔碳前景可期
山西证券· 2025-08-12 11:09
投资评级与核心观点 - 报告对圣泉集团维持"增持-A"评级 目标价31 57元 对应2025年22 6倍PE [2][7] - 核心观点认为公司作为全球合成树脂龙头 在电子化学品 生物质 新能源板块具有显著成长潜力 [2] - 预计2025-2027年归母净利润复合增长率达24 5% 对应EPS分别为1 40/1 71/1 99元 [7] 市场与财务数据 - 2024年公司实现营收100 20亿元 同比增长9 87% 归母净利8 68亿元 同比增长9 94% [2] - 2025年预测营收117 86亿元 同比增长17 6% 毛利率提升至24 7% [7][8] - 当前流通市值246 53亿元 每股净资产12 43元 [1] 主营业务分析 酚醛树脂业务 - 产能65万吨/年 国内市占率第一 2024年销量52 86万吨 [3][18] - 技术领先开发10大系列800多个品种 毛利率19 79%高于行业水平 [3][18] - 当前价格处于低位约1 1万元/吨 预计产能出清后价格将回升 [3] 铸造材料业务 - 呋喃树脂产能超15万吨 产销规模全球第一 [3] - 一体化布局"玉米芯-糠醛-糠醇-呋喃树脂"全产业链 [3] - 2023年营收15 99亿元 受风电景气带动需求持续增长 [3] 新兴业务增长点 电子化学品(PPO树脂) - 算力升级驱动需求 预计2027年全球PPO需求量达6121吨 CAGR38 32% [4] - 公司已建成1300吨产能 获生益科技等头部客户认证 [4][97] - 产品应用于AI服务器 5G/6G通讯等领域 [4] 新能源(多孔碳) - 硅碳负极放量带动需求 预计2030年市场规模72 82亿元 [4][114] - 公司技术领先 产品已批量供应头部手机厂商 [4] - 现有产能1300吨 规划万吨级产线 [4][117] 生物质化工 - "圣泉法"技术实现秸秆高值化利用 大庆项目满产后可贡献7亿毛利 [5][7] - 2023年投产50万吨秸秆处理能力 预计年收入17亿元 [5]
民生研究:2025年8月金股推荐
民生证券· 2025-07-30 14:13
报告核心观点 按照自上而下的逻辑,梳理出 10 只个股与 3 只 ETF 作为 2025 年 8 月金股推荐 [1] 个股推荐 能源开采-潞安环能 - 现货煤比例高,业绩弹性大 [1][8] - 煤价反弹启动,需求有望超预期 [1][8] - PB 估值较低 [1][8] 有色金属-华友钴业 - 一体化布局优势显著,湿法镍产能增长贡献稳定增量盈利 [1][8] - 政策托底镍钴价格中枢抬升,6 月钴进口环比显著下降进入去库节奏指引钴涨价机遇,印尼镍钴产能布局规模领先显著受益 [1][8] - 绑定优质海外头部客户,积极布局海外前驱体正极材料产能 [1][8] - 大股东增持彰显公司未来发展信心 [1][8] 汽车-吉利汽车 - 极氪计划私有化,将成为吉利全资子公司并退市,利于整合资源、消除决策障碍,增强与吉利品牌协同,落实《台州宣言》,助力降本增效与竞争力提升 [2][8] - 银河品牌有望受益竞争缓解,A7 已预售、8 月上市,M9 预计 2025 年三季度推出 [2][8] - 集团将年销量目标从 271 万辆上调 11%至 300 万辆,技术降本与规模化有望推动主品牌盈利 [2][8] - 极氪发布浩瀚 - S 架构,高端 SUV9X 两小时盲订 1 万台,8 月底预售,光辉版车型超百万元,有望加速争夺高端市场份额 [2][8] 计算机-寒武纪 - 国产算力景气度持续提升,国内智算中心加速建设,互联网大厂对 AI 芯片的采购需求持续释放 [2][8] - 公司发布定增预案,拟重点布局硬件平台与软件平台建设,有望从技术底座与生态协同维度,为公司长期发展全面赋能 [2][8] - 政策端持续加码支持国产算力发展,公司作为国产算力龙头企业,有望受益于行业红利释放 [2][8] 电子-中芯国际 - 国产算力基石,先进制程持续推进,N + 2 良率稳步提升 [2][8] - 成熟制程受益半导体周期上行,后续环比改善 [2][8] 国防军工-北方导航 - 公司是远火产业链龙头,隶属于兵器工业集团,是国内“导航控制和弹药信息化技术”核心供应商 [3][8] - 制导装备技术先进,是精确打击和非对称作战核心装备,同时耗材属性强,今年以来需求快速恢复,增速在军工中十分稀缺。作为低成本制导装备的代表产品,公司远火充分受益于需求恢复,弹性大 [3][8] - 公司实施股权激励,是集团改革先行者。随着不良资产的剥离聚焦主责主业,提升自动化生产能力,利润率呈稳步提升态势 [3][8] 化工-圣泉集团 - 公司是高速高频树脂领域的领先供应商,其 PPO、OPE、ODV 等树脂产品应用于 AI 服务器的 PCB 领域,受益于下游 PCB 行业需求带动,公司业绩有望快速增长 [3][8] 非银金融-中信证券 - 全球股市共振回温,上证指数创年内新高,市场交投持续活跃 [3][8] - 公司自营、经纪与资管等业务龙头地位稳固,IPO 储备项目充足,2025 年下半年业绩或持续增长,国际业务也有望取得亮眼表现 [3][8] 交通运输-嘉友国际 - 公司是跨境矿产物流头部运输企业,沿“一带一路”沿线国家进行业务布局,未来业务方向重点发展非洲,保障非洲跨境矿产运输安全自主可控高效 [3][8] 房地产-中国金茂 - 减值计提充分,千亿销售额目标完成过半,销售拿地力度加大 [3][8] 个股重点财务数据 | 证券简称 | 行业 | 2024A EPS(元) | 2025E EPS(元) | 2026E EPS(元) | 2027E EPS(元) | 2024A PE(倍) | 2025E PE(倍) | 2026E PE(倍) | 2027E PE(倍) | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 潞安环能 | 能源开采 | 0.82 | 0.65 | 0.75 | 0.83 | 18 | 23 | 20 | 18 | | 华友钴业 | 有色金属 | 2.5 | 3.11 | 3.61 | 3.71 | 19 | 15 | 13 | 13 | | 吉利汽车 | 汽车 | 1.65 | 1.61 | 2.19 | 2.58 | 11 | 11 | 8 | 7 | | 寒武纪 | 计算机 | -1.08 | 3.04 | 5.43 | 7.66 | / | 234 | 131 | 93 | | 中芯国际 | 电子 | 0.46 | 0.64 | 0.83 | 0.94 | 200 | 144 | 111 | 98 | | 北方导航 | 国防军工 | 0.04 | 0.17 | 0.25 | 0.33 | 441 | 104 | 71 | 53 | | 圣泉集团 | 化工 | 1.03 | 1.53 | 2.13 | 2.93 | 31 | 21 | 15 | 11 | | 中信证券 | 非银金融 | 1.46 | 1.56 | 1.69 | 1.83 | 21 | 19 | 18 | 16 | | 嘉友国际 | 交通运输 | 1.31 | 1.49 | 1.72 | 1.98 | 9 | 8 | 7 | 6 | | 中国金茂 | 房地产 | 0.08 | 0.12 | 0.16 | 0.22 | 17 | 11 | 8 | 6 | [9] ETF 推荐 | ETF 代码 | ETF 名称 | 2025/7/29 份额 (亿份) | 2025/7/29 单位净值 (元) | 2025/7/29 总净值 (亿元) | 7 月复权净值增长率(%) | 2025 年以来复权净值增长率(%) | | --- | --- | --- | --- | --- | --- | --- | | 159870.OF | 化工 ETF | 54.16 | 0.62 | 33.81 | 9.22 | 8.22 | | 159909.OF | TMT50 ETF | 6.59 | 0.76 | 5.02 | 10.67 | 12.27 | | 512660.OF | 军工 ETF | 143.95 | 1.19 | 171.45 | 4.07 | 14.33 | [10]
电子级高端树脂专家交流
2025-07-16 08:55
纪要涉及的行业和公司 - **行业**:电子树脂行业 - **公司**:未提及具体公司名称,涉及客户包括华为、生益、南亚、台光、台耀、盛宏、建涛、深蓝、英伟达、斗山电子等;潜在竞争对手包括佳盛德、特风、东财、宏昌、东台、通宇等;合作公司为徐州博康;海外厂商有沙比克、日本旭化成和三菱瓦斯等 纪要提到的核心观点和论据 1. **产品出货与客户结构** - PPO 月出货量 60 - 70 吨,含 OPE 总出货约 80 吨,OPE 约 10 吨 [1][4] - 核心客户有华为、生益、南亚等,生益占 40%,南亚、台光、宏盛各占 10%,其余客户分配剩余份额,直采占整体供货 20% - 30%,难攻克客户通过代理商合作 [1][5][7] 2. **产品价格与毛利率** - 大型代理商 PPO 单价 70 - 120 万元,小型零散客户 80 - 120 万元;生益 M6 高速板 50 - 60 万元,低于台光等 M8 以上产品 [1][8][9] - 公司整体毛利率 45% - 50%,预计 2026 年 M6 价格或降至 50 万元以下,毛利率不低于 35%,M8 毛利率 40% - 45% [1][14] 3. **产能规划** - 2025 年底 PPO 总产能达 700 - 800 吨,2026 年增至 2000 - 2300 吨,2027 年底扩至 3000 吨 [1][13] - 2024 年 OPE 产能 260 - 300 吨,2025 年底计划扩至 500 吨左右 [16] - 2025 年 ODV 计划产能 100 - 120 吨,截至目前完成一半左右 [17] 4. **市场需求与增长预期** - 生益与华为联合研发引入 M8 产品,2025 年需求 800 - 1000 吨,2026 年增至 1500 吨,其中 200 - 300 吨为 M8 产品,2025 年采购量约 50 - 80 吨 [1][10][11] - 2025 年国内高端树脂需求量 800 - 1000 吨,2026 年预计达 1500 吨 [25] - 2026 年 ODV 预计保持平稳,约 200 吨,2027 - 2028 年或增长;PPO 市场表现良好,产能可能不足 [19][24] 5. **国产化替代** - 国内高端树脂国产化替代率约 40%,海外厂商占 60%份额,预计 2026 年国产化率显著提升,公司产品电介指数与沙比克持平,价格低 10% - 20% [2][28] 6. **市占率情况与目标** - 生意中市占率天花板 55% - 60%;台光市占率 10%,计划 2026 年翻番至 20%;台耀市占率 3%,预计可提至 12%;南亚接近 20% [31][32] - 电介损耗小于 0.001 的高端产品领域,公司供应英伟达基板,2025 年预计需求量 500 吨,可提高到 60% - 70%市场份额;2025 年 OPE 销售额预计 80 吨左右,市场份额提升至 70%以上 [20] 其他重要但可能被忽略的内容 1. **树脂应用情况** - PPO 用于 M8 和 M9 级别产品,M7 级别因价格高使用少;BMI 和环氧树脂在 M7 级别用量大;OPE 和碳氢树脂(ODV)在 M9 级别不同厂家选择不同 [3] - AI 服务器以 PPO 为主、OPE 为辅,每台 AI 服务器使用 PPO 从 1.6 公斤增加到 2.1 公斤,使用 OPE 从 0.34 公斤增加到 0.4 公斤 [17] 2. **合作与市场策略** - 与徐州博康合作,通过 OEM 增加 M6 系列产品产能,目标 2026 年达 70%国内市场份额 [15] - 碳氢树脂主要供给建涛、鲁电股份等企业,进入台湾系企业有困难,倾向直供 [33] - 已向斗山电子提供约 50 吨 PPO 产品,基本进入其体系,送样 OPE 结果未出 [34] 3. **成本与技术优势** - 公司在业务、销售和财务成本控制方面有优势,依托生物法制造产品,与中石化合作使价格稳定,不受原材料价格波动影响 [21][22] 4. **行业发展因素** - 电子树脂行业发展得益于资本和技术人才流动,人才流动使新产品市场渗透速度加快 [23]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]