混合风险价值(MVaR)
搜索文档
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练
机器之心· 2025-10-15 10:54
研究背景与挑战 - 大模型后训练的核心工具强化学习(RL)陷入“均值优化陷阱”,过度聚焦高概率输出序列,忽略了低概率但高信息密度的推理路径[3][4] - 传统方法如GRPO导致模型训练早期出现熵坍缩,过早丧失探索能力,面对全错难题时优势函数归零,模型在薄弱环节完全无法学习[4] - 现有方法仅在Pass@1等短视指标上有提升,但推理边界并未拓宽,无法应对AIME竞赛题、复杂代码生成等高难度任务[4] 技术方案核心创新 - 提出RiskPO方法,将风险规避理念融入优化目标,用关注奖励分布左尾(难任务)替代追求整体均值,引导模型突破推理短板[7] - 核心技术载体是混合风险价值目标函数,通过引入权重参数ω放大左尾(低奖励、难任务)的梯度信号[9][10] - 配合多问题捆绑策略,将多个问题打包成bundle计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决难题零梯度问题[12] 实验性能表现 - 在数学推理任务AIME24上,RiskPO的Pass@32得分比GRPO高出近7个百分点,比最强基线DAPO提升6.7个百分点[15] - 在MATH500数据集上,RiskPO的Pass@1达到81.8%,超出GRPO 2.6个百分点,且随着评估指标从Pass@1转向Pass@8、Pass@16,优势持续扩大[15] - 在跨领域任务中,代码生成任务LiveCodeBench上Pass@1比GRPO提升1个百分点,多模态几何推理任务Geo3K准确率达到54.5%[18] 理论支撑与机制验证 - 风险规避更新能有效缓解熵坍缩,训练500步后GRPO的熵值趋近于0,而RiskPO仍能维持0.2以上的熵水平,确保对难任务的持续探索[20][21] - 风险寻求模型的熵值在训练150步后已降至0.1以下,MATH数据集Pass@1仅从52%提升至54%,而RiskPO持续优化至56%,实现1.5倍的提升幅度[26] - 均值目标只能让模型在已知能力范围内优化采样效率,而风险度量目标才是推动模型突破推理边界、提升核心能力的理想方向[24]