大模型后训练
搜索文档
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
量子位· 2026-01-07 13:17
行业趋势:大模型竞争焦点转向后训练 - 大模型竞争的下半场焦点已从“暴力预训练”转向“后训练”战场[1] - 决定模型天花板的因素不再只是算力堆砌,而是更精准的微调和强化学习迭代[2] - 强化学习在低数据量下即可实现模型能力大幅跃升,例如DeepSeek-R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[7] 核心痛点:后训练面临的高门槛 - 复杂的分布式基建、高昂的显卡租金和繁琐的架构调优构成了高墙,阻碍算法工程师进行后训练[3] - 强化学习涉及复杂的系统设计,包括多模型优化、数据与权重传递,工程化工作对基础设施要求极高[9] 解决方案:潞晨云微调SDK - 公司推出国内首个全面开放、兼容Tinker范式的Serverless微调平台[5] - 核心目标是提供一套更具成本优势的工业级解法,以应对复杂且昂贵的强化学习[6] - 核心思路是实现算法设计与底层算力架构的解耦,开发者只需定义数据与损失函数,底层基础设施实现全托管与无感支持[10] 产品优势:易用性与人力效能 - 产品兼容Tinker接口,在零代码微调与裸机全手写之间找到平衡点,提供“训练即服务”的流畅体验[11] - 将大模型训练拆解为一组标准函数原语,打通从监督微调到强化学习的全链路[14] - 颠覆性提升人力效能比,将原本需要庞大团队配合的工作简化为一名算法工程师的独立闭环[12][16] - 用户可在本地IDE中使用标准Python语法自由组合训练逻辑,成为驾驭大规模训练流的主动设计师[16][17] 技术架构:实现丝滑体验 - 采用控制面与计算面分离设计,通过统一API Server管理跨地域的多个GPU计算集群,实现多云部署能力[22] - 核心采用基于Future模式的异步API,所有训练操作支持非阻塞调用,用户无需等待GPU计算完成[23] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际产生计算的有效Token量收费[25] 商业模式:按Token计费的算力零售 - 引入Serverless架构,推行“按Token计费”的商业模式,将算力服务切分到最细颗粒度[29] - 用户仅为前向传播、推理输出和训练产生的有效计算Tokens量付费,本地调试、数据预处理等环节全部免费[29] - 实测基于官方Cookbook跑通包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[29] - 提供具体模型计费示例,如Qwen3-4B模型的前向传播、推理输出和训练单价分别为每百万Token 0.42元、1.4元和1.4元[31] 应用场景:覆盖多领域工作流 - **科研场景**:支持“白盒级”科研探索,研究人员可自定义评估逻辑与控制训练流程,无需关心底层分布式实现,大幅降低实验复现成本[32][34] - **创业与独立开发**:利用Serverless特性,无需等待资源排期,实测从安装到跑通一个包含1000条样本的微调实验仅需数分钟,实现极速MVP验证和低成本试错[35][36] - **工业级落地**:允许工程师自由定义损失逻辑与强化学习奖励函数,拥有对模型权重与训练细节的完整控制权,可应对金融、医疗等领域的复杂异构架构需求[37] 使用与生态 - 使用流程极简,仅需安装、初始化客户端和定义训练循环三步,像写普通Python脚本一样简单[38][39] - 目前已支持Qwen3系列模型,并准备了开箱即用的HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO算法等复杂RL场景的完整代码实现[40][41] - 开发者无需从零构建复杂流水线,复制Cookbook中的“配方”运行本地脚本即可驱动云端复杂的分布式RL训练流[41]
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅
机器之心· 2026-01-07 13:16
行业趋势:从预训练到后训练的范式转移 - 大模型能力突破的核心战场正从预训练转向后训练,特别是强化学习[3] - 强化学习能以低数据量实现模型能力的大幅跃升,例如DeepSeek‑R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[3] - 行业正经历从“作坊式炼丹”到“工业化微调”的升级[1] 核心技术创新:算法与基础设施解耦 - OpenAI前CTO创立的Thinking Machines Lab推出的Tinker,将大模型训练抽象为forward、backward、optimizer step等一系列基本原语[1] - 该创新分离了算法设计与分布式训练基础设施的关联,把训练大模型变成了简单的“函数调用”[1] - 潞晨云微调SDK基于Tinker SDK构建,实现了算法设计与基础设施的解耦,开发者只需定义数据与Loss函数,底层复杂工程由平台全托管[4] 产品核心功能与优势 - 提供从监督微调到强化学习的全链路训练原语,包括Forward & Backward、Optimizer Step、Sample (Rollout)、Save State[6] - 开发者可在本地Jupyter Notebook或IDE中,使用标准Python语法像搭积木一样自由组合训练逻辑[8] - 采用控制面与计算面分离设计,通过统一API Server管理跨地域GPU集群,支持多云部署[10] - 基于Future模式的异步API支持非阻塞调用,用户无需等待GPU计算完成即可执行后续逻辑[10] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际计算Token收费[12] 颠覆性商业模式:按Token计费 - 引入Serverless架构,推行“按Token计费”模式,颠覆传统云主机的“包机/时租”模式[13][15] - 用户只需为Prefill、Sample和Train产生的有效计算Tokens量付费,其他如本地调试、环境配置、数据预处理等环节全部免费[18] - 提供了具体模型的计价示例,例如Qwen3-4B模型的Prefill价格为¥0.42/百万Token,Sample和Train价格为¥1.4/百万Token[17] - 该模式大幅降低了实验成本,实测跑通一个包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[18] 提升人力效能与工作流变革 - 将原本需要运维、Infra、平台和算法工程师紧密配合的庞大团队,简化为一个算法工程师的独立闭环,带来颠覆性的人力效能比提升[5][8] - 为科研场景降低实验复现成本,研究人员可进行“白盒级”探索,无需关心底层分布式实现[19] - 助力创业与独立开发极速验证MVP,从pip install到跑通一个包含1000条样本的微调实验仅需数分钟,实现低成本试错[20] - 支持金融、医疗等垂直领域的工业级落地,允许工程师自由定义Loss逻辑与强化学习奖励函数,实现端到端定制[21] 产品易用性与生态 - 使用极简,仅需三步:安装SDK、初始化客户端、定义训练循环并运行[23] - 目前已支持Qwen3系列模型,包括4B、8B、14B、32B[23] - 平台提供开箱即用的HPC-AI Cookbook,包含DeepSeek-R1 GRPO算法、基于Verifier的数学推理等复杂RL场景的完整代码实现,开发者可复制“配方”快速启动[24] - 前150名注册用户可获得30元Token使用额度进行体验[5][28]
华泰证券今日早参-20251204
华泰证券· 2025-12-04 09:43
宏观观点 - 日本央行行长释放12月可能加息信号,推动日债曲线上移、日元升值、日股调整 [2] - 日本真实利率转负已达4年,货币政策公信力大幅下降,长期国债利率易涨难跌 [2] - 11月美欧日服务业PMI维持高位,美欧制造业PMI有所回落,日本制造业低位回升 [3] - 美欧日通胀整体平稳,核心价格压力普遍温和,纽联储主席鸽派言论推升美联储降息预期 [3] - 美债收益率回落、美股三大股指涨跌不一、美元走弱,黄金、白银、铜价格延续上涨、油价下跌 [3] 固定收益分析 - 跨期价差取决于CTD券票面利率、CTD券全价和3个月回购利率,净基差差异受市场情绪和多空双方交割意愿影响 [4] - 当近月合约IRR较高时,正套力量较强,多头主导移仓,跨期价差走阔;IRR较低时空头主导移仓,价差收窄 [4] - 2603-2512合约移仓期间IRR整体高于3M同业存单利率,多头主导移仓带动跨期价差先上行后转为下行 [4] 科技与计算机行业 - 全球主流大模型集中于中美,美国头部厂商包括OpenAI、xAI、Anthropic与Google,国内领先厂商为DeepSeek、阿里、智谱、Kimi与MiniMax [5] - 国内高性能算力受限,海外模型偏向规模扩展,国内擅长架构优化 [5] - 投资建议把握算力、存储、电力、应用四个方向,算力是产业基座,多模态模型提升存储需求,电力是算力配套前提,AI应用是商业化落地关键 [5] 可选消费行业 - 2025年新旧消费延续分化表现,潮玩IP、美妆个护、现制饮品等新消费赛道涌现优秀龙头 [6] - 2026年促消费政策持续发力有望激发供需潜力,内需延续稳健复苏,行业景气分化 [6] - 投资主线聚焦国货崛起、AI赋能下的科技消费、情绪消费、低估值高股息白马龙头四大方向 [6] 航天军工行业 - 可重复使用运载火箭可解决运力产能瓶颈并降低航天成本,美国SpaceX公司猎鹰9号以高成功率和低成本占据全球发射市场较高份额 [7] - 我国朱雀三号、长征12号甲等可回收火箭积极准备首飞,后续成熟后将优化太空运力产能瓶颈和发射服务费用,提速卫星互联网等大型星座建设 [7] 重点公司分析 - 新奥能源私有化交易持续推进,已完成反垄断咨询、发改委备案等关键前置条件,将寄发计划文件最后期限延长至2026年1月30日 [8] - 公司前三季度天然气零售气量增速跑赢行业,泛能项目规模持续扩张,智家业务渗透率与客单价同步提升,基本面呈现边际改善态势 [8] - 基于2026年估值倍数上调目标价,维持买入评级,看好公司长期发展价值 [8] 评级变动 - 哈原工评级由买入调整为增持,目标价58.91元 [9] - 航天智造首次覆盖给予买入评级,目标价26.00元 [9] - BOSS直聘首次覆盖给予买入评级,目标价107.60元 [9] - Advantest首次覆盖给予买入评级,目标价23000.00日元 [9] - 亚玛芬体育首次覆盖给予买入评级,目标价47.50美元 [9]
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练
机器之心· 2025-10-15 10:54
研究背景与挑战 - 大模型后训练的核心工具强化学习(RL)陷入“均值优化陷阱”,过度聚焦高概率输出序列,忽略了低概率但高信息密度的推理路径[3][4] - 传统方法如GRPO导致模型训练早期出现熵坍缩,过早丧失探索能力,面对全错难题时优势函数归零,模型在薄弱环节完全无法学习[4] - 现有方法仅在Pass@1等短视指标上有提升,但推理边界并未拓宽,无法应对AIME竞赛题、复杂代码生成等高难度任务[4] 技术方案核心创新 - 提出RiskPO方法,将风险规避理念融入优化目标,用关注奖励分布左尾(难任务)替代追求整体均值,引导模型突破推理短板[7] - 核心技术载体是混合风险价值目标函数,通过引入权重参数ω放大左尾(低奖励、难任务)的梯度信号[9][10] - 配合多问题捆绑策略,将多个问题打包成bundle计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决难题零梯度问题[12] 实验性能表现 - 在数学推理任务AIME24上,RiskPO的Pass@32得分比GRPO高出近7个百分点,比最强基线DAPO提升6.7个百分点[15] - 在MATH500数据集上,RiskPO的Pass@1达到81.8%,超出GRPO 2.6个百分点,且随着评估指标从Pass@1转向Pass@8、Pass@16,优势持续扩大[15] - 在跨领域任务中,代码生成任务LiveCodeBench上Pass@1比GRPO提升1个百分点,多模态几何推理任务Geo3K准确率达到54.5%[18] 理论支撑与机制验证 - 风险规避更新能有效缓解熵坍缩,训练500步后GRPO的熵值趋近于0,而RiskPO仍能维持0.2以上的熵水平,确保对难任务的持续探索[20][21] - 风险寻求模型的熵值在训练150步后已降至0.1以下,MATH数据集Pass@1仅从52%提升至54%,而RiskPO持续优化至56%,实现1.5倍的提升幅度[26] - 均值目标只能让模型在已知能力范围内优化采样效率,而风险度量目标才是推动模型突破推理边界、提升核心能力的理想方向[24]
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心· 2025-10-14 10:06
文章核心观点 - 大模型后训练是AI进化的关键环节,核心目标是增强模型推理能力、对齐人类偏好并保持稳定高效 [1] - 作业帮与香港科技大学(广州)团队提出全新后训练方法GVPO,该方法通过避免重要性采样解决了GRPO的训练不稳定和超参数敏感问题 [2] - GVPO在理论上提供唯一最优解保证,在数学推理任务实验中表现全面超越GRPO和DrGRPO等现有方法 [2][21] - GVPO标志着后训练从经验驱动转向理论保证,可能引发下一代后训练的范式转变,具备更稳定、更灵活、更高效的特点 [25][26] GVPO设计动机与方法 - 研究团队受DPO启发,旨在GRPO场景下利用KL约束下奖励最大化的解析解,但面临公式中Z(x)计算不可行的实际困难 [5][6] - GVPO通过保证同一提示词下所有采样对应梯度权重之和为零,使Z(x)自然消掉,从而规避计算难题 [6] - GVPO的损失函数等价于均方误差损失,其物理意义是让隐式奖励去逼近真实奖励 [10][11] GVPO关键优势 - 拥有唯一最优解保证,研究团队从必要性和充分性证明当且仅当隐式奖励等于真实奖励时达到唯一最优解 [13] - 无须重要性采样,对训练时的采样分布几乎无限制,能适配任意满足条件的分布,支持无需重要性采样的离线策略训练 [14] - 能够充分利用人类专家数据、蒸馏数据和历史数据,避免重要性采样常见的训练不稳定问题,更契合大规模工业级应用 [14] GVPO分析视角 - 负对数似然视角下,GVPO损失函数可表示为带权重的负对数似然,涵盖传统策略梯度方法并允许整合历史数据和异构数据源 [17] - 均方误差视角下,优化目标等价于最小化隐式奖励与实际奖励中心距离的偏差,保证收敛到唯一全局最优解 [18] - 强化学习视角下,损失函数包含组相对奖励项、方差正则项和协方差正则项,共同保障训练稳定性并避免熵塌缩 [19][20] 实验结果 - 在数学推理任务系统对比中,基座模型Qwen25-Math-7B使用GVPO后在AIME2024、AMC、MATH500、Minerva、OlympiadBench五个基准测试全面领先 [21] - GVPO在AIME2024得分从基座的1468提升至2072,在AMC从3855提升至6265,在MATH500从6400提升至8380,在Minerva从2720提升至4595,在OlympiadBench从3066提升至4696 [21] - 消融实验显示GVPO对超参数β不敏感几乎无需调参,在采样数量增加时扩展性优异,且支持混合采样策略进一步降低成本 [23] 行业意义与前景 - GVPO为可靠通用的大模型后训练提供全新范式,推动后训练从经验驱动走向理论保证 [25] - 该方法具备更稳定特性可降低大规模训练的工程风险,更灵活特性可支撑更复杂数据利用场景,更高效特性可在推理和对齐中获得更佳性价比 [26] - 在大模型迈向通用智能道路上,后训练已成为竞争焦点,GVPO的提出可能预示着下一代后训练的范式转变 [25]
真正的AI竞争力,藏在大模型“后训练”这一步
量子位· 2025-10-13 16:47
后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路,旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式,并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路:准备高质量数据(Data)、选择合适的基座模型(Model)、设计有效的奖励机制(Reward)、构建可量化的模型评测(Evaluation)并与业务指标挂钩[8] 第一步:准备高质量数据 - 数据质量是后训练效果的上限,企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量,汽车之家利用20年积累的结构化私域数据进行增量预训练,百融云创则建立工业化数据生产线,通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步:选择合适的基座模型 - 选对基座模型是后训练成功的一半,多家企业选择通义千问系列模型,因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万,全球下载量超过6亿,在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本,微博和网易伏羲采用模型蒸馏方案,将大模型能力迁移至更轻量的模型上,微博蒸馏至7B模型,实现了接近大模型的效果但成本更低[19][21] 第三步:设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号,技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作,将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数,汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步:构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值,盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制,盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型,百融云创使模型回答质量分提升10%,业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维,2025年为高考志愿填报场景生成超1200万份报告,服务4000万用户,实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域,后训练使NPC具备多维度决策能力,如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发,成为企业真正的护城河[32]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
36氪· 2025-09-01 12:38
大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好 预训练使模型掌握通用语言能力 但后训练强化特定领域知识和应用能力 增强模型适应性和灵活性[5] - 强化学习核心是反馈机制 目标是增加好结果出现概率 降低坏结果出现概率 在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制 加入Critic价值函数和CLIP操作 保证策略更新不过度同时高效提升性能 成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度 显著降低训练过程方差 同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度 避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数 采用策略模型多次输出采样奖励平均值作为基准线 超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍 训练速度比PPO快3-5倍 采用单策略网络架构 优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题 容易导致训练崩溃 需要大量数据降低策略梯度方差 中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进 让Qwen2.5-32B模型在AIME 2024基准获得50分 优于同等规模DeepSeek模型 训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间 提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语 保留有效梯度样本 提高训练效率 采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级 基于整个序列似然度计算重要性比值 显著降低长序列中积累的高方差 提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化 避免importance ratio对长度敏感造成不稳定 同一序列所有token共用同一重要性权重 裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作 成为Qwen3强化学习核心实践框架 可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题 可同时优化多个响应属性如简洁性和准确度 避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组 过滤不符合目标属性响应 在所选组内使用标准奖励计算相对优势 无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面 可与任何GRPO类似方法兼容 包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题 多个奖励信号被合并为单一标量信号 模型无法知道具体因什么行为被奖励 即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈 仅使用数值化奖励信号 文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支 使GRPO在多轮任务训练变得非常困难[44]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 10:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]