大模型后训练 - 财报，业绩电话会，研报，新闻

大模型后训练

搜索文档

华泰证券今日早参-20251204

华泰证券· 2025-12-04 09:43

宏观观点 - 日本央行行长释放12月可能加息信号，推动日债曲线上移、日元升值、日股调整 [2] - 日本真实利率转负已达4年，货币政策公信力大幅下降，长期国债利率易涨难跌 [2] - 11月美欧日服务业PMI维持高位，美欧制造业PMI有所回落，日本制造业低位回升 [3] - 美欧日通胀整体平稳，核心价格压力普遍温和，纽联储主席鸽派言论推升美联储降息预期 [3] - 美债收益率回落、美股三大股指涨跌不一、美元走弱，黄金、白银、铜价格延续上涨、油价下跌 [3] 固定收益分析 - 跨期价差取决于CTD券票面利率、CTD券全价和3个月回购利率，净基差差异受市场情绪和多空双方交割意愿影响 [4] - 当近月合约IRR较高时，正套力量较强，多头主导移仓，跨期价差走阔；IRR较低时空头主导移仓，价差收窄 [4] - 2603-2512合约移仓期间IRR整体高于3M同业存单利率，多头主导移仓带动跨期价差先上行后转为下行 [4] 科技与计算机行业 - 全球主流大模型集中于中美，美国头部厂商包括OpenAI、xAI、Anthropic与Google，国内领先厂商为DeepSeek、阿里、智谱、Kimi与MiniMax [5] - 国内高性能算力受限，海外模型偏向规模扩展，国内擅长架构优化 [5] - 投资建议把握算力、存储、电力、应用四个方向，算力是产业基座，多模态模型提升存储需求，电力是算力配套前提，AI应用是商业化落地关键 [5] 可选消费行业 - 2025年新旧消费延续分化表现，潮玩IP、美妆个护、现制饮品等新消费赛道涌现优秀龙头 [6] - 2026年促消费政策持续发力有望激发供需潜力，内需延续稳健复苏，行业景气分化 [6] - 投资主线聚焦国货崛起、AI赋能下的科技消费、情绪消费、低估值高股息白马龙头四大方向 [6] 航天军工行业 - 可重复使用运载火箭可解决运力产能瓶颈并降低航天成本，美国SpaceX公司猎鹰9号以高成功率和低成本占据全球发射市场较高份额 [7] - 我国朱雀三号、长征12号甲等可回收火箭积极准备首飞，后续成熟后将优化太空运力产能瓶颈和发射服务费用，提速卫星互联网等大型星座建设 [7] 重点公司分析 - 新奥能源私有化交易持续推进，已完成反垄断咨询、发改委备案等关键前置条件，将寄发计划文件最后期限延长至2026年1月30日 [8] - 公司前三季度天然气零售气量增速跑赢行业，泛能项目规模持续扩张，智家业务渗透率与客单价同步提升，基本面呈现边际改善态势 [8] - 基于2026年估值倍数上调目标价，维持买入评级，看好公司长期发展价值 [8] 评级变动 - 哈原工评级由买入调整为增持，目标价58.91元 [9] - 航天智造首次覆盖给予买入评级，目标价26.00元 [9] - BOSS直聘首次覆盖给予买入评级，目标价107.60元 [9] - Advantest首次覆盖给予买入评级，目标价23000.00日元 [9] - 亚玛芬体育首次覆盖给予买入评级，目标价47.50美元 [9]

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

机器之心· 2025-10-15 10:54

研究背景与挑战 - 大模型后训练的核心工具强化学习（RL）陷入“均值优化陷阱”，过度聚焦高概率输出序列，忽略了低概率但高信息密度的推理路径[3][4] - 传统方法如GRPO导致模型训练早期出现熵坍缩，过早丧失探索能力，面对全错难题时优势函数归零，模型在薄弱环节完全无法学习[4] - 现有方法仅在Pass@1等短视指标上有提升，但推理边界并未拓宽，无法应对AIME竞赛题、复杂代码生成等高难度任务[4] 技术方案核心创新 - 提出RiskPO方法，将风险规避理念融入优化目标，用关注奖励分布左尾（难任务）替代追求整体均值，引导模型突破推理短板[7] - 核心技术载体是混合风险价值目标函数，通过引入权重参数ω放大左尾（低奖励、难任务）的梯度信号[9][10] - 配合多问题捆绑策略，将多个问题打包成bundle计算奖励，把稀疏的二进制反馈转化为更丰富的分布信号，彻底解决难题零梯度问题[12] 实验性能表现 - 在数学推理任务AIME24上，RiskPO的Pass@32得分比GRPO高出近7个百分点，比最强基线DAPO提升6.7个百分点[15] - 在MATH500数据集上，RiskPO的Pass@1达到81.8%，超出GRPO 2.6个百分点，且随着评估指标从Pass@1转向Pass@8、Pass@16，优势持续扩大[15] - 在跨领域任务中，代码生成任务LiveCodeBench上Pass@1比GRPO提升1个百分点，多模态几何推理任务Geo3K准确率达到54.5%[18] 理论支撑与机制验证 - 风险规避更新能有效缓解熵坍缩，训练500步后GRPO的熵值趋近于0，而RiskPO仍能维持0.2以上的熵水平，确保对难任务的持续探索[20][21] - 风险寻求模型的熵值在训练150步后已降至0.1以下，MATH数据集Pass@1仅从52%提升至54%，而RiskPO持续优化至56%，实现1.5倍的提升幅度[26] - 均值目标只能让模型在已知能力范围内优化采样效率，而风险度量目标才是推动模型突破推理边界、提升核心能力的理想方向[24]

NeurIPS 25 | GRPO进阶版来了，GVPO重构大模型后训练范式

机器之心· 2025-10-14 10:06

文章核心观点 - 大模型后训练是AI进化的关键环节，核心目标是增强模型推理能力、对齐人类偏好并保持稳定高效 [1] - 作业帮与香港科技大学（广州）团队提出全新后训练方法GVPO，该方法通过避免重要性采样解决了GRPO的训练不稳定和超参数敏感问题 [2] - GVPO在理论上提供唯一最优解保证，在数学推理任务实验中表现全面超越GRPO和DrGRPO等现有方法 [2][21] - GVPO标志着后训练从经验驱动转向理论保证，可能引发下一代后训练的范式转变，具备更稳定、更灵活、更高效的特点 [25][26] GVPO设计动机与方法 - 研究团队受DPO启发，旨在GRPO场景下利用KL约束下奖励最大化的解析解，但面临公式中Z(x)计算不可行的实际困难 [5][6] - GVPO通过保证同一提示词下所有采样对应梯度权重之和为零，使Z(x)自然消掉，从而规避计算难题 [6] - GVPO的损失函数等价于均方误差损失，其物理意义是让隐式奖励去逼近真实奖励 [10][11] GVPO关键优势 - 拥有唯一最优解保证，研究团队从必要性和充分性证明当且仅当隐式奖励等于真实奖励时达到唯一最优解 [13] - 无须重要性采样，对训练时的采样分布几乎无限制，能适配任意满足条件的分布，支持无需重要性采样的离线策略训练 [14] - 能够充分利用人类专家数据、蒸馏数据和历史数据，避免重要性采样常见的训练不稳定问题，更契合大规模工业级应用 [14] GVPO分析视角 - 负对数似然视角下，GVPO损失函数可表示为带权重的负对数似然，涵盖传统策略梯度方法并允许整合历史数据和异构数据源 [17] - 均方误差视角下，优化目标等价于最小化隐式奖励与实际奖励中心距离的偏差，保证收敛到唯一全局最优解 [18] - 强化学习视角下，损失函数包含组相对奖励项、方差正则项和协方差正则项，共同保障训练稳定性并避免熵塌缩 [19][20] 实验结果 - 在数学推理任务系统对比中，基座模型Qwen25-Math-7B使用GVPO后在AIME2024、AMC、MATH500、Minerva、OlympiadBench五个基准测试全面领先 [21] - GVPO在AIME2024得分从基座的1468提升至2072，在AMC从3855提升至6265，在MATH500从6400提升至8380，在Minerva从2720提升至4595，在OlympiadBench从3066提升至4696 [21] - 消融实验显示GVPO对超参数β不敏感几乎无需调参，在采样数量增加时扩展性优异，且支持混合采样策略进一步降低成本 [23] 行业意义与前景 - GVPO为可靠通用的大模型后训练提供全新范式，推动后训练从经验驱动走向理论保证 [25] - 该方法具备更稳定特性可降低大规模训练的工程风险，更灵活特性可支撑更复杂数据利用场景，更高效特性可在推理和对齐中获得更佳性价比 [26] - 在大模型迈向通用智能道路上，后训练已成为竞争焦点，GVPO的提出可能预示着下一代后训练的范式转变 [25]

真正的AI竞争力，藏在大模型“后训练”这一步

量子位· 2025-10-13 16:47

后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路，旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调（SFT）进化至以目标为导向的强化学习（RL）范式，并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强，解决商业世界的复杂任务，构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路：准备高质量数据（Data）、选择合适的基座模型（Model）、设计有效的奖励机制（Reward）、构建可量化的模型评测（Evaluation）并与业务指标挂钩[8] 第一步：准备高质量数据 - 数据质量是后训练效果的上限，企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量，汽车之家利用20年积累的结构化私域数据进行增量预训练，百融云创则建立工业化数据生产线，通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步：选择合适的基座模型 - 选对基座模型是后训练成功的一半，多家企业选择通义千问系列模型，因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万，全球下载量超过6亿，在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本，微博和网易伏羲采用模型蒸馏方案，将大模型能力迁移至更轻量的模型上，微博蒸馏至7B模型，实现了接近大模型的效果但成本更低[19][21] 第三步：设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号，技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作，将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数，汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步：构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值，盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制，盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型，百融云创使模型回答质量分提升10%，业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维，2025年为高考志愿填报场景生成超1200万份报告，服务4000万用户，实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域，后训练使NPC具备多维度决策能力，如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发，成为企业真正的护城河[32]

大模型后训练

强化学习

模型蒸馏

Artificial Intelligence

Artificial Intelligence

通义千问

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

36氪· 2025-09-01 12:38

大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好预训练使模型掌握通用语言能力但后训练强化特定领域知识和应用能力增强模型适应性和灵活性[5] - 强化学习核心是反馈机制目标是增加好结果出现概率降低坏结果出现概率在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制加入Critic价值函数和CLIP操作保证策略更新不过度同时高效提升性能成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度显著降低训练过程方差同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数采用策略模型多次输出采样奖励平均值作为基准线超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍训练速度比PPO快3-5倍采用单策略网络架构优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题容易导致训练崩溃需要大量数据降低策略梯度方差中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进让Qwen2.5-32B模型在AIME 2024基准获得50分优于同等规模DeepSeek模型训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语保留有效梯度样本提高训练效率采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级基于整个序列似然度计算重要性比值显著降低长序列中积累的高方差提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化避免importance ratio对长度敏感造成不稳定同一序列所有token共用同一重要性权重裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作成为Qwen3强化学习核心实践框架可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题可同时优化多个响应属性如简洁性和准确度避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组过滤不符合目标属性响应在所选组内使用标准奖励计算相对优势无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面可与任何GRPO类似方法兼容包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题多个奖励信号被合并为单一标量信号模型无法知道具体因什么行为被奖励即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈仅使用数值化奖励信号文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支使GRPO在多轮任务训练变得非常困难[44]

微软(US:MSFT)

大模型后训练

强化学习

Artificial Intelligence

Artificial Intelligence

GFPO

GPT

GRPO

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

机器之心· 2025-09-01 10:49

大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法，能够应用于广泛的后训练任务，各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段，预训练使模型掌握通用语言能力，后训练则强化模型在特定领域的知识和应用能力，增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分，其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法，通过人类反馈训练agent生成更有用的输出，但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制，显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度，避免模型单次更新幅度过大，同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型，Critic模型大小与策略模型相同，带来额外内存和计算负担，训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题，采用策略模型多次输出采样的平均Reward作为baseline计算Advantage，大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存，GRPO仅需0.5倍内存，训练速度快3-5倍，采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题，容易导致训练崩溃，需要足够多的Batch数据来降低策略梯度方差，对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化：Clip-Higher机制通过解耦剪辑范围提升训练早期熵值；动态采样过滤无效梯度样本；Token级策略梯度损失保证长序列所有token公平贡献；超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分，优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级，基于整个序列似然度计算重要性比值，显著降低长序列方差积累问题，提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化，避免不同回答长度带来的不稳定，且裁剪时作用于整个序列而非部分token，更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准，特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题，可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应，无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预，可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号，模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题，导致训练非常困难 [79]

Artificial Intelligence

Artificial Intelligence

GRPO

DAPO