Importance Sampling - 财报，业绩电话会，研报，新闻

Importance Sampling

搜索文档

量子位· 2025-10-15 18:20

文章核心观点 - 在大语言模型的结果监督强化学习中，传统的重要性采样机制存在权重错配问题，导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法，通过不对称翻转正样本的重要性采样权重，有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升，训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中，重要性采样不仅未带来分布修正好处，反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后，模型最终准确率无差异，但训练曲线更平滑稳定，熵值下降速度放缓，重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token，导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数，使低概率token获得更强更新，高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值，限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比，增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中，ASPO-Math-1.5B模型平均得分达59.3，优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上，ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩，显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显：数学任务平均性能提升12.5%，代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定，无显著熵坍塌现象 [26][27] - 模型输出重复率更低，KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓，避免了传统算法中的熵坍缩问题 [27]

Importance Sampling

Reinforcement Learning

Large Language Model

Artificial Intelligence

ASPO (Asymmetric Importance Sampling Policy Optimization)

Importance Sampling

Reinforcement Learning

Large Language Model

Artificial Intelligence

ASPO (Asymmetric Importance Sampling Policy Optimization)