Workflow
桥梁分布
icon
搜索文档
SFT的本质,其实是在优化RL目标的下界...
自动驾驶之心· 2025-10-22 08:03
核心观点 - 在稀疏奖励设定下,标准监督微调(SFT)的优化目标实际上是强化学习(RL)目标的一个(较松的)下界 [1][9] - 为收紧该下界并保持训练稳定,研究引入了一个桥梁分布q进行调节,最终得到一个重要性加权版本的SFT目标(iw SFT) [1][11] - 相比于标准SFT,iw SFT通过调整辅助分布q,能够收紧下界并隐式利用负样本信息,从而可能学习到更优的策略 [11][19][20] 理论推导:SFT与RL的联系 - RL策略梯度算法的目标是最大化期望累积奖励,即 $J(\theta)=\mathbb{E}_{p(\tau;\theta)}[R(\tau)]$ [4][5] - 通过重要性采样和对数不等式,将RL目标与参考分布π_ref联系起来,推导出在稀疏奖励(仅对优质样本奖励为1)下,SFT目标是RL目标的一个下界,即 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}[\log p(\tau;\theta)]$ [5][6][7][8] - 标准SFT的下界可能不够紧,且随着训练策略p_π与参考分布π_ref差异增大,下界会变松,影响性能 [9] 重要性加权SFT(iw SFT)的引入 - 为解决下界松弛问题,引入一个可自由设置的辅助分布q作为桥梁分布 [11] - 通过引入q,RL目标被重写,并再次应用不等式,得到重要性加权的SFT目标 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}\left[{\frac{q(\tau)}{\pi_{\mathrm{ref}}(\tau)}}\log p(\tau;\theta)\right]$ [11] - 该目标多了一个权重系数 $q(\tau)/\pi_{\mathrm{ref}}(\tau)$,通过调整q可以收紧下界 [11] 桥梁分布q的选择与约束 - 理想情况下,q应尽可能接近当前策略p_π以保证下界紧度,但又不能离参考分布π_ref太远以保证训练稳定性 [13] - 研究采用时间滞后的策略模型参数来定义q,即 $q(\tau)=p_{\pi}(\tau;\theta_{q})$,以保持与p_π接近 [13] - 为控制重要性权重方差,提出了两种约束方案:在token维度进行每步裁剪,或在轨迹维度进行平滑处理 [14][15] 示例说明与优势 - 通过一个多臂老虎机示例说明,标准SFT在均匀参考策略下学习到的策略(期望奖励5/6)并非最优(最优为1)[18][19] - 在该例中,iw SFT能自适应地为高奖励动作(拉右杆)分配更高权重,最终收敛到最优策略,隐式地恢复了负样本信息 [19][20] - iw SFT的优势在于其目标函数中包含了参考分布π_ref的信息,从而能更有效地利用数据 [20]