Workflow
奖励函数
icon
搜索文档
SFT的本质,其实是在优化RL目标的下界...
自动驾驶之心· 2025-10-22 08:03
核心观点 - 在稀疏奖励设定下,标准监督微调(SFT)的优化目标实际上是强化学习(RL)目标的一个(较松的)下界 [1][9] - 为收紧该下界并保持训练稳定,研究引入了一个桥梁分布q进行调节,最终得到一个重要性加权版本的SFT目标(iw SFT) [1][11] - 相比于标准SFT,iw SFT通过调整辅助分布q,能够收紧下界并隐式利用负样本信息,从而可能学习到更优的策略 [11][19][20] 理论推导:SFT与RL的联系 - RL策略梯度算法的目标是最大化期望累积奖励,即 $J(\theta)=\mathbb{E}_{p(\tau;\theta)}[R(\tau)]$ [4][5] - 通过重要性采样和对数不等式,将RL目标与参考分布π_ref联系起来,推导出在稀疏奖励(仅对优质样本奖励为1)下,SFT目标是RL目标的一个下界,即 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}[\log p(\tau;\theta)]$ [5][6][7][8] - 标准SFT的下界可能不够紧,且随着训练策略p_π与参考分布π_ref差异增大,下界会变松,影响性能 [9] 重要性加权SFT(iw SFT)的引入 - 为解决下界松弛问题,引入一个可自由设置的辅助分布q作为桥梁分布 [11] - 通过引入q,RL目标被重写,并再次应用不等式,得到重要性加权的SFT目标 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}\left[{\frac{q(\tau)}{\pi_{\mathrm{ref}}(\tau)}}\log p(\tau;\theta)\right]$ [11] - 该目标多了一个权重系数 $q(\tau)/\pi_{\mathrm{ref}}(\tau)$,通过调整q可以收紧下界 [11] 桥梁分布q的选择与约束 - 理想情况下,q应尽可能接近当前策略p_π以保证下界紧度,但又不能离参考分布π_ref太远以保证训练稳定性 [13] - 研究采用时间滞后的策略模型参数来定义q,即 $q(\tau)=p_{\pi}(\tau;\theta_{q})$,以保持与p_π接近 [13] - 为控制重要性权重方差,提出了两种约束方案:在token维度进行每步裁剪,或在轨迹维度进行平滑处理 [14][15] 示例说明与优势 - 通过一个多臂老虎机示例说明,标准SFT在均匀参考策略下学习到的策略(期望奖励5/6)并非最优(最优为1)[18][19] - 在该例中,iw SFT能自适应地为高奖励动作(拉右杆)分配更高权重,最终收敛到最优策略,隐式地恢复了负样本信息 [19][20] - iw SFT的优势在于其目标函数中包含了参考分布π_ref的信息,从而能更有效地利用数据 [20]
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
36氪· 2025-07-15 11:23
AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1] 强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4] 奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8] 模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14] 未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]