Workflow
SRF
icon
搜索文档
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]
美国纽约联储就常备回购便利工具(SRF)发布公告。
快讯· 2025-05-29 02:08
美国纽约联储常备回购便利工具(SRF)公告 - 美国纽约联储发布关于常备回购便利工具(SRF)的官方公告 [1]
纽约联储官员:货币市场现紧缩初兆 美联储缩表施压渐显
智通财经网· 2025-05-23 09:26
美联储资产负债表缩减对回购协议市场的影响 - 纽约联储官员表示美联储缩减资产负债表的举措已开始对回购协议市场施加压力 [1] - 随着资产负债表规模持续缩减,银行储备从"充裕"转向"充足"水平,货币市场利率面临上行压力可能加剧 [1] - 美联储上月将每月允许到期不续作的美国国债上限从250亿美元下调至50亿美元,抵押贷款支持证券上限维持350亿美元不变 [1] 美联储资产负债表规模与流动性 - 截至5月14日当周,美联储资产负债表规模为3.24万亿美元,高于前一周的3万亿美元,略低于近三年前启动QT时的水平 [2] - 华尔街策略师估计美联储需将资产负债表规模维持在3万亿至3.25万亿美元以上以维持充足流动性并避免市场压力 [2] 常备回购便利(SRF)的作用与挑战 - SRF有助于减少央行在"充足储备框架"下维持有效运作所需提供的储备规模 [3] - 纽约联储计划将SRF的提前结算操作纳入常规日程以支持市场平稳运行 [3] - 交易对手使用SRF存在障碍,包括无法将交易从资产负债表中净额结算以及额度分配的不确定性 [3] - 这些摩擦导致交易对手通常要求私人市场回购利率显著高于SRF的最低出价利率才会使用该工具 [3]
美联储官员:鼓励机构积极利用SRF工具 以应对市场流动性挑战
快讯· 2025-05-23 03:15
美联储政策工具调整 - 美联储鼓励金融机构更积极使用常备回购便利工具(SRF)以支持货币政策实施和市场平稳运行 [1] - 纽约联储将调整SRF操作安排 从仅下午操作扩展至上午时段并当天完成结算 [1] - SRF工具的有效性提升有助于美联储维持相对更小的资产负债表规模 [1] 货币政策与流动性 - 美联储官员认为当前市场流动性依然充裕 但持续缩表可能还有一段路要走 [1] - 随着美联储缩表和降低储备水平 货币市场利率的上行压力可能会增加 [1] - 有迹象显示货币市场流动性正在收紧 [1]
美国纽约联储证券资产业务主管Roberto Perli:储备金下降给市场利率带来上行压力。回购市场出现初步的压力。在哪些关键的报告日期,压力尤其显著。对于利率控制而言,SRF的重要性可能上升。
快讯· 2025-05-23 03:05
市场利率压力 - 美国纽约联储证券资产业务主管Roberto Perli指出储备金下降导致市场利率面临上行压力 [1] - 回购市场已出现初步压力迹象 [1] 关键时间节点 - 特定报告日期期间市场压力表现尤为显著 [1] 利率调控工具 - 常备回购便利工具(SRF)在利率控制中的重要性可能提升 [1]
继放缓缩表步伐后 美联储再出招护航金融市场流动性:拟将“早期回购”常态化
智通财经网· 2025-05-09 22:33
纽约联储流动性支持工具调整 - 纽约联储计划将关键流动性支持工具的早期结算操作纳入常规日程安排,以提升工具效能并支持金融市场平稳运行[1] - 美联储3月已同意"显著放慢"资产负债表缩减步伐,纽约联储此次操作是护航市场流动性的最新举措[1] - 操作旨在应对特朗普关税政策导致的美债市场剧烈波动,特别强化回购市场流动性韧性[1][5] 常设回购便利机制(SRF)优化 - SRF的日程安排调整将在"不久的将来"实施,允许机构用美债换取隔夜资金[2] - 美联储官员认为需继续提高SRF有效性,当前三方回购环节利率4.5%明显高于工具报价水平[6] - 交易对手要求市场利率略高于SRF利率才愿使用该工具,反映工具吸引力待提升[6] 流动性风险防控背景 - 美联储通过减速缩表(月度上限从250亿降至50亿)+扩容SRF时段构建流动性"保险层"[1][6] - 措施预防长端美债收益率高位震荡或财政融资高峰时的资金错配,避免2019年式流动性危机[1][7] - 当前准备金约3万亿美元,但部分指标触及缓冲带下缘,接近2019年"临界点"[7] 市场波动与政策应对 - 4月初特朗普贸易政策引发美债流动性"真实且显著"恶化,但回购市场韧性维持运作常态[5][6] - 10年期美债2023年多次触及5%的16年新高,通胀与关税压力或致收益率重返该水平[7] - 若10年期收益率突破5%且与回购利差拉大,美联储可能暂停缩表或定向扩表稳定利率走廊[7] 操作历史与市场影响 - 纽约联储曾在12月底和3月底提供额外每日回购操作,应对监管导致的回购利率飙升[1][6] - 早期结算操作固定化可防止利差迅速放大时金融市场脱锚,抑制短期交易平仓引发的市场扭曲[5][6] - 美联储目标是通过工具可获得性确保利率控制,维持充裕准备金框架下的流动性稳定[6]