无监督前缀微调（UPFT） - 财报，业绩电话会，研报，新闻

无监督前缀微调（UPFT）

搜索文档

量子位· 2025-03-12 11:59

核心观点 - 腾讯AI Lab与香港中文大学（深圳）合作，提出了一种名为“无监督前缀微调”（UPFT）的新方法，该方法通过仅微调大语言模型生成内容的前8-32个词（token），就能使其推理能力达到与传统监督训练相当的水平 [1][3] - UPFT方法的核心原理基于“推理前序自一致性”的发现，即模型正确推理的关键信号集中在生成内容的最初部分，后续的“发散”更多是表象 [2][6][8][12] - 该方法能显著降低大模型训练的数据生产成本和算力消耗，将训练时间缩短约75%，并将采样成本降低约99%，同时训练序列长度缩减了82.6-94.7% [1][4][45] 技术原理与发现 - **推理前序自一致性**：研究发现，无论模型针对同一问题生成多少条不同的推理路径，其路径的开端（前8-32个词）内容几乎完全相同，这表明关键的正确推理信号隐藏在模型的“前几步”里 [2][7][11][15] - **贝叶斯框架下的平衡策略**：从贝叶斯视角看，模型表现取决于推理路径的“覆盖范围”（先验分布）和“准确性”（条件概率）。传统“拒绝微调”策略只关注最终答案正确的路径，牺牲了覆盖范围。UPFT通过仅训练模型生成解题路径的前半部分（前缀），在保证准确性的同时探索了更多解题思路，找到了效率与效果的平衡点 [23][24][26][27][30][32] - **关键临界长度**：实验发现，只有当前序长度超过某个临界点时，正确与错误的推理路径才能被有效区分，这为优化训练策略提供了重要参考 [19][20] 性能与效率优势 - **提升无监督训练上限**：在无监督场景下，UPFT相比传统监督微调（SFT）在多个推理基准测试上表现更优。例如，在U-Hard数据集上，Qwen2.5-Math-7B-Instruct模型的UPFT准确率达54.5%，高于SFT的51.3%；DeepSeek-R1-Distill-Qwen-7B模型的UPFT准确率达61.6%，高于SFT的56.4% [41][42] - **在复杂任务中表现突出**：在更具挑战性的AIME2024数学竞赛题上，Qwen2.5-Math-7B-Instruct的UPFT准确率为26.6%，远高于SFT的16.7%；DeepSeek-R1模型的UPFT准确率达50.0%，高于SFT的36.7% [43] - **显著降低资源消耗**： - **采样成本**：在Qwen2.5-Math-7B-Instruct上，UPFT达到与需要大量采样的RFT方法相同的准确率（52.6%），但采样token消耗仅为RFT的1.2%（0.6M vs 51.7M）。在DeepSeek-R1模型上，UPFT准确率（58.7%）比RFT高1.5个百分点，但采样token花费仅为RFT的1%，训练token花费仅为RFT的25% [47] - **训练序列长度与内存**：UPFT显著减少了训练序列长度，缩减幅度达82.6-94.7%。例如在U-Hard数据集上，UPFT平均仅需68.2个token，而SFT需要393.3个token，内存消耗大幅降低 [4][45] 方法实施细节 - **训练数据策略**：对于每道题目，UPFT仅生成一条推理路径（传统方法需生成多达16条）。其中，对10%的题目生成完整解题路径，对剩余90%的题目只生成解题路径的前半部分（前缀） [35] - **对前缀长度的鲁棒性**：实验表明，UPFT方法对不同前缀长度表现鲁棒。例如，Llama-3.1-8B-Instruct模型在包含8个token的前缀处性能达到峰值（52.0%），而Qwen2.5-Math-7B-Instruct模型的性能在前32个token内均缓慢提升 [50] - **与现有方法的兼容性**：UPFT可与标签过滤等现有方法结合，进一步提升性能。例如，在Llama-3.1-8B-Instruct模型上，结合标签过滤的UPFT性能超过RFT，得分达38.8% [47] 实验与验证 - **测试模型与基准**：研究使用了通用模型（Llama-3.1-8B-Instruct）、数学专用模型（Qwen2.5-Math-7B-Instruct）和长思维链模型（DeepSeek-R1-Distill-Qwen-7B），并在GSM8K、Math500、AIME2024、GPQA等多个推理基准上进行了测试 [37] - **对比方法**：研究将UPFT与传统监督微调（SFT）以及需要大量采样的方法（如RFT、V-STaR）进行了全面对比，证明了其在性能和效率上的双重优势 [42][48]