Workflow
腾讯发布超低成本AI训练法!120元效果秒杀70000元微调方案

文章核心观点 - 腾讯优图团队提出一种名为“无训练组相对策略优化”的新方法,该方法无需调整大语言模型参数,仅通过在提示词中学习简短经验即可显著提升模型性能 [1][2] - 该方法成本效益极高,在671B大型模型上应用仅需约18美元,远低于传统微调方法超过10000美元的成本 [5][28] - 实验证明该方法在数学推理和网页搜索任务上能实现显著的跨领域性能提升,例如将DeepSeek-V3.1-Terminus模型在AIME25上的得分从67.9%提升至73.3% [4][27][28] 技术原理与方法 - 该方法保持模型参数永久冻结,转而维护一个外部经验知识库,通过动态更新知识库而非模型参数来实现性能优化 [14] - 核心流程包括生成分析摘要、提取自然语言经验、以及通过添加、删除、修改或保留操作来更新经验库 [18][19][24] - 该方法通过改变上下文而非模型参数本身,将模型引向高奖励输出,被冻结的基础模型起到了强先验作用,保证输出的连贯性和稳定性 [22] 数学推理任务性能 - 在AIME24和AIME25基准测试中,应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型得分分别从80.0%提升至82.7%,从67.9%提升至73.3% [27][28] - 该方法仅使用100个跨域训练样本且无需梯度更新,成本约18美元,而传统强化学习方法需要数千个训练样本,成本超过10000美元 [28] - 随着每一步学习,模型表现持续提升,平均工具调用次数下降,表明模型学会了更高效地使用工具 [30][31] 网页搜索任务性能 - 在WebWalkerQA基准测试中,应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型的Pass@1得分从63.2%提升至67.8% [34][35] - 完整的Training-Free GRPO方法取得了最佳表现,Pass@1为68.6%,Pass@3为78.4%,凸显了结合真实答案指导、语义优势和经验优化的重要性 [38][39] - 该方法的有效性依赖于基础模型的能力,在QwQ-32B模型上应用时性能提升不明显,甚至低于基线 [40] 成本效益分析 - 与传统微调32B模型相比,该方法在671B大型模型上所需训练数据更少、成本更低 [5] - 对于不同规模的模型,该方法都展现出高性价比,如在Qwen3-32B模型上应用成本仅约4美元,在Qwen2.5-72B-Instruct模型上成本约3美元 [27] - 该方法以极低的成本实现了显著的性能提升,被网友评价为“太划算了吧” [7]