RL 是新的 Fine-Tuning

LoRA技术的重新评估与优势 - LoRA技术近期被重新重视，研究表明在特定条件下能以更少计算资源达到与全参数微调相当性能[2] - 使用LoRA后可在同一GPU部署上并行处理任意数量适配器，实现按Token定价而非按GPU时长计费，提升部署灵活性和成本效率[3][10] - 各大AI实验室内部进行后训练时普遍使用LoRA技术，尤其在快速验证想法的实验阶段被证明有效[14] 从模型微调向强化学习的行业转型 - 只有在必须使用小参数模型的情况下微调才有必要，约90%场景中微调的ROI不高[4][18] - OpenAI o1模型发布是行业转向RL的关键转折点，RL在前沿通用模型领域投入回报明显，尤其在智能体相关任务中效果突出[19] - 公司于2025年1月决定全面转向RL，虽然初始成功概率估计仅25%，但属于高风险高回报机会，目前胜算已提升至55-60%[20] 强化学习落地的核心挑战与环境搭建 - RL落地最大障碍是训练环境搭建，这是目前唯一尚未自动化、每个任务都需要大量人工工作的环节[4][24] - 高质量模拟环境构建难度极高，需要精确复刻生产环境行为包括故障模式和程序缺陷，大多数企业缺乏此类基础设施[24][25] - World Model可能是解决环境问题的关键，它能模拟外部世界反馈并记录操作引起的状态变化，有望成为环境搭建的解决方案[51][52] 奖励函数与评估机制的创新 - 公司发布通用奖励函数Ruler，基于GRPO核心理念让语言模型对一组结果进行相对评判，该方法与GRPO配合效果远超预期[46][47] - 实验显示使用140亿参数模型训练、320亿参数模型评估的智能体在目标任务上达到最先进水平，表明不需要特别强大的评估模型[47] - 专用评判模型在常见任务中难以超越前沿AI实验室的通用模型，除非针对特殊任务拥有足够多标注数据[50] 行业生态与商业模式演变 - 开源模型目前仅生成5%的Token且占比持续下降，但企业对开源模型需求巨大，若性能达标大多数企业更愿意选择开源模型[40][41] - 闭源模型通过Token补贴维持竞争力，例如Coding领域月费200美元可消费数千美元服务，但这种补贴模式长期不可持续[41][42] - 行业大量AI推理需求仍停留在概念验证阶段，估计潜在需求为已落地规模的十倍，约90%市场因可靠性问题尚未激活[55] 智能体部署与持续学习 - 未来所有大规模部署智能体的企业都将在某个阶段引入RL，要么在部署前训练，要么在部署后持续优化[4][21] - 生产环境部署智能体面临可靠性挑战，故障模式相似且难以通过提示词更新扩展解决，需要RL和持续学习机制[54][55] - Online RL中的奖励黑客问题可通过在奖励提示中补充约束轻松解决，模型一旦找到漏洞会反复执行同样行为易于发现[56][57]