Workflow
RL 是新的 Fine-Tuning
海外独角兽·2025-10-24 20:06

编译:Ashley Sun、Haozhen 今年 9 月,Thinking Machines 发布了一篇长文 LoRA Without Regret ,通过一系列 SFT 和 RL 实验,得出 了一个结论:在特定条件下,LoRA 可以在计算资源更少的情况下,达到与全参数微调相当的性能。这 篇文章让 LoRA 这个模型微调技术又重新被重视,LoRA 不再只是全参数微调的平价替代品。 但实际上,自从 OpenAI 在 o1 模型中提出 RL 叙事,以及 DeepSeek 发布的 R1 模型解开了 RL 谜题以 来,整个 AI 行业的注意力全都集中在了 RL 上,在 OpenAI 科学家姚顺雨 看来,RL 的泛化性标志着 AI 进入下半场。 为了更深入地了解从模型微调转向 RL 的趋势,我们节选并编译了 OpenPipe 创始人 Kyle Corbitt 在 Latent Space 的最新访谈。OpenPipe 最初以 LoRA 微调工具起家,如今已经搭建起一整套 RL 产品线, 包括通用奖励函数 Ruler。2025 年 9 月 3 日,OpenPipe 被 CoreWeave 收购。 • 使用 LoRA 后, ...