Workflow
从论文中积累复现 R1 的 insight
理想TOP2·2025-04-30 21:04

以下文章来源于刘聪NLP ,作者周星星 ,恢复了 PPO 的原始目标,采用蒙特卡罗回报估计优势,并设置无偏基线,从而 有效避免了优化偏差,在提升令牌效率的同时,还能维持模型的推理性能。 4. 推理能力的提升是渐进的,没有明显的"顿悟时刻" 6. 避免"长度作弊"需自然扩展响应。 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 上篇 R1复现小记:在业务场景的两类NLP任务上有显著效果 提到在业务场景中复现 DeepSeek-R1,也简单 记录下最近阅读一些论文过程中积累的 insight。 [1]Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [2]An Empirical Study on Eliciting and Improving R1-like Reasoning Models [3]Understanding R1-Zero-Like Training: ...