Slime
搜索文档
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 20:52
强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面, 也体现在其系统的整体要求上。 本文整理自阿里巴巴算法专家曹宇今年 6 月 在 AICon 2025 北京站的分享 《强化学习 AI 系统的设计实现及未来发展》。其分享从传统的 RLHF 系统开 始,结合算法实践展示出 RL 系统的现状及发展脉络。通过具体的实践,与从业者共同探讨未来超大规模 RL 的发展方向,分享内容既包括理论基础,也 包含业界实践,最后开源生态及社区共建也会涉及。 以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。 今天我非常高兴能够与大家分享一些关于强化学习(Reinforcement Learning,简称 RL)在大语言模型系统设计中的应用,以及对未来发展的几点初步建 议。 从下图左侧看似简单抽象的算法理论来看,其执行逻辑实际上比我们想象的要复杂得多。中间部分是我参与的一个框架——Open RLxF 的执行逻辑图。与 左侧的算法理论相比,它明显更为复杂。因为在实际执行过程中,我们有多个算法组件,例如绿色部分是训练态的模型,蓝色部分是推理态的模 ...