Slime - 财报，业绩电话会，研报，新闻

Slime

搜索文档

AI前线· 2025-11-12 12:53

核心观点 - 强化学习是提升大语言模型智能程度的核心且复杂的训练环节，其复杂度体现在算法和系统整体要求上 [2] - 行业正从单轮、单信号的人类反馈强化学习向多轮复杂交互条件下的端到端强化学习进化 [27] - 超大规模强化学习系统面临推理、评估和训练三方面的协同挑战，需要算法与系统的协同设计 [27][58] 理论基础与工程化 - 强化学习算法理论要求策略与环境交互，使大语言模型高效探索世界并获得更好奖励以适应环境目标 [4] - 策略层面的核心是学习算法，指导策略更新梯度；环境层面的核心是奖励函数，用于对问题给予正确奖励 [4] - 算法理论看似简洁，但实际工程化执行逻辑极为复杂，涉及多个算法组件的相互作用 [5] - 工程化实践的现状是框架运行图高度复杂，远超理论抽象 [5] 核心算法演进 - 人类反馈强化学习是早期关键实践，通过人工评价模型响应并训练奖励模型拟合人类判断 [10] - 该方法优势是模型结构简单、训练稳定，但存在奖励劫持风险，且人类标注无法覆盖所有行为方面 [11] - 行业实践转向人类反馈与机器反馈结合，例如DeepSeek的生成式奖励模型会在输出分数前给出文字解释 [11] - 传统PPO算法全链路复杂，涉及推理、评估和训练三个环节，需同时训练Actor和Critic模型 [13][14][15] - 算法演进出现两条路径：一是基于偏好对的DPO类算法，可跳过奖励模型训练但假设强且易过拟合 [17]；二是DeepSeek R1应用的GRPO算法，通过重复推理估计优势，避免Critic函数训练稳定性问题 [19] - GRPO在编程等纯推理场景优势明显，但未来在多轮长上下文交互中，价值函数可能发挥更大作用 [19] 超大规模系统挑战 - 强化学习进展迅速，应用范围从模型安全对齐扩展到追求推理能力上限 [24] - 超大规模系统需整合推理、评估和训练，每个维度都面临升级挑战 [27] - 推理引擎需支持权重动态更新和高效传递，例如670亿参数模型的权重需广播到整个集群 [28][35] - 需要灵活的打断机制，在权重更新时停止推理以避免产生无效数据，并优化路由机制利用KV Cache等资源 [35] - 评估环节目前主要基于CPU，但未来复杂场景需GPU参与，评估系统算力占比将大幅提升 [41][58] - 训练框架需在兼容性和效率间权衡，行业多在Megatron、DeepSpeed/FSDP等方案中选择 [44] 开源生态现状 - 中国厂商推出多个高质量开源框架，包括OpenRLHF、VeRL、AReaL、ROLL、Slime等 [50][53][56] - 各框架在调度引擎、训练引擎、推理引擎选择上各有特点，但核心都是对超大规模系统设计的思考 [55][56] - 开源系统未来需在推理效率、评估系统算力、训练性能与生态平衡方面进一步共建 [58]

阿里巴巴(US:BABA)

强化学习

大语言模型

Artificial Intelligence

Artificial Intelligence

36氪· 2025-11-04 20:52

强化学习在大语言模型中的核心作用 - 强化学习是推动大语言模型提升智能程度的核心且复杂的训练环节，其复杂度体现在算法和系统整体要求上 [1] - 强化学习系统算法的工程化成熟度使大语言模型与强化学习得以很好融合，Agent既是强化学习算法的载体，也是大语言模型作为行动模型的载体 [3] - 从简单的聊天机器人向Agent进化的重要分水岭是模型能够自主选择合适行为并根据这些行为采取最优策略 [6] 强化学习算法演进与实践 - 人类反馈强化学习是早期引爆大模型热潮的关键技术，Instruct GPT利用人类反馈强化学习信号在GPT-3基础上研发出了能很好遵循指令并具备理解能力的学习系统 [8] - 业界实践采用人类反馈与机器反馈相结合的方式，DeepSeek的生成式奖励模型在输出分数前会以文字形式输出对分数的解释，提升模型能力 [9] - 算法探索走向两条道路：一是基于偏好对的DPO算法避免奖励模型训练和Critic函数使用，二是在编程等纯推理类场景中应用的GRPO算法 [16][20] - GRPO算法在进行Critic估计时没有采用模型估计方法，而是将推理过程重复多次，通过与均值和标准差的关系来估计优势 [20] 超大规模强化学习系统挑战 - 强化学习系统包含推理、评估和训练三部分，不是单纯的训练系统，在迈向超大规模时每个维度都面临升级挑战 [29] - 推理引擎需要支持权重的动态更新和高效传递，例如670亿参数模型的权重需要广播到整个集群是巨大挑战 [36] - 推理过程必须可以被打断，当模型更新时需要中断推理，暂停当前进程，等待权重更新后再重新计算KV Cache [43] - 训练部分需要在框架兼容性和效率之间权衡，选择Megatron等高效框架会牺牲与Hugging Face生态系统的兼容性 [47] 行业开源生态发展 - 中国厂商在强化学习框架领域非常勤奋，推出了许多高质量开源框架包括Open RLHF、VeRL、AReaL、Roll、Slime等 [53][55][57] - 这些框架都是从RLHF时代逐渐演进而来，主要区别在于采用的调度引擎、训练引擎和推理设计 [57] - 未来开源系统需要在推理效率、评估系统算力提升以及训练性能与生态平衡方面进行共建 [58] 强化学习应用趋势 - 强化学习应用范围从简单对齐人类指标转变为追求模型智能上限即推理能力，今年许多大模型在高考场景中取得接近985大学生的成绩 [25] - 下一阶段将探索端到端强化学习在业务场景中的应用，希望模型能深入研究某一领域，这是开放型长期决策问题 [28] - 评估环节的价值和耗时占比正变得越来越高，需要更全面综合的方法来全方位评估模型能力 [12]

强化学习

大语言模型

Artificial Intelligence

Artificial Intelligence

Slime

Open RLxF

AReaL