Slime
搜索文档
来这场沙龙,一览SGLang X 超长上下文扩展、RL后训练框架、扩散语言模型等前沿技术实践
机器之心· 2026-01-29 16:12
行业技术演进趋势 - 人工智能正从“聊天”范式加速向“能办事”的智能体时代演进[2] - 当前是LLM系统优化与技术落地的关键节点[2] 行业社区活动 - 由SGLang社区、机器之心、张江孵化器联合举办线下Meetup,旨在促进开发者深度联结与经验共创[2] - 活动于2月6日下午在上海浦东·纳贤路800号1层举办[2][4] - 活动围绕SGLang技术路线、超长上下文扩展、RL后训练框架、扩散语言模型探索等议题展开深度解析[2] 活动日程安排 - 13:30-14:00 签到[5] - 14:00-14:30 主题分享一:SGLang roadmap,由SGLang核心开发成员张柏舟主讲[5] - 14:30-15:00 主题分享二:Omni-infer对SGL的性能优化实践,由Omni-infer核心开发者郑锦焕主讲[5] - 15:00-15:30 主题分享三:slime: 面向RL Scaling的LLM后训练框架,由清华大学博士生、Slime核心开发者谢承兴主讲[5] - 15:30-16:00 主题分享四:SGLang CPP: 面向超长上下文的Scaling out黑科技,由SGLang核心开发者、Mooncake核心开发者蔡尚铭主讲[5] 参与公司与机构 - 活动联合方包括SGLang社区、机器之心、张江孵化器[2] - 参与分享的嘉宾来自华为、清华大学、阿里巴巴、蚂蚁集团等机构[8][9][10][11] 嘉宾背景与研究方向 - 张柏舟(SGLang核心开发成员):专注于开源大语言模型在不同Cuda硬件(Hopper, Blackwell)上的支持和优化[8] - 郑锦焕(华为技术专家,Omni-infer核心开发者):长期深耕高性能系统与工程落地,当前主要从事推理系统的方案设计与性能优化,方向包括负载均衡、算子融合、KV Cache等[9] - 谢承兴(清华大学博士生,Slime核心开发者):研究方向聚焦于大语言模型强化学习、强化学习系统基础设施,以及提升大语言模型在真实世界复杂任务中的推理与决策能力[10] - 蔡尚铭(阿里云飞天实验室研究员,SGLang与Mooncake核心开发者):主要研究方向包括高性能推理系统、大语言模型、分布式机器学习训练[10] - 李泽寰(蚂蚁集团系统工程师,SGLang Contributor):专注于AI Infra领域,从系统、引擎与模型层的综合视角进行优化,目前蚂蚁集团正基于SGLang框架构建对外服务的低延迟推理能力[11]
强化学习 AI 系统的设计实现及未来发展
AI前线· 2025-11-12 12:53
核心观点 - 强化学习是提升大语言模型智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [2] - 行业正从单轮、单信号的人类反馈强化学习向多轮复杂交互条件下的端到端强化学习进化 [27] - 超大规模强化学习系统面临推理、评估和训练三方面的协同挑战,需要算法与系统的协同设计 [27][58] 理论基础与工程化 - 强化学习算法理论要求策略与环境交互,使大语言模型高效探索世界并获得更好奖励以适应环境目标 [4] - 策略层面的核心是学习算法,指导策略更新梯度;环境层面的核心是奖励函数,用于对问题给予正确奖励 [4] - 算法理论看似简洁,但实际工程化执行逻辑极为复杂,涉及多个算法组件的相互作用 [5] - 工程化实践的现状是框架运行图高度复杂,远超理论抽象 [5] 核心算法演进 - 人类反馈强化学习是早期关键实践,通过人工评价模型响应并训练奖励模型拟合人类判断 [10] - 该方法优势是模型结构简单、训练稳定,但存在奖励劫持风险,且人类标注无法覆盖所有行为方面 [11] - 行业实践转向人类反馈与机器反馈结合,例如DeepSeek的生成式奖励模型会在输出分数前给出文字解释 [11] - 传统PPO算法全链路复杂,涉及推理、评估和训练三个环节,需同时训练Actor和Critic模型 [13][14][15] - 算法演进出现两条路径:一是基于偏好对的DPO类算法,可跳过奖励模型训练但假设强且易过拟合 [17];二是DeepSeek R1应用的GRPO算法,通过重复推理估计优势,避免Critic函数训练稳定性问题 [19] - GRPO在编程等纯推理场景优势明显,但未来在多轮长上下文交互中,价值函数可能发挥更大作用 [19] 超大规模系统挑战 - 强化学习进展迅速,应用范围从模型安全对齐扩展到追求推理能力上限 [24] - 超大规模系统需整合推理、评估和训练,每个维度都面临升级挑战 [27] - 推理引擎需支持权重动态更新和高效传递,例如670亿参数模型的权重需广播到整个集群 [28][35] - 需要灵活的打断机制,在权重更新时停止推理以避免产生无效数据,并优化路由机制利用KV Cache等资源 [35] - 评估环节目前主要基于CPU,但未来复杂场景需GPU参与,评估系统算力占比将大幅提升 [41][58] - 训练框架需在兼容性和效率间权衡,行业多在Megatron、DeepSpeed/FSDP等方案中选择 [44] 开源生态现状 - 中国厂商推出多个高质量开源框架,包括OpenRLHF、VeRL、AReaL、ROLL、Slime等 [50][53][56] - 各框架在调度引擎、训练引擎、推理引擎选择上各有特点,但核心都是对超大规模系统设计的思考 [55][56] - 开源系统未来需在推理效率、评估系统算力、训练性能与生态平衡方面进一步共建 [58]
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 20:52
强化学习在大语言模型中的核心作用 - 强化学习是推动大语言模型提升智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [1] - 强化学习系统算法的工程化成熟度使大语言模型与强化学习得以很好融合,Agent既是强化学习算法的载体,也是大语言模型作为行动模型的载体 [3] - 从简单的聊天机器人向Agent进化的重要分水岭是模型能够自主选择合适行为并根据这些行为采取最优策略 [6] 强化学习算法演进与实践 - 人类反馈强化学习是早期引爆大模型热潮的关键技术,Instruct GPT利用人类反馈强化学习信号在GPT-3基础上研发出了能很好遵循指令并具备理解能力的学习系统 [8] - 业界实践采用人类反馈与机器反馈相结合的方式,DeepSeek的生成式奖励模型在输出分数前会以文字形式输出对分数的解释,提升模型能力 [9] - 算法探索走向两条道路:一是基于偏好对的DPO算法避免奖励模型训练和Critic函数使用,二是在编程等纯推理类场景中应用的GRPO算法 [16][20] - GRPO算法在进行Critic估计时没有采用模型估计方法,而是将推理过程重复多次,通过与均值和标准差的关系来估计优势 [20] 超大规模强化学习系统挑战 - 强化学习系统包含推理、评估和训练三部分,不是单纯的训练系统,在迈向超大规模时每个维度都面临升级挑战 [29] - 推理引擎需要支持权重的动态更新和高效传递,例如670亿参数模型的权重需要广播到整个集群是巨大挑战 [36] - 推理过程必须可以被打断,当模型更新时需要中断推理,暂停当前进程,等待权重更新后再重新计算KV Cache [43] - 训练部分需要在框架兼容性和效率之间权衡,选择Megatron等高效框架会牺牲与Hugging Face生态系统的兼容性 [47] 行业开源生态发展 - 中国厂商在强化学习框架领域非常勤奋,推出了许多高质量开源框架包括Open RLHF、VeRL、AReaL、Roll、Slime等 [53][55][57] - 这些框架都是从RLHF时代逐渐演进而来,主要区别在于采用的调度引擎、训练引擎和推理设计 [57] - 未来开源系统需要在推理效率、评估系统算力提升以及训练性能与生态平衡方面进行共建 [58] 强化学习应用趋势 - 强化学习应用范围从简单对齐人类指标转变为追求模型智能上限即推理能力,今年许多大模型在高考场景中取得接近985大学生的成绩 [25] - 下一阶段将探索端到端强化学习在业务场景中的应用,希望模型能深入研究某一领域,这是开放型长期决策问题 [28] - 评估环节的价值和耗时占比正变得越来越高,需要更全面综合的方法来全方位评估模型能力 [12]