SGLang
搜索文档
LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力
机器之心· 2026-01-30 12:25
技术演进与范式创新 - 大模型能力正通过不同范式解锁,包括无需微调的上下文学习、提升复杂问题求解能力的思维链以及可调用工具和多轮交互的智能体框架 [2] - LLM-in-Sandbox 是技术演进的下一个关键范式,其核心思想是让大模型在一个代码沙盒(虚拟电脑)中自由探索以完成任务 [3] - 该范式不仅对代码任务有效,更能显著提升模型在数学、物理、化学、生物医学、长文本理解、指令遵循等多个非代码领域的表现,且无需额外训练 [3] 核心思想与设计原理 - LLM-in-Sandbox 的核心思想是“给大模型一台电脑”,利用电脑的通用性来解锁模型的通用智能潜力 [5][7] - 电脑的通用性源于三大元能力:通过网络访问外部资源和知识、持久化地读写和组织文件、以及执行计算 [6] - 该范式采用轻量级、通用化的沙盒设计,与需要为每个任务配置特定环境的现有方案不同,其环境是通用的,依赖项在运行时安装,存储使用单一共享镜像 [10] - 这种设计带来了泛化性和可扩展性优势,例如,扩展到数千个任务时,传统方法可能需要高达 6TB 的存储,而 LLM-in-Sandbox 仅需约 1.1GB [11] - 沙盒环境基于 Docker 的 Ubuntu,仅预装 Python 和基础科学计算库,将领域特定工具的获取交给模型自主完成 [13] - 工作流采用多轮交互的探索式方法,模型在每一轮生成工具调用并接收反馈,直到任务完成或达到轮次限制 [15] 性能表现与实验结果 - 在六个非代码领域的实验表明,强大的语言模型在 LLM-in-Sandbox 模式下获得了一致性提升,且完全无需额外训练 [17][20] - 具体提升示例如下:Claude-Sonnet-4.5-Think 在数学任务上得分从 85.6 提升至 92.2(+6.6),在物理任务上从 56.9 提升至 63.3(+6.4)[20] - GPT-5 在数学任务上得分从 87.8 提升至 97.9(+10.1)[20] - DeepSeek-V3.2-Thinking 在指令遵循任务上得分从 60.3 提升至 74.7(+14.4)[20] - Qwen3-Coder-30B-A3B 在数学任务上得分从 17.9 提升至 42.1(+24.2),在物理任务上从 36.8 提升至 47.9(+11.1)[20] - 模型展现了涌现的工具使用能力,例如在化学任务中自主安装 Java 环境和 OPSIN 库以转换分子结构 [21] - 在长文本理解任务中,模型使用 grep、sed 等工具处理超过 100K tokens 的文档,而非将其全部放入 prompt [22] - 在指令遵循任务中,模型编写 Python 脚本来统计字符和检测词汇重叠,以迭代优化生成结果 [23] 强化学习增强与泛化能力 - 对于能力较弱的模型,研究者提出了 LLM-in-Sandbox RL,使用非智能体数据在沙盒环境中训练模型以增强其泛化能力 [27][28] - 训练采用基于上下文的任务,迫使模型主动探索沙盒以学会利用其能力 [29] - 实验表明,LLM-in-Sandbox RL 展现出强大的跨领域、跨推理模式和跨模型能力的泛化能力 [31] - 例如,在 Qwen3-4B-Instruct 模型上,经过 RL 训练后,其在数学任务的沙盒模式得分从基线的 35.4 提升至 50.2(+14.8),在物理任务上从 36.3 提升至 47.7(+11.4)[30] - 该方法不仅提升了沙盒模式表现,也同时提升了纯 LLM 模式的表现,说明学到的能力可以迁移 [31] 部署效率与成本优势 - 在长文本场景下,LLM-in-Sandbox 通过将文档存储在沙盒中而非放入 prompt,可显著降低 token 消耗,最多可降低 8 倍(例如从 100K tokens 降至 13K tokens)[32] - 通过将计算卸载到沙盒,工作负载从慢速的自回归生成转移到快速的并行预填充,保持了有竞争力的吞吐量 [34] - 效率数据显示,在平均情况下,MiniMax 模型可实现 2.2 倍的加速(QPM Ratio)[33][34] - 其他模型的 QPM 比率分别为:DeepSeek 0.6倍,Kimi 1.0倍,Qwen 1.1倍 [33] 超越文本的通用能力与未来展望 - LLM-in-Sandbox 突破了纯文本输入输出的范式,解锁了纯 LLM 无法完成的能力 [35] - 新能力包括:通过调用专业软件处理生成图像、视频、音频和交互式应用等跨模态能力;直接生成可用的文件(如 .png, .mp4);以及自主发现、安装和学习使用任意软件库 [36] - 随着模型能力增强和沙盒环境完善,LLM-in-Sandbox 可能演化为真正的通用数字创作系统 [38] - 研究者认为,鉴于其显著的性能提升和几乎可忽略的部署成本,LLM-in-Sandbox 应当成为大模型的默认部署范式,取代纯 LLM 推理 [3][40]
来这场沙龙,一览SGLang X 超长上下文扩展、RL后训练框架、扩散语言模型等前沿技术实践
机器之心· 2026-01-29 16:12
行业技术演进趋势 - 人工智能正从“聊天”范式加速向“能办事”的智能体时代演进[2] - 当前是LLM系统优化与技术落地的关键节点[2] 行业社区活动 - 由SGLang社区、机器之心、张江孵化器联合举办线下Meetup,旨在促进开发者深度联结与经验共创[2] - 活动于2月6日下午在上海浦东·纳贤路800号1层举办[2][4] - 活动围绕SGLang技术路线、超长上下文扩展、RL后训练框架、扩散语言模型探索等议题展开深度解析[2] 活动日程安排 - 13:30-14:00 签到[5] - 14:00-14:30 主题分享一:SGLang roadmap,由SGLang核心开发成员张柏舟主讲[5] - 14:30-15:00 主题分享二:Omni-infer对SGL的性能优化实践,由Omni-infer核心开发者郑锦焕主讲[5] - 15:00-15:30 主题分享三:slime: 面向RL Scaling的LLM后训练框架,由清华大学博士生、Slime核心开发者谢承兴主讲[5] - 15:30-16:00 主题分享四:SGLang CPP: 面向超长上下文的Scaling out黑科技,由SGLang核心开发者、Mooncake核心开发者蔡尚铭主讲[5] 参与公司与机构 - 活动联合方包括SGLang社区、机器之心、张江孵化器[2] - 参与分享的嘉宾来自华为、清华大学、阿里巴巴、蚂蚁集团等机构[8][9][10][11] 嘉宾背景与研究方向 - 张柏舟(SGLang核心开发成员):专注于开源大语言模型在不同Cuda硬件(Hopper, Blackwell)上的支持和优化[8] - 郑锦焕(华为技术专家,Omni-infer核心开发者):长期深耕高性能系统与工程落地,当前主要从事推理系统的方案设计与性能优化,方向包括负载均衡、算子融合、KV Cache等[9] - 谢承兴(清华大学博士生,Slime核心开发者):研究方向聚焦于大语言模型强化学习、强化学习系统基础设施,以及提升大语言模型在真实世界复杂任务中的推理与决策能力[10] - 蔡尚铭(阿里云飞天实验室研究员,SGLang与Mooncake核心开发者):主要研究方向包括高性能推理系统、大语言模型、分布式机器学习训练[10] - 李泽寰(蚂蚁集团系统工程师,SGLang Contributor):专注于AI Infra领域,从系统、引擎与模型层的综合视角进行优化,目前蚂蚁集团正基于SGLang框架构建对外服务的低延迟推理能力[11]
给AI打个分,结果搞出17亿估值独角兽?
36氪· 2026-01-07 19:04
融资与估值 - 公司LMArena完成1.5亿美元A轮融资,由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等机构跟投 [3] - 本轮融资后,公司估值升至17亿美元 [1] - 此前在2025年5月,公司曾获得1亿美元种子轮融资,当时估值为6亿美元 [7] 公司背景与发展历程 - 公司前身为Chatbot Arena,最初由来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校成员组成的开源组织LMSYS创建 [4] - 早期创建Chatbot Arena的目的是为了更有效地评估其自身开发的开源模型小羊驼Vicuna [4][6] - 该平台通过用户众包投票进行模型评估的模式获得成功,后从开源项目独立成为商业公司lmarena.ai [7] - 公司核心团队为90后,且华人含量高 [3] 核心技术产品 - 公司主要项目为全球大模型动态竞技场LMArena [8] - 公司开发的开源推理引擎SGLang在业内首次实现了在96块H100上跑出几乎媲美DeepSeek官方报告吞吐量的开源方案,并已被xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用 [4] - 平台核心评估机制为匿名对战、基于Bradley–Terry模型的Elo式评分以及人机协同框架 [9][10] - 用户输入问题后,系统随机匹配两个模型进行匿名回答,用户根据回答质量投票,投票后揭晓模型身份 [10] - 平台通过算法平衡模型的出场次数、任务类型和样本分布,以确保评估公平客观 [10] 市场地位与运营数据 - LMArena已成为模型测评首选的排行榜,各家新模型发布时常在该平台测试 [7][10] - 平台累计获得涵盖文本、视觉、网络开发等跨模态的5000万张投票 [12] - 平台已完成400余种开放及专有模型的评估 [12] - 平台产出了覆盖文本、多模态、专家及职业等多个类别的14.5万个开源战斗数据点 [12] - 根据实时排行榜,当前Gemini 3 Pro以1490分位居榜首,获得21,938张投票 [10][11] 资金用途与未来计划 - 新筹集的资金将用于平台运营,确保稳定高效运行并提升用户体验 [12] - 资金也将用于扩大技术团队,为平台发展注入更多专业技术力量 [12]
给AI打个分,结果搞出17亿估值独角兽???
量子位· 2026-01-07 17:11
融资与估值 - 大模型评估平台LMArena完成1.5亿美元A轮融资[1] - 公司估值在此轮融资后升至17亿美元[1] - 此轮融资由Felicis和加州大学投资公司领投,Andreessen Horowitz、The House Fund等机构跟投[3] 公司起源与背景 - 公司前身是Chatbot Arena,最初由来自UC伯克利、斯坦福等顶尖高校的成员组成的开源组织LMSYS创建[5][6] - 团队曾开发开源推理引擎SGLang,在96块H100上实现了媲美DeepSeek官方报告吞吐量的开源方案[7] - SGLang已被xAI、英伟达、AMD、谷歌云、阿里云、美团、腾讯云等企业和机构采用[8] - 团队核心为90后华人,占比达99%[4] 核心业务与产品 - 公司核心业务是提供第三方大模型评估平台,主要产品为LMArena(原Chatbot Arena)[9][16][18] - 平台采用匿名对战、Elo式评分和人机协同框架进行评估[20] - 用户输入问题后,系统随机匹配两个模型进行匿名回答,用户投票选择更优答案后揭晓模型身份[21][22] - 基于Bradley–Terry模型的Elo评分机制,模型根据对战胜负增减分数,形成实时排行榜[22] - 平台通过算法平衡模型的出场次数、任务类型和样本分布,以确保评估公平[22] 市场地位与影响力 - 平台已成为全球大模型“出道”时的必测榜单,是模型测评首选的排行榜[14][23] - 截至报告时,平台累计获得5000万张跨模态投票,完成了400余种开放及专有模型的评估,并产出了14.5万个开源战斗数据点[25] - 在平台实时排行榜中,Gemini 3 Pro以1490分位居榜首[23][24] 发展历程与资金用途 - 平台最初因团队为评估自研的Vicuna模型而创建,后因影响力扩大而独立成为商业公司[10][11][15][16] - 2025年5月,公司获得1亿美元种子轮融资,估值达6亿美元[17] - 新一轮融资将用于平台运营以保障稳定高效运行,并扩大技术团队[25]
SGLang原生支持昇腾,新模型一键拉起无需改代码
量子位· 2025-12-21 22:13
文章核心观点 - 随着智能体(Agent)在应用侧加速落地,大模型推理系统在真实负载下面临高并发、长上下文、多轮推理等严峻的工程挑战,行业焦点正转向如何构建能够承受这些负载的稳健推理系统 [1][4] - SGLang AI金融π对活动集中展示了从缓存内存体系、权重更新、强化学习效率到算力模型生态协同的清晰推理工程演进路径,昇腾算力平台已深度融入此开源生态,成为主流推理工作流的默认后端之一 [5][25][47] - 昇腾通过与SGLang开源社区的深度共建,实现了对DeepSeek、Qwen、GLM、Kimi等主流模型的快速适配与性能优化,其核心理念是尽量不动模型层,仅在底层完成硬件亲和与性能提升,相关能力已进入真实生产环境验证 [24][41][46] 面向Agent的推理系统工程挑战与解法 - **核心挑战**:Agent应用对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求,金融Agent场景对低延迟、响应稳定性、一致性及成本控制的要求更为严苛 [8][9] - **HiCache体系**:针对高并发、长上下文下KV cache重复计算和显存需求大的问题,通过将KV cache扩展到CPU和远端存储,由Cache Controller自动管理,并结合流水线化异步预取,显著降低显存占用,提升推理稳定性与吞吐 [11] - **混合模型支持**:针对Qwen3-Next、Kimi Linear等混合模型,通过Mamba Radix Tree实现前缀统一管理,并借助Elastic Memory Pool弹性调度KV Cache与Mamba State,提供高效推理和显存优化能力 [13] - **强化学习权重更新**:针对强化学习中策略权重频繁更新导致的GPU空转和冷启动耗时问题,Mooncake基于Transfer Engine,采用异步预读和pipeline并行设计,显著压缩权重加载和模型启动时间 [14][15] - 实测效果:Kimi K2万亿参数模型的权重更新准备时间被压缩至20秒以内,63B模型的冷启动时间从85秒降至9秒 [17] - **强化学习长尾请求**:针对强化学习rollout过程异步、多阶段、长度不可预测导致的长尾请求问题,通过Server化+全异步执行、oversample与partial rollout机制控制长尾请求,大幅缓解训练效率瓶颈 [18][19] - **MoE模型优化**:针对DeepSeek、GLM-4.5等MoE模型的fuse MoE、内存调度和负载均衡问题,持续重构执行路径与内存管理机制,Slime强化学习系统则针对大规模GRPO与多阶段RL训练定制,实现训练与推理的深度协同 [20][21] 昇腾平台与SGLang的协同进展 - **生态角色转变**:昇腾已作为主流推理工作流中的后端之一,被自然纳入系统设计与工程实现,HiCache、Mooncake等系统能力均能在昇腾平台上直接运行并进入实际推理流程 [24][25] - **DeepSeek V3.2性能**:实现了对DeepSeek V3.2的Day 0支持,在PD分离、64K输入、3K输出场景下,推理吞吐达15 TPS/卡,TTFT约4秒,PD传输(HCCS)< 8ms,TPOT ≈ 20毫秒 [29] - **系统层优化**:通过负载均衡重新分配计算任务、融合算子减少内存访问与Kernel开销、多流并行提升计算资源利用率、在Cube计算路径中引入权重预取机制实现数据搬运与计算重叠,最终实现高吞吐、低延迟、资源高效利用 [30][31][32][33] - **模型适配与优化**:针对DeepSeek、Qwen系列等开源模型进行适配与性能提升,支持稠密、稀疏、多模态架构,并支持Flux、Qwen-Image等多模态生成模型 [34] - 对Qwen的优化包括通用能力增强(图模式、W8A8量化、EAGLE3)以及昇腾亲和性专项优化,如利用多流并行,在大EP场景中通过Dispatch/Combine流程融合处理GMM计算 [36] - **广泛的模型覆盖**:除DeepSeek、Qwen外,在昇腾硬件上也已覆盖Kimi、LongChat等模型,新模型可在不改代码的前提下直接运行,所有代码均已合入SGLang主社区仓,开发者无需额外安装插件 [39][40] - **深度共建架构**:昇腾相关优化已下沉到SGL-kernel-NPU算子库集中维护,Engine层支持EPLB、Graph Runner与MTP以覆盖多硬件后端,缓存与通信依托HiCache,底层SGL-kernel-NPU承载加速算子、量化算子及传输接口,实现开源能力与昇腾性能的双向赋能 [44][45] 昇腾的开源战略与未来方向 - **全面拥抱开源**:昇腾于今年七月份正式启动与SGLang的适配工作,目标明确为全面拥抱开源、加速生态建设,在5个多月内补齐了多类主流模型的推理支持,覆盖强化学习训练、多模态等关键场景,并将SGLang on Ascend的整体性能推至“可打”水平 [46] - **进入生产验证**:昇腾已基于SGLang在真实业务场景中对DeepSeek V3.2完成了灰度测试,意味着相关能力已进入真实生产环境的验证周期 [46] - **未来演进方向**:明确围绕“推理系统”展开系统性工程投入,一方面通过Zero Buffer、昇腾亲和加速库等机制持续压榨单机与多机推理吞吐;另一方面在基础软件层构建昇腾版Triton生态,与SGLang、vllm等开源引擎保持接口与演进节奏对齐 [47] - **定位根本转变**:昇腾不再只是“能否支持某个模型”的硬件选项,而是开始以推理系统为核心,被纳入开源工程的主线讨论与默认方案评估之中,行业问题从“能不能跑”转向“系统能不能长期、规模化、稳定地跑” [47]
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
AI前线· 2025-12-12 08:40
文章核心观点 - 大语言模型推理服务正成为企业级应用核心基础设施,其生产级落地的关键在于平衡性能、稳定性与成本 [2] - 为应对模型规模扩张带来的显存压力,LLM推理架构正从单体模式向分布式演进,主流路径包括Prefill-Decode分离、Attention-FFN分离以及KVCache外置 [2] - 在长上下文、高并发、RAG、AI Agent等场景中,KVCache外置已成为保障低延迟、高吞吐与成本效益的必选项 [2] - 通过结合RoleBasedGroup(RBG)编排引擎与Mooncake分布式KVCache存储引擎,可以系统化构建生产级稳定高性能的PD分离推理服务,解决分布式部署复杂性与有状态缓存服务平滑升级等行业难题 [4][5][43] LLM推理架构演进与挑战 - 演进根本动因是模型规模扩张导致的显存压力:在长上下文或高并发场景下,KVCache显存占用常超过70% [2] - 将KVCache解耦外置能突破存储容量瓶颈,并实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力 [2] - 当前生产环境面临五大根本性挑战:快速架构迭代、性能敏感、组件强依赖、运维效率低、资源潮汐显著与利用率不足 [12][15] - 线上流量峰谷差常超过10倍,但静态配置的推理服务GPU平均利用率长期低于30% [15] Mooncake分布式KVCache存储引擎 - Mooncake是业界主流的分布式KVCache存储引擎,为SGLang等推理框架提供高吞吐、低延迟的KVCache分布式服务 [3] - 它是SGLang HiCache(层级缓存)的高性能分布式L3存储后端,通过RDMA实现跨机KVCache共享,突破单机GPU/CPU缓存容量瓶颈 [7] - 核心组件包括:管理集群存储池、元数据与节点生命周期的Master Service,以及提供分布式缓存存储、支持多副本与负载均衡的Store Service [9] RoleBasedGroup(RBG)编排引擎 - RBG是面向大模型推理的Kubernetes原生API,通过多角色协同编排,将Mooncake缓存与SGLang推理节点视为同一服务的不同角色进行统一管理 [4] - 其核心设计理念是将一次推理服务视为拓扑化、有状态、可协同的“角色有机体”,以“角色”作为调度编排的原子单元 [13][14] - RBG提出面向生产环境的SCOPE核心能力框架:稳定(Stable)、协同(Coordination)、可编排(Orchestration)、高性能(Performance)、可演进(Extensible) [14][16][17] RBG的SCOPE核心能力解析 - **稳定**:通过为每个Pod注入全局唯一RoleID,并遵循“最小替换域”原则,确保运维操作在原有硬件拓扑范围内完成,避免拓扑漂移导致的性能抖动 [19] - **协同**:内置声明式协同引擎,精确定义角色间在部署、升级、故障、伸缩时的依赖关系与联动策略 [19][22] - **可编排**:显式定义角色依赖与启动顺序,并提供拓扑自感知的内建服务发现,将完整拓扑信息注入Pod环境,降低集成复杂度 [20] - **高性能**:引入拓扑感知的装箱策略,支持GPU拓扑优先级、角色亲和与反亲和约束、布局均衡性等多维度性能优化 [21][23] - **可演进**:通过声明式API与插件化机制,将角色关系定义与部署管理解耦,可快速适配社区演进的新架构,显著缩短新架构投产周期 [24] 基于RBG部署PD分离架构与Mooncake的实践 - 通过RBG可部署高可用、弹性的SGLang PD分离推理系统,核心角色包括:SGLang Router、Prefill Serving Backend、Decode Serving Backend、Mooncake Master/Store [29][31] - EngineRuntime作为RBG注入的Sidecar,成为推理引擎与上层编排系统的桥梁,提供动态LoRA加载、流量控制等关键运行时能力 [29] - 多轮对话场景Benchmark测试表明,多级缓存架构对性能提升至关重要 [31] 性能提升数据 - **Baseline(仅GPU显存)**:缓存命中率2.22%,平均TTFT 5.91秒,P90 TTFT 12.16秒,InputToken吞吐量6576.85 token/s [32][48] - **启用L2 DRAM HiCache**:命中率提升至40.62%,平均TTFT降至3.77秒(下降36.2%),P90 TTFT降至10.88秒,InputToken吞吐量提升至10054.21 token/s(提升52.89%) [32][48] - **启用L3 Mooncake缓存**:命中率进一步跃升,平均TTFT降至2.58秒(下降56.3%),P90 TTFT大幅改善至6.97秒(下降42.7%),InputToken吞吐量提升至15022.80 token/s(提升49.41%) [32][48] 平滑升级与运维稳定性 - Mooncake作为有状态缓存服务,在传统Kubernetes滚动升级中缓存丢失会导致P99延迟毛刺与系统吞吐量断崖式下跌 [36][40] - 解决方案结合了Mooncake缓存本地持久化功能与RBG的原地升级能力,使得在联合升级过程中KVCache状态得以延续,活跃会话无需回退到Prefill阶段 [36][40] - 原地升级实现了“升级无感、服务不抖”的生产级目标,将有状态缓存服务的平滑演进转化为标准化、可自动化的运维能力 [38][43] 总结与行业意义 - RBG重新定义了LLM推理服务的编排范式,通过多角色协同与拓扑感知调度解决了分布式部署复杂性,并攻克了有状态缓存服务平滑升级的难题 [43][44] - Mooncake作为L3缓存层,通过分布式内存池与RDMA加速,使缓存命中率跃升,显著降低了延迟并提升了吞吐,同时将GPU平均利用率从不足30%提升至可持续弹性伸缩的水平 [44] - 从GPU HBM → DRAM → Mooncake的三级缓存体系被证明是有效的,尤其在多轮对话、RAG、AI Agent等场景中,缓存复用带来的边际成本递减效应将愈发显著 [44] - RBG与Mooncake的协同实践表明,只有将高性能系统设计与云原生运维能力深度融合,才能让大模型推理真正从“能用”走向“好用”,从“实验室”走向“生产级” [43]
Z Event|Z Potentials × SGLang NeurIPS 全球前沿研究者峰会之夜
Z Potentials· 2025-11-26 12:34
NeurIPS 2025活动概况 - 活动被定位为奠定未来AI技术走向的历史性时刻,将汇聚全球顶尖科研者[1] - 活动由Z Potentials与开源推理引擎社区SGLang联合举办,旨在聚集前沿研究者进行交流[1] - 活动参与者包括来自OpenAI、xAI、DeepMind、Meta、Nvidia、Ollama、Anthropic等顶级实验室的资深研究者以及AI领域创业者[1] 活动核心合作伙伴 - SGLang被描述为大模型推理领域的事实标准和全球最繁盛的开源推理生态之一[2] - 随着强化学习与智能体技术爆发,越来越多顶尖实验室默认将SGLang作为部署后端[2] - Atlas Cloud为活动提供算力支持,助力一线科研者探索下一代智能系统[3] 活动参与者与讨论主题 - 参与者涵盖顶级研究人员、工程师、创始人及系统构建者,专注于LLM、RL、Agents、VLM、系统、推理加速、MoE、数据创新及开源生态等领域[1] - 讨论主题包括下一代生成式AI、智能体架构、视觉内容、系统创新与推理基础设施[1] 公司战略定位 - Z Potentials致力于搭建投资、研究与基础设施之间的桥梁[2] - 公司主要关注AI、机器人、智能硬件等科技领域,团队成员拥有大型企业战略投资背景[10] - 公司定位为AI时代的中国年轻版YC,寻找有创造力的00后创业者[8]
大模型优秀大脑齐聚硬核开源聚会,SGLang社区举办国内首次Meetup
机器之心· 2025-10-28 14:29
SGLang技术特性与架构 - 开源高性能大语言模型和视觉语言模型推理引擎,起源于RadixAttention,由非营利组织LMSYS孵化[7] - 核心特性包括快速后端Runtime(支持RadixAttention前缀缓存、连续批处理、推测性解码等)、广泛模型支持(兼容多数Hugging Face模型和OpenAI API)、广泛硬件支持(NVIDIA/AMD GPU、Intel Xeon CPU、Google TPU、华为昇腾NPU等)以及灵活的前端语言[14] - 在行业内得到广泛采用,全球范围内为超过30万块GPU提供支持[14] SGLang近期技术进展与路线图 - 技术进展包括KV Cache分层缓存、Piecewise CUDA Graph、Spec Decoding的重叠调度等,实现不同程度的效率和兼容性优化[21] - 未来路线图聚焦于对广泛企业的支持、对各类软硬件的拓展兼容和稳定性[22] - 量化方案近期实现了FP4量化支持,W4AFP8达成实现,未来路线图聚焦扩展应用范围、提升灵活性并引入新型数据格式[34][35] 产学研合作与生态整合 - 清华大学与SGLang合作推进Mooncake高性能分布式KV Cache存储解决方案及KTransformers集成,实现从CPU/GPU混合推理到LoRA微调的全流程开源生态扩展[25][27] - SGLang与趋境科技合作进行HiCache技术整合,通过多层次缓存管理与层页混合内存布局提升多GPU场景内存利用率与推理吞吐性能[25][26] - Slime项目构建公司与开源社区共建共赢的训练生态,实现技术与社区双向循环成长,目标成为世界最好的后训练框架[51] 行业应用实践案例 - 百度搜索架构部在文心4.5模型大规模部署中采用SGLang,应用于LLM推理、蒸馏和RL训练,并进行了特定模型优化、小卡优化和调度优化[41] - 腾讯微信搜一搜业务在LLM应用中采用SGLang实现高吞吐量与低延迟推理,优化首字速度TTFT和生成速度TPOT指标[44] - 华为通过SGLang实现DeepSeek V3.2在NPU上的适配优化,采用MQA+稀疏注意力方案在长序列推理中显著提升性能与资源利用率[47] 社区发展态势 - SGLang在北京举办国内首场Meetup,吸引来自知名公司、学校或组织的社区贡献者、开发者和学者参与,显现旺盛社区活力和发展潜能[4][8] - Meetup活动涵盖技术架构演进与应用实践分享,形成高密度硬核开源社区思想碰撞[10][11] - Specforge开源投机采样模型训练框架已应用于美团、英伟达、Google、蚂蚁等企业大模型优化,与SGLang完全结合开箱即用[57]
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
量子位· 2025-09-27 09:30
核心技术突破 - SGLang团队联合slime团队通过定制注意力算子和采样逻辑,实现了完全确定性推理,解决了LLM推理中的不确定性问题[2][5][6] - 该实现基于Thinking Machines Lab提出的批次不变性算子,核心创新是解决了因动态批处理导致批次大小变化而引起的浮点运算非结合性问题[4][7] - 确定性推理功能与分块预填充、CUDA Graph、Radix Cache等关键性能优化技术完全兼容,在启用确定性模式时仍支持这些功能[5][9] 性能表现 - 使用CUDA Graph可实现2.8倍加速,与Thinking Machines Lab报告的61.5%性能下降相比,SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降[5] - 在256个请求的RL推理工作负载测试中,确定性推理在FlashInfer后端的性能下降为24.4%-46%,FlashAttention 3后端为27.2%-35.7%,Triton后端为44.64%-55.1%[12][13] - 确定性测试显示,在三种不同测试场景下,常规模式会产生2-18个独特输出,而确定性模式在所有后端均稳定输出1个独特结果,实现了完美确定性[10][11] 技术验证与应用 - 基于Qwen3-8B的重复实验显示两次运行曲线完美重合,为需要高精度复现的实验场景提供了可靠保障[1] - 支持按请求设置采样种子,即使在temperature>0的非贪婪采样模式下也能实现确定性推理[9] - 当前主要推荐用于调试和复现性场景,未来目标是将性能差距缩小到20%以内或与正常模式持平[13] 未来发展路径 - 将优化批次不变算子作为性能提升重点,这对提高RL推理速度至关重要[18] - 计划将确定性推理支持从Dense模型扩展到Qwen3-30B-A3B或DeepSeek-V3等混合专家模型[18] - 将增强基数缓存功能使其兼容更广泛的注意力算子,并计划集成FlexAttention等新后端[18]