SGLang推理框架
搜索文档
摩尔线程MTT S5000完成智谱GLM-5 Day-0全流程适配
新浪财经· 2026-02-12 09:08
智谱发布新一代大模型GLM-5 - 智谱公司于2月11日晚正式发布新一代大模型GLM-5 [1] 摩尔线程实现技术适配与性能提升 - 摩尔线程基于SGLang推理框架,在AI训推一体全功能GPU MTT S5000上实现了对GLM-5的Day-0全流程适配与验证 [1] - 公司通过MUSA架构,利用硬件原生FP8加速能力与ACE异步通信引擎,在确保精度的同时提升了系统吞吐量 [1]
摩尔线程MTT S5000率先完成对GLM-5的适配
新浪财经· 2026-02-12 08:53
公司产品与技术进展 - 摩尔线程基于SGLang推理框架,在其旗舰级AI训推一体全功能GPU MTT S5000上,完成了对GLM-5大模型的Day-0全流程适配与验证 [1] - 公司成功打通了模型推理全链路,并深度释放了MTT S5000的原生FP8加速能力,在确保模型精度的同时显著降低了显存占用,实现了GLM-5的高性能推理 [1] - 此次快速适配印证了公司MUSA软件栈的成熟度,并展现了其国产全功能GPU对最新大模型即时、高效的支持能力 [1] 行业生态与合作 - 智谱于2月11日正式发布新一代大模型GLM-5 [1] - 摩尔线程凭借其MUSA架构广泛的算子覆盖与强大的生态兼容能力,完成了对GLM-5的快速适配 [1]
英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型
36氪· 2025-10-15 08:38
产品发布与定位 - 英伟达正式发布并开始销售面向个人AI开发者的迷你PC“DGX Spark”,售价为3999美元,将于10月15日通过官网及第三方零售商开售 [1][3] - 该产品定位为个人AI超级计算机,主要面向AI开发者、研究人员、数据科学家和学生,用于在桌面上对大型模型进行原型设计、微调和推理,而非面向普通消费者的通用计算机 [3][7][9] 核心硬件配置 - 搭载英伟达定制的GB10 Grace Blackwell超级芯片,融合20核CPU与Blackwell架构GPU,在稀疏FP4精度下提供1 PFLOPS(每秒一千万亿次浮点运算)的AI算力 [5][23][24] - 配备128GB的一致性统一系统内存,CPU与GPU共享同一物理内存空间,可无缝访问数据,无需在系统内存和显存间拷贝,大幅减少数据搬移开销 [1][24][25] - 提供最高4TB存储,配备ConnectX-7智能网卡,机身背面提供两组QSFP网络端口,提供合计200Gb/s带宽,允许两台设备直连组成小型集群 [5][18][27] 产品设计与规格 - 产品尺寸小巧,长150毫米 x 宽150毫米 x 高50.5毫米,重约2.6磅(1.18公斤),大小与Mac mini相仿 [1][5] - 采用香槟金全金属外壳,前后为多孔金属泡沫材质以辅助散热,设计灵感源于大型DGX服务器 [16][18] - 采用USB-C接口进行供电设计,将电源适配器外置以节省内部空间用于散热,但供电线无卡扣固定 [21] - 接口丰富,包括四个USB-C接口(一个支持240W供电)、一个HDMI输出、一个10GbE RJ-45以太网口及两组QSFP网络端口 [18] 性能表现与能力 - 凭借128GB统一内存,可一次性加载并运行上百亿参数的大模型,两台设备互联后可应对高达405B参数(FP4精度)的模型,已逼近目前最大的开源模型 [1][26][29] - 性能测试显示,在运行GPT-OSS 20B模型(Ollama框架)时,预填充吞吐量约为2053 tokens/s,单token解码速度约49.7 tokens/s [32] - 在运行Llama 3.1 8B模型(SGLang框架,FP8精度,批处理大小=1)时,预填充速度约7991 tokens/s,生成速度约20.5 tokens/s;当批处理增加到32时,生成速度可提升至约368 tokens/s,展现优秀的并行处理能力 [32][36] - 能够成功加载并运行Llama 3.1 70B等超大参数模型(FP8量化版),预填充速度约803 tokens/s,生成速度约2.7 tokens/s,为本地研究和调试庞大模型提供了可能 [32][36] - 采用LPDDR5x统一内存,总带宽约为273GB/s,这成为重负载AI推理时的主要瓶颈,其吞吐量约为顶级专业显卡(如RTX Pro 6000)的四分之一 [29][32][34] 软件与生态系统 - 运行英伟达定制的DGX OS(基于Ubuntu Linux),已预配置好AI软件及常用开发环境(如Docker),降低本地运行大模型的门槛 [7][42][44] - 支持SGLang和Ollama等推理框架,为SGLang框架提供了从数据中心走向个人开发者市场的契机 [15][31] - 通过软件优化可提升性能,例如在SGLang框架中启用英伟达EAGLE3推测解码算法后,在Llama 3.1 8B等模型上使端到端推理吞吐量最高提升约2倍 [37][38] - 提供兼容OpenAI API接口的出厂配置,可像使用云端服务一样通过标准REST API与本地模型交互,便于部署本地模型服务 [46][47] 散热与稳定性 - 在高负载长时间运行测试中(如并发批处理设为8,推理DeepSeek-R1 14B模型),风扇噪音和温度保持稳定,未出现热降频 [39] - 精心的金属泡沫散热结构和外置电源设计,使热量能迅速排出,在持续性能输出方面展现出专业水准的热设计能力 [21][39][41] 典型应用场景 - **本地模型服务与推理**:可简便地通过Docker命令部署本地大模型推理服务,提供离线、数据私有且延迟可控的API服务 [44][45][49] - **本地对话体验**:可接入Open WebUI等前端,在浏览器中实现零延迟、零数据泄露的私有AI聊天体验 [50][52] - **离线代码助手**:可与现代代码编辑器(如Zed)集成,利用本地运行的大模型(如GPT-OSS 20B)实现代码自动完成、内联聊天等辅助编程功能,全程离线保证代码隐私 [53][54][57] 行业意义与展望 - 该产品标志着个人AI超算时代的到来,将数据中心级别的“大内存+高速互联+顶级GPU”组合浓缩进桌面设备,是工程上的突破 [14][29][58] - 其使命在于把AI实验室搬到开发者桌面,赋予开发者在本地安静、高效地运行开源大模型、开发推理框架及打造私有AI助手的能力,是个人AI超算时代的开路先锋 [58]