元脑SD200

搜索文档
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-12 00:01
生成式AI 一、 马斯克旗下的xAI宣布,Grok 4向全球所有用户免费开放 1. xAI宣布Grok 4向全球所有用户免费开放,但每12小时限制使用5次,达到限制后Grok完全不可用; 2. 此举被认为是为了跟进GPT-5的发布策略,但引发付费用户强烈不满,认为订阅费被"背刺"; 3. 同时Grok Imagine视频生成服务更新,新增视频分享功能、修复下载问题并增加静音控制,增强了图片审核机 制。 https://mp.weixin.qq.com/s/u4xy4O2kLTVaKJ2n0uYb3Q 二、 浪潮发布面向万亿参数的超节点AI服务器「元脑SD200」 1. 浪潮信息发布超节点AI服务器"元脑SD200",将64张卡融合成统一内存、统一编址的超节点,能同时运行 DeepSeek R1、Kimi K2等四大国产开源模型; 2. 产品采用3D Mesh开放架构,通过远端GPU虚拟映射技术实现地址空间扩增8倍,整机可实现4TB显存与64TB内 存,满足超万亿参数大模型推理需求; 3. 推理性能实现超线性扩展,64卡一同运行DeepSeek R1时性能提升达3.7倍,Kimi K2达1.7倍,专为解决Age ...
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
量子位· 2025-08-11 15:48
国产开源模型发展 - 国产开源模型如DeepSeek R1、Kimi K2等在Hugging Face热度榜及关键指标(推理能力、长文本处理、多模态理解)上表现突出 [1] - 主流开源模型参数量突破万亿级别,显存需求达数TB量级 [1] - Agentic AI范式推动多模型协同与复杂推理链,计算与通信需求爆炸式增长 [2] 元脑SD200技术突破 - 浪潮信息发布超节点AI服务器元脑SD200,支持单机运行四大国产开源模型及超万亿参数推理 [3][5] - 64卡整机实现超线性扩展(DeepSeek R1推理性能提升3.7倍,Kimi K2提升1.7倍) [6][11] - 采用3D Mesh开放架构,通过Open Fabric Switch实现64卡统一编址,显存达4TB,内存64TB [7][8] - 百纳秒级低延迟通信,支持原生内存语义对齐,优于业界主流方案 [8] - 内置Smart Fabric Manager优化全局路由,PD分离框架提升推理效率 [9] Agentic AI对基础设施的挑战 - 智能体AI需多模型协同(如代码生成、逻辑推理、知识检索模型),交互频次与计算量激增 [14][15] - 万亿参数模型跨机通信延迟问题突出,传统InfiniBand网络难以应对高频小数据包场景 [15][16] - 元脑SD200通过统一计算域与8倍地址空间扩增,解决显存容量与延迟问题 [19] 超节点设计理念 - Scale Up路径选择:硅基芯片性能提升受限,Scale Out架构高延迟问题显著 [20][21] - 元脑SD200在有限物理空间内聚合64路GPU,平衡物理定律与工程实践 [22][24] - 系统化设计整合现有技术,最大化用户价值 [22] 开放生态战略 - 基于OCM(开放算力模组)与OAM(开放加速模块)架构,支持Intel、AMD、ARM等多平台及异构加速器协同 [25][27][29] - 兼容PyTorch、vllm等主流框架,降低用户迁移成本 [11][32] - 推动"智能平权",通过开放架构降低企业使用门槛,共享AI技术红利 [33][34][35]
浪潮信息“元脑SD200”超节点实现单机内运行超万亿参数大模型
科技日报· 2025-08-09 18:21
产品发布 - 公司发布面向万亿参数大模型的超节点AI服务器"元脑SD200",基于多主机低延迟内存语义通信架构,支持64路本土GPU芯片[2] - "元脑SD200"可实现单机内运行超万亿参数大模型,支持多个领先大模型机内同时运行及多智能体实时协作与按需调用,已实现商用[2] - 超节点通过GPU互联技术将多台服务器、多张算力芯片卡整合为规模更大、算力更强的整体算力单元,突破传统算力部署边界[2] 技术特点 - 超节点通过优化节点内互联技术、液冷散热等手段提升集群整体能效、通信带宽与空间利用效率[2] - 产品基于开放总线交换技术构建,解决万亿大模型对超大显存空间和超低通信延时的核心需求[3] - 通过智能总线管理和开放的预填充—解码(PD)分离推理框架实现软硬件深度协同,智能化管理复杂AI计算任务[3] 性能表现 - SD200超节点满机运行DeepSeek R1全参模型推理性能超线性提升比为3.7倍[4] - 满机运行Kimi K2全参模型推理性能超线性提升比为1.7倍[4] - 公司通过软硬协同系统创新突破芯片性能边界,在大模型场景中展示出优异性能表现[4] 行业背景 - 混合专家模型驱动大模型参数规模持续扩展,国内外前沿大模型参数量快速突破万亿规模[3] - 模型参数量增加和序列长度增加导致键值缓存激增,需要智能计算系统具有超大显存空间[3] - 智能体AI开启多模型协作新范式,推理过程需要生成比传统模型多近百倍的数据词元[3] 产业影响 - 公司通过开放系统架构创新为开源大模型的规模化落地和应用创新提供关键支撑[4] - 超节点搭建带动高速连接器、高速线缆、板材等上下游相关技术创新和应用[4] - 推动形成更好的产业生态,提高生态竞争力[4]
大模型进入万亿参数时代,超节点是唯一“解”么?丨ToB产业观察
钛媒体APP· 2025-08-08 17:57
模型发展趋势 - 企业级应用侧小参数模型成为落地最佳选择 通用大模型参数进入万亿时代 [2] - MoE架构驱动大模型参数规模提升 如KIMI K2开源模型总参数量达1.2万亿 每个Token推理仅激活32B参数 [2] 算力系统挑战 - 万亿参数模型训练算力需求激增 GPT-3训练需2.5万张A100 GPU运行90-100天 万亿模型需求可能达数十倍 [3] - 模型并行和数据并行导致跨节点通信开销大 GPT-4训练算力利用率仅32%-36% 受显存带宽限制 [3] - MoE模型训练稳定性挑战大 梯度范数频繁突刺 KV cache存储需求呈指数级增长 [3] 显存与计算需求 - FP16格式下万亿参数模型权重需20TB显存 动态数据需求超50TB GPT-3需350GB显存 万亿模型需2.3TB [4] - 长序列训练使计算复杂度平方级增长 2000K Tokens训练加剧内存压力 [4] - MoE路由机制导致专家负载不均衡 部分专家过度使用成为瓶颈 [4] 解决方案与技术进展 - 阿里云提出全局负载均衡损失 使模型PPL降低1.5个点 [5] - AI技术方向从预训练转向推理 算力需求从训练侧转向推理侧 [5] - MoE架构分布式训练通信时间占比高达40% 需构建更大Scale Up高速互连域 [5] Scale Up系统优势 - Scale Out集群节点间通信瓶颈放大 InfiniBand时延达10微秒 Scale Up系统将数百颗AI芯片封装为统一计算实体 [6] - 并行计算技术如专家并行、张量并行可拆分模型权重与KV Cache到多芯片 [6] - 构建大规模Scale Up系统是解决万亿模型计算挑战的唯一可行路径 [6] 产品与架构创新 - 浪潮信息发布超节点AI服务器"元脑SD200" 支持64路本土GPU芯片 可单机运行1.2万亿参数Kimi K2模型 [7] - 元脑SD200采用多主机低延迟内存语义通信架构 支持多模型同时运行 [7] - 3D Mesh系统架构实现64卡P2P全互连 拓展跨域互连能力 [8][9] 软硬协同与未来方向 - 软硬协同是突破算力瓶颈核心路径 字节跳动COMET技术将MoE通信延迟从0.944秒降至0.053秒 [10] - 超节点功耗密度达兆瓦级 需软件适配动态功耗调节避免过热降频 [11] - Scale Up与Scale Out将同步发展 Scale Up成为大模型技术重点探索领域 [9]