Workflow
元脑SD200
icon
搜索文档
算力产业跟踪:超节点引领新一代算力基础设施
长江证券· 2025-08-22 23:11
行业投资评级 - 投资评级为看好 维持[7] 核心观点 - 超节点是新一代算力基础设施 能解决大模型训练推理中以通信速度为核心的性能瓶颈 技术升级和复杂度提升带来多个算力环节价值量提升[2][10] - 算力龙头企业纷纷推出超节点产品 包括英伟达GB200(含36个Grace CPU和72个Blackwell GPU) 华为昇腾超节点(采用高速互连技术将384张910C智算卡紧密耦合) 浪潮信息"元脑SD200"(单机可运行超万亿参数大模型)[4][10] - 超节点通过内部高速总线互连 加速GPU间参数交换和数据同步 缩短大模型训练周期 在现有技术生态和成本约束下从系统层面打破AI芯片性能边界[10] 算力产业发展现状 - AI大模型遵循ScalingLaw定律 参数规模不断扩大 海外已出现十万卡级别算力集群 未来可能进一步扩大[10] - DeepSeek创新架构与工程优化助力MOE(专家混合模型)成为主流模型结构 复杂混合并行策略需要超大显存空间 更低通信时延 更强计算性能[10] - 传统AI服务器依赖以太网络实现跨机互联 通信带宽较低成为性能瓶颈[10] 产业影响与投资机会 - 超节点AI服务器算力密度和通信复杂度大幅提升 单节点功耗显著增加[10] - 带来互联需求提升 液冷价值量提升 从传统产品厂商向系统解决方案厂商升级[10] - 建议关注四大投资方向:纯正国产AI芯片领军企业寒武纪和国产高端CPU/DCU领军企业 超节点服务器厂商 超节点配套PCB/链接/液冷厂商 华为超节点相关合作伙伴[10]
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-12 00:01
一、xAI开放Grok 4 - Grok 4向全球用户免费开放但限制每12小时使用5次 达到限制后完全不可用 [1] - 该策略被视为对标GPT-5发布 引发付费用户对订阅价值的质疑 [1] - Grok Imagine视频生成服务新增分享功能 修复下载问题并强化图片审核机制 [1] 二、浪潮发布元脑SD200服务器 - 元脑SD200将64张GPU卡融合为统一内存节点 支持四大国产开源模型并行运行 [2] - 采用3D Mesh架构与GPU虚拟映射技术 显存达4TB 内存64TB 满足万亿参数模型推理需求 [2] - 64卡运行DeepSeek R1性能提升3.7倍 Kimi K2提升1.7倍 专为Agentic AI计算需求设计 [2] 三、智谱GLM-4.5技术突破 - GLM-4.5公开预训练与后训练细节 首创单模型融合推理、编码与智能体能力 [3] - 基于MoE架构与15T通用+7T专业数据训练 强化长上下文与智能体性能 [3] - 在12项ARC测试中超越Claude Opus 4 部分指标超过OpenAI o3 [3] 四、昆仑万维SkyReels-A3视频模型 - SkyReels-A3基于DiT架构生成1分钟数字人视频 优化手部动作与运镜控制 [4] - 采用改进插帧方法与ControlNet模块 解决长视频稳定性与多视角切换问题 [4] - 作为五天技术发布周首款产品 已上线Talking Avatar工具 [4] 五、腾讯混元3D生成能力升级 - 创想三维MakeNow平台接入腾讯混元 增强CubeMe等工具的3D生成能力 [5] - 混元3D v2.5采用稀疏原生架构 几何分辨率达1024³ 纹理贴图4K级 [6] - 用户上传照片5分钟内可生成可打印Q版手办 支持三种风格个性化调整 [6] 六、阿里开源具身智能组件 - 开源RynnVLA-001视觉-语言-动作模型 能从第一人称视频学习人类操作 [7] - RynnRCP协议打通传感器到执行的机器人工作流 支持多款热门模型 [7] - RynnEC模型通过视频序列建立连续空间感知 引入多模态世界理解能力 [7] 七、百川医疗大模型Baichuan-M2 - 32B参数Baichuan-M2在HealthBench评测中仅次于GPT-5 超越所有开源模型 [8] - 集成验证系统与患者模拟器 严格遵循中国医疗指南并适配临床场景 [8] - 4bit量化后单卡RTX4090可部署 成本较DeepSeek-R1 H20降低57倍 [8] 八、灵巧智能机器人手技术 - DexHand021 Pro拥有22自由度 双绳驱动实现拇指对指等精细操作 [9] - 串并混联设计解决摩擦损耗问题 四指负载>1kg 整手抓握>5kg [9] - 集成12个电机与多传感器 成本仅为同类产品十分之一 [9] 九、Scaling Law行业观点 - Scaling Law反映数据内在幂律特性 模型能力非线性增长源于数据结构 [10] - 需通过强化学习将计算转化为新知识 建立生成-验证-学习的进化飞轮 [11] 十、2025大模型应用趋势 - 45%企业已部署大模型至生产环境 32%定制模型 27%采用API服务 [12] - 用户平均使用4.7家不同产品 ChatGPT领先但Gemini与DeepSeek增速显著 [12] - 55%接受中国模型但要求海外部署 英伟达占据78%训练硬件市场份额 [12]
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
量子位· 2025-08-11 15:48
国产开源模型发展 - 国产开源模型如DeepSeek R1、Kimi K2等在Hugging Face热度榜及关键指标(推理能力、长文本处理、多模态理解)上表现突出 [1] - 主流开源模型参数量突破万亿级别,显存需求达数TB量级 [1] - Agentic AI范式推动多模型协同与复杂推理链,计算与通信需求爆炸式增长 [2] 元脑SD200技术突破 - 浪潮信息发布超节点AI服务器元脑SD200,支持单机运行四大国产开源模型及超万亿参数推理 [3][5] - 64卡整机实现超线性扩展(DeepSeek R1推理性能提升3.7倍,Kimi K2提升1.7倍) [6][11] - 采用3D Mesh开放架构,通过Open Fabric Switch实现64卡统一编址,显存达4TB,内存64TB [7][8] - 百纳秒级低延迟通信,支持原生内存语义对齐,优于业界主流方案 [8] - 内置Smart Fabric Manager优化全局路由,PD分离框架提升推理效率 [9] Agentic AI对基础设施的挑战 - 智能体AI需多模型协同(如代码生成、逻辑推理、知识检索模型),交互频次与计算量激增 [14][15] - 万亿参数模型跨机通信延迟问题突出,传统InfiniBand网络难以应对高频小数据包场景 [15][16] - 元脑SD200通过统一计算域与8倍地址空间扩增,解决显存容量与延迟问题 [19] 超节点设计理念 - Scale Up路径选择:硅基芯片性能提升受限,Scale Out架构高延迟问题显著 [20][21] - 元脑SD200在有限物理空间内聚合64路GPU,平衡物理定律与工程实践 [22][24] - 系统化设计整合现有技术,最大化用户价值 [22] 开放生态战略 - 基于OCM(开放算力模组)与OAM(开放加速模块)架构,支持Intel、AMD、ARM等多平台及异构加速器协同 [25][27][29] - 兼容PyTorch、vllm等主流框架,降低用户迁移成本 [11][32] - 推动"智能平权",通过开放架构降低企业使用门槛,共享AI技术红利 [33][34][35]
【产业互联网周报】 OpenAI推出GPT-5模型;OpenAI开源两款新模型;美国ITC正式对移动蜂窝通信设备启动337调查;阿里巴巴、腾讯开启2026届秋招
钛媒体APP· 2025-08-11 12:02
大模型开源与端侧部署 - 腾讯混元开源四款小尺寸模型,参数分别为0.5B、1.8B、4B、7B,支持消费级显卡运行及低成本端侧微调 [2] - 小米开源声音理解模型MiDashengLM-7B,在22个评测集刷新SOTA,首Token延迟为业界先进模型的1/4,吞吐效率达20倍 [8] - OpenAI开源两款端侧推理模型GPT-oss-120b和GPT-oss-20b,为自GPT-2后首次开源大语言模型 [22] - 阿里通义千问发布小尺寸模型Qwen3-4B,在非推理领域超越GPT4.1-Nano,推理领域媲美Qwen3-30B [15] - 小红书开源视觉语言模型dots.vlm1,基于12亿参数视觉编码器和DeepSeek V3 LLM构建 [16] 企业合作与战略布局 - 中国移动与腾讯签署战略协议,覆盖智算基建、AI应用开发等领域 [11] - 和睦家医院与阿里达摩院合作,基于"平扫CT+AI"技术开展消化肿瘤及慢性病筛查 [3] - 亚马逊与澳大利亚国家宽带网络公司合作,通过近地轨道卫星为偏远地区提供宽带服务,覆盖超30万场所 [19][20] - 博通推出Jericho4以太网路由器,支持跨数据中心连接超百万个XPU处理器 [18] 财务表现与资本运作 - 搜狐Q2总收入1.26亿美元,其中游戏收入1.06亿美元,净亏损2000万美元同比收窄超40%,回购8300万美元股票 [4] - 香港宽频公告中国移动拟以10.8亿港元收购其14.44%股份,每股作价5.075港元 [32] - 圆币科技完成4000万美元A2轮融资,由中湾国际、众安国际等联合领投,聚焦稳定币应用场景 [30] - Vast Data正与英伟达、Alphabet风投部门磋商融资,估值或达300亿美元 [33] 政府与政策动态 - 美国ITC对移动蜂窝通信设备启动337调查,涉及一加、联想、TCL等企业 [17] - 上海推出具身智能产业方案,目标2027年核心产业规模破500亿元,给予示范项目最高1000万元支持 [43][44] - 河南设立30亿元人工智能产业基金,对国家级专精特新企业最高补助500万元 [50][51] - 全国一体化算力网9项技术文件全部发布,标志建设进入落地应用阶段 [45] 产品与技术发布 - 高德发布全球首个AI原生地图应用"高德地图2025",具备空间智能推理能力 [7] - 浪潮信息发布超节点AI服务器"元脑SD200",支持单机运行万亿参数大模型,64卡性能超线性扩展 [17] - 360安全云发布三类智能体,安全智能体威胁发现数量比人工高3倍,速度提升10倍 [13][14] - 微软将GPT-5整合至Copilot生态系统,支持动态模型切换和多模态企业应用 [28][29] 人才招聘与研发投入 - 阿里巴巴启动2026届秋招,计划发放7000个offer,AI岗位占比超60%,部分部门达80% [9] - 腾讯2026校招强化技术类岗位储备,开设AI产品经理培训生项目 [10] - 谷歌承诺三年投入10亿美元支持美国AI教育,超100所公立大学参与培训项目 [27] 安全与合规进展 - 周鸿祎称英伟达H20芯片是否存在后门需第三方安全审计,强调漏洞与后门的技术差异 [12] - 中国网络空间安全协会指导5款App完成个人信息收集优化,覆盖寄递、二手车、旅游服务领域 [38] - 美国联邦法院电子档案系统遭黑客攻击,可能导致机密证人信息泄露 [26] 区域产业布局 - 湖北大数据集团同日成立4家子公司,注册资本合计3.5亿元,聚焦数据处理与算力服务 [31] - 北京亦庄启动具身智能社会实验计划,开放千个场景数据点位,首批20个实训场本月启用 [49] - 深圳推动人工智能全域全行业应用,强化工业支柱地位和服务业发展 [41][42]
浪潮信息“元脑SD200”超节点实现单机内运行超万亿参数大模型
科技日报· 2025-08-09 18:21
产品发布 - 公司发布面向万亿参数大模型的超节点AI服务器"元脑SD200",基于多主机低延迟内存语义通信架构,支持64路本土GPU芯片[2] - "元脑SD200"可实现单机内运行超万亿参数大模型,支持多个领先大模型机内同时运行及多智能体实时协作与按需调用,已实现商用[2] - 超节点通过GPU互联技术将多台服务器、多张算力芯片卡整合为规模更大、算力更强的整体算力单元,突破传统算力部署边界[2] 技术特点 - 超节点通过优化节点内互联技术、液冷散热等手段提升集群整体能效、通信带宽与空间利用效率[2] - 产品基于开放总线交换技术构建,解决万亿大模型对超大显存空间和超低通信延时的核心需求[3] - 通过智能总线管理和开放的预填充—解码(PD)分离推理框架实现软硬件深度协同,智能化管理复杂AI计算任务[3] 性能表现 - SD200超节点满机运行DeepSeek R1全参模型推理性能超线性提升比为3.7倍[4] - 满机运行Kimi K2全参模型推理性能超线性提升比为1.7倍[4] - 公司通过软硬协同系统创新突破芯片性能边界,在大模型场景中展示出优异性能表现[4] 行业背景 - 混合专家模型驱动大模型参数规模持续扩展,国内外前沿大模型参数量快速突破万亿规模[3] - 模型参数量增加和序列长度增加导致键值缓存激增,需要智能计算系统具有超大显存空间[3] - 智能体AI开启多模型协作新范式,推理过程需要生成比传统模型多近百倍的数据词元[3] 产业影响 - 公司通过开放系统架构创新为开源大模型的规模化落地和应用创新提供关键支撑[4] - 超节点搭建带动高速连接器、高速线缆、板材等上下游相关技术创新和应用[4] - 推动形成更好的产业生态,提高生态竞争力[4]
大模型进入万亿参数时代,超节点是唯一“解”么?丨ToB产业观察
钛媒体APP· 2025-08-08 17:57
模型发展趋势 - 企业级应用侧小参数模型成为落地最佳选择 通用大模型参数进入万亿时代 [2] - MoE架构驱动大模型参数规模提升 如KIMI K2开源模型总参数量达1.2万亿 每个Token推理仅激活32B参数 [2] 算力系统挑战 - 万亿参数模型训练算力需求激增 GPT-3训练需2.5万张A100 GPU运行90-100天 万亿模型需求可能达数十倍 [3] - 模型并行和数据并行导致跨节点通信开销大 GPT-4训练算力利用率仅32%-36% 受显存带宽限制 [3] - MoE模型训练稳定性挑战大 梯度范数频繁突刺 KV cache存储需求呈指数级增长 [3] 显存与计算需求 - FP16格式下万亿参数模型权重需20TB显存 动态数据需求超50TB GPT-3需350GB显存 万亿模型需2.3TB [4] - 长序列训练使计算复杂度平方级增长 2000K Tokens训练加剧内存压力 [4] - MoE路由机制导致专家负载不均衡 部分专家过度使用成为瓶颈 [4] 解决方案与技术进展 - 阿里云提出全局负载均衡损失 使模型PPL降低1.5个点 [5] - AI技术方向从预训练转向推理 算力需求从训练侧转向推理侧 [5] - MoE架构分布式训练通信时间占比高达40% 需构建更大Scale Up高速互连域 [5] Scale Up系统优势 - Scale Out集群节点间通信瓶颈放大 InfiniBand时延达10微秒 Scale Up系统将数百颗AI芯片封装为统一计算实体 [6] - 并行计算技术如专家并行、张量并行可拆分模型权重与KV Cache到多芯片 [6] - 构建大规模Scale Up系统是解决万亿模型计算挑战的唯一可行路径 [6] 产品与架构创新 - 浪潮信息发布超节点AI服务器"元脑SD200" 支持64路本土GPU芯片 可单机运行1.2万亿参数Kimi K2模型 [7] - 元脑SD200采用多主机低延迟内存语义通信架构 支持多模型同时运行 [7] - 3D Mesh系统架构实现64卡P2P全互连 拓展跨域互连能力 [8][9] 软硬协同与未来方向 - 软硬协同是突破算力瓶颈核心路径 字节跳动COMET技术将MoE通信延迟从0.944秒降至0.053秒 [10] - 超节点功耗密度达兆瓦级 需软件适配动态功耗调节避免过热降频 [11] - Scale Up与Scale Out将同步发展 Scale Up成为大模型技术重点探索领域 [9]