大模型训练与推理 - 财报，业绩电话会，研报，新闻

大模型训练与推理

搜索文档

傅里叶的猫· 2026-02-14 23:13

摩尔线程MTT S5000产品性能与规格 - 公司AI旗舰计算卡MTT S5000实现GLM-5的“Day-0”适配，推动国产算力生态进入“零时差”响应时代 [1] - MTT S5000是2024年推出的训推一体全功能GPU智算卡，专为大模型训练、推理及高性能计算设计，可对标国际旗舰水准 [3] - 产品硬件参数首次曝光：支持FP8到FP64全精度计算，单卡AI算力（FP8）最高可达1 PFLOPS（即1000 TFlops），显存容量80GB，显存带宽1.6TB/s，卡间互联带宽784GB/s [4] - 液冷版本AI算力为1000 TFlops，风冷版本为920 TFlops [4] - 业内人士表示，MTT S5000实测性能对标英伟达H100，在多模态大模型微调任务中部分性能甚至超越H100 [4] 芯片架构与技术创新 - S5000采用第四代MUSA架构“平湖”，专为大规模AI训练优化 [6] - 依托MUSA全栈软件平台，原生适配PyTorch、Megatron-LM、vLLM及SGLang等主流框架，实现“零成本”代码迁移，兼容国际主流CUDA生态 [6] - 该产品是国内首批最早原生支持FP8精度的训练GPU，配置硬件级FP8 Tensor Core加速单元 [6] - 相比传统BF16/FP16，FP8可将数据位宽减半，显存带宽压力降低50%，理论计算吞吐量翻倍 [6] - FP8引擎全面支持DeepSeek、Qwen等前沿架构，可提升30%以上训练性能 [6] - 在集群通信层面，S5000采用独创的ACE技术，将复杂通信任务从计算核心卸载，实现计算与通信零冲突并行，大幅提升模型算力利用率（MFU） [10] 夸娥万卡集群性能表现 - 基于S5000构建的夸娥万卡集群已落地，其浮点运算能力达到10 Exa-Flops [8] - 在Dense模型训练中，集群的模型FLOPs利用率（MFU）达到60%，在MoE模型中维持在40%左右 [8] - 集群有效训练时间占比超过90%，训练线性扩展效率达95% [8] - 依托原生FP8能力，集群能完整复现顶尖大模型的训练流程，其中Flash Attention算力利用率超过95% [8] - 实测显示，从64卡扩展至1024卡，系统保持90%以上的线性扩展效率，训练速度随算力增加几乎同步倍增 [10] 实际训练与推理案例 - 2026年1月，智源研究院基于S5000千卡集群，完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证 [10] - 训练结果显示，与英伟达H100集群的训练结果高度重合，训练损失值（loss）差异仅为0.62% [10] - 在推理场景，2025年12月公司联合硅基流动基于S5000完成对DeepSeek-V3 671B满血版的深度适配与性能测试 [12] - 实测单卡Prefill吞吐超4000 tokens/s，Decode吞吐超1000 tokens/s，刷新了国产GPU的推理纪录 [12]

拆开“超节点”的伪装：没有内存统一编址，仍是服务器堆叠

36氪· 2026-02-02 16:05

AI计算架构的演进与“超节点”的本质 - AI行业的竞争焦点已从堆叠模型参数和服务器，转向底层计算架构的“系统级对决” [1] - “超节点”成为计算产业的新方向，但部分产品存在技术变形，仅将多台服务器堆叠于机柜并宣称打破摩尔定律 [2] - 真正的“超节点”需实现“内存统一编址”，否则本质仍是传统服务器堆叠架构 [2] 传统架构瓶颈与“超节点”的兴起 - 大模型时代，传统Scale Out集群架构面临“三堵墙”挑战：通信墙、功耗与散热墙、复杂度墙 [3] - 通信墙问题突出：大模型训练中通信频次呈指数级增长，微秒级延迟累积导致计算单元长时间等待，限制算力利用率 [3] - 硬件堆砌带来复杂度墙：万卡乃至十万卡集群运维复杂，大模型训练中需每隔几小时处理一次故障 [3] - 新算力需求驱动变革：大模型走向全模态融合，上下文长度达兆级、训练数据高达100TB，部分场景时延要求小于20毫秒，传统架构已成瓶颈 [3] “通信墙”的技术原理与“超节点”的核心指标 - 传统集群“存算分离”与“节点互联”导致数据访问延迟：GPU间数据访问需经历数据搬移、协议封装、网络传输、解包重组、数据写入五步骤，存在几毫秒延迟 [6][7][8][9][10] - 大模型训练中高频次芯片间同步使此延迟问题放大，严重影响效率 [10] - 业界提出“超节点”概念，并规定三大硬性指标：大带宽、低时延、内存统一编址 [10] - “内存统一编址”是核心：旨在构建全局唯一虚拟地址空间，使集群内所有芯片内存资源如同一张地图，消除“序列化与反序列化”开销，从而打破通信墙 [12] 实现“内存统一编址”的技术挑战 - 实现难点在于“通信语义”的代际差，涉及通信协议、数据所有权和访问方式 [13] - 两种主流通信方式对比：面向分布式协作的“消息语义”（如寄快递）存在打包、拆包延迟和CPU开销；面向并行计算的“内存语义”（如从书架上拿书）效率更高 [15][16] - TCP/IP、InfiniBand、RoCE v2等协议支持消息语义，是通信墙的直接诱因；而灵衢、NVLink等协议已支持内存语义 [16] - 实现内存语义的皇冠明珠是“缓存一致性”，需确保所有计算单元看到的内存信息同步 [16] - 实现内存语义需满足两个条件：支持内存地址传输的通信协议与缓存一致性协议；以及充当“翻译官”的交换芯片，以整合全局地址空间 [16][17] - “伪超节点”多采用PCIe+RoCE协议：RoCE跨服访问仍需RDMA，不支持统一内存语义与硬件级缓存一致性；PCIe单lane理论带宽64GB/s，比超节点要求低一个数量级，导致无法实现全局内存池化与内存语义访问 [19] “超节点”与“内存统一编址”的应用价值 - **模型训练**：解决HBM显存瓶颈。传统“Swap to CPU”方式因PCIe带宽低且需CPU参与，数据搬运时间可能长于计算时间 [21]。真正超节点架构下，CPU内存与NPU显存同址，可采用“以存代算”策略，将数据offload至CPU内存并按需快速拉回，使NPU利用率提升10%以上 [23] - **模型推理**：实现KV Cache全局池化与Prefix Cache复用。传统集群KV Cache绑定单卡显存，无法跨节点借用 [24]。内存统一编址后，固定System Prompt只需全局存储一份，支持“一存多取”。PreFix Cache命中率100%时，集群吞吐性能可提升3倍 [26] - **推荐系统**：优化超大规模Embedding表访问。传统RoCE等“寄快递”方式处理小包时，打包拆包开销大，导致门铃效应与高延迟 [28]。利用内存统一编址与硬件级内存传输引擎，计算单元可直接读取远端内存，实现请求流水线化，极大降低通信延迟，提升端到端推荐效率 [30] - 三大能力（大带宽、低时延、内存统一编址）协同，方能使集群像一台计算机一样工作，成为大模型训练与推理的完美基础设施 [30] 行业竞争格局与发展方向 - AI基础设施竞争已从硬件堆砌上升至体系结构竞争 [31] - “内存统一编址”是通往下一代计算范式的关键，是实现“One NPU/GPU”能力、打破物理服务器围墙的核心 [31] - 仅停留在“服务器暴力堆叠”的产品将难以适应AGI时代的算力需求 [31]

超2300倍认购！壁仞科技IPO引爆港股，创一年来散户申购纪录

格隆汇· 2026-01-01 12:08

IPO发行与市场反响 - 公司于12月30日确定IPO发行价为每股19.60港元，所得款项总额约55.83亿港元 [1] - 香港公开发售部分吸引47.1万人认购，是过去一年港股市场中散户认购人数最多的新股 [1] - 此次IPO是香港上市规则18C章节实施以来募资规模最大的项目，公司将于2026年1月2日挂牌，成为2026年港股首只上市新股 [1] 募集资金用途规划 - 上市募集资金净额中约85%将用于研发投入，重点推进下一代产品迭代与技术创新 [1] - 约5%的募资净额将用于商业化拓展 [1] - 约10%的募资净额将用作营运资金及一般公司用途 [1] 产品管线与技术路线图 - 下一代旗舰芯片BR20X计划于2026年商业化上市，其单卡运算能力、内存容量、互连带宽均实现大幅升级 [1] - BR20X芯片将增强对FP8、FP4等更广泛数据格式的原生支持，以提升大模型训练与推理效率 [1] - 用于云训练及推理的BR30X及用于边缘推理的BR31X产品已进入初步研发阶段，预计2028年上市 [1]