Workflow
黄仁勋没有告诉我们的细节
英伟达英伟达(US:NVDA) 半导体芯闻·2025-03-19 18:34

AI模型进展与扩展定律 - AI模型在过去六个月的改进速度显著加快,这一趋势将持续,主要得益于训练前扩展、训练后扩展和推理时间扩展三个扩展定律的协同作用[1] - Claude 3.7展示了卓越的软件工程性能,Deepseek v3大幅降低了上一代模型的成本,OpenAI的o1和o3模型表明更长的推理时间和搜索能带来更好的答案[3] - 行业正经历智能和tokens的爆炸式增长,Nvidia专注于将推理成本提高35倍以实现模型的经济高效部署[3] Nvidia硬件路线图 - Blackwell Ultra B300的FP4 FLOP密度比B200高出50%以上,内存容量升级到每包288GB HBM3E,但带宽保持8TB/s[11] - B300 NVL16将取代B200 HGX外形尺寸,采用16个封装和基板上的GPU芯片,使用CoWoS-L封装技术[12] - B300引入CX-8 NIC,网络速度提高一倍,达到InfiniBand 800G的总吞吐量[13] - Rubin将提供50 PFLOP密集FP4计算能力,比B300提升三倍多,采用3nm工艺和1800W TDP[16][17] - Rubin Ultra将计算能力提升至100 PFLOP密集FP4,HBM容量达到1024GB,是普通Rubin的3.5倍以上[24] Nvidia软件与系统创新 - Nvidia推出Dynamo AI引擎堆栈,简化部署和扩展推理,可能颠覆VLLM和SGLang[39] - Dynamo包含智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL传输引擎和NVMe KV-Cache卸载管理器等关键功能[40][43][44][46][48] - Dynamo使DeepSeek创新民主化,允许社区部署高效的推理系统,特别有助于个人复制和更高交互性的部署[51][52] 网络与通信技术 - Nvidia推出首款共封装光学(CPO)解决方案,显著降低功耗,允许更大的交换机基数和更扁平的网络拓扑[57][58] - 对于400k GB200 NVL72部署,从基于DSP收发器的三层网络转移到基于CPO的两层网络可节省高达12%的总集群功耗[59] - Nvidia推出多款基于CPO的交换机,包括Quantum X-800 3400和Spectrum-X交换机,将于2025和2026年下半年推出[59] 行业影响与趋势 - 随着智能价格下降和能力前沿推进,对智能的需求将无限增长,AI对生活的实际影响仍处于起步阶段[4] - Nvidia通过Blackwell和Rubin等创新持续领先,Blackwell性能比Hopper高出68倍,成本降低87%,Rubin预计性能提升900倍,成本降低99.97%[53][54] - 快速改进的通用平台如Nvidia GPU难以被ASIC等替代方案击败,公司正重建其在计算领域的领导地位[61]