Workflow
Nvidia Dynamo
icon
搜索文档
Nebius Stock Soars 57% in a Month: Time to Hold or Book Profits?
ZACKS· 2025-06-05 21:51
Key Takeaways NBIS surged 57% in a month, driven by AI demand and stronger global infrastructure plans. Q1 revenues grew 385% year over year; April ARR hit $310M with 2025 guidance set at $750M-$1B. Nebius deepened ties with NVIDIA and expanded globally, but still projects negative adjusted EBITDA for 2025.Nebius Group N.V. (NBIS) shares have gained 57.3% over the past month, outperforming the Zacks Computer & Technology sector and the Zacks Internet Software Services industry’s growth of 10.1% and 10.6%, ...
英伟达发布一季度财报,华为尊界S800全球首发
国投证券· 2025-06-02 21:32
报告行业投资评级 - 领先大市,维持评级 [7] 报告的核心观点 - 英伟达一季度财报表现良好,营收和净利润同比增长,新财年Q2营收有预期但受出口限制有损失,2026财年第一季度Blackwell芯片全面投产 [1] - 华为尊界S800全球首发,加入多种技术,瞄准豪华车市场制高点,向国际豪华车市场发起挑战 [3] - 电子行业本周涨幅1.29%,不同子版块PE和PE百分位有差异,投资建议关注英伟达产业链、存储产业、消费电子/AI终端产业链相关公司 [4][11] 根据相关目录分别进行总结 本周新闻一览 - 半导体领域,长飞先进半导体申请专利可提高半导体器件迁移率,国际团队合成二维混合材料石墨烯可用于量子器件等 [16] - AI领域,英伟达将为中国市场推基于Blackwell架构芯片,天津发布人工智能行动方案,德国电信等合作建AI数据处理中心 [16] - SiC领域,基本半导体递表港交所IPO,长飞先进武汉基地投产,碳化硅成新能源汽车行业“新宠” [16] - 汽车电子领域,特斯拉在欧洲销量下滑,上汽集团和三菱汽车注册量增长,上海峰梅动力系统有限公司成立 [17] - 消费电子领域,雷鸟X3 Pro AR眼镜发布,存储芯片市场迎来涨价潮 [17] 行业数据跟踪 - 半导体方面,小米推出自研3纳米旗舰处理器“玄戒O1”及4G手表芯片“玄戒T1”,性能与功耗优异,市场反响热烈 [18] - SiC方面,基本半导体冲击港交所IPO,是行业领先企业,产品组合全面,服务多领域 [20] - 消费电子方面,雷鸟X3 Pro AR眼镜搭载新一代光引擎,实现全彩输出,佩戴体验好 [22] 本周行情回顾 - 涨跌幅方面,全行业中电子行业排名13/31,指数上涨1.29%;电子行业中汽车跌幅最大,环保涨幅最大;电子标的涨幅前三为远望谷、商络电子、天津普林,跌幅前三为太龙股份、福立旺、茂莱光学 [29][32][34] - PE方面,电子指数PE为49.42倍,10年PE百分位为69.29%,不同子版块PE和PE百分位不同 [37][44] 本周新股 - 报告给出本周IPO审核状态更新表格,但未填写具体内容 [50]
黄仁勋称,今年GTC是“AI超级碗”,但人人都能赢
汽车商业评论· 2025-03-19 23:46
撰 文 / 钱亚光 设 计 / 赵昊然 此次GTC大会上,黄仁勋继续表达对算力需求增长前景的看好。虽然大型语言模型能提供基础知 识,但推理模型能给出更复杂、更具分析性的回答。黄仁勋表示,借助该公司新推出的开源软件 Nvidia Dynamo和Blackwell芯片,将使DeepSeek R1的运行速度提高30倍。 他在主题演讲中,强调了英伟达系统所支持的人工智能应用的广度。他详细阐述了英伟达在自动驾 驶汽车、更优无线网络和先进机器人技术开发方面的贡献,并公布了公司未来两年的产品路线图。 他说,来自四大云服务提供商对GPU的需求正在飙升,并补充说,他预计英伟达的数据中心基础设 施收入到2028年将达到1万亿美元。 3月19日晚间,身着标志性的黑色皮装的英伟达首席执行官黄仁勋(Jensen Huang)在英伟达GTC大 会上占据了中心位置。 此次活动吸引了超过25000人来到美国加州圣何塞SAP中心,黄仁勋在主题演讲开始时向观众抛出 印有"AI 超级碗大赛"字样的T恤,并宣布今年的GTC(全球人工智能大会)为"AI 超级碗"大赛。 "去年我们在这里办GTC,被描述为'AI的摇滚音乐节'(AI Woodstock ...
黄仁勋没有告诉我们的细节
半导体芯闻· 2025-03-19 18:34
来源:内容编译自semianalysis,谢谢。 AI 模型的进展速度大大加快,在过去六个月中,模型的改进速度比前六个月更快。这一趋势将持续下去,因为三个扩展定律叠加在一起并协同工 作:训练前扩展、训练后扩展和推理时间扩展。 今年的 GTC 致力于解决新的扩展范式。 Claude 3.7 展示了软件工程的惊人性能。Deepseek v3 表明上一代模型功能的成本正在大幅下降,从而推动了进一步的采用。OpenAI 的 o1 和 o3 模型表明,更长的推理时间和搜索意味着更好的答案。就像训练前定律的早期一样,在训练后添加更多计算以进行这些模型的计算是没有限制的。 今年的 GTC 专注于实现智能和tokens的爆炸式增长。Nvidia 专注于将推理成本提高 35 倍,以实现模型的训练和部署。 去年的口号是"买得越多,省得越多",但今年的口号是"省得越多,买得越多"。Nvidia在硬件和软件方面的路线图中提供的推理效率解锁了推理和 代理,以经济高效的方式部署模型和其他转型企业应用程序,从而实现广泛的扩散和部署——这是杰文斯悖论的经典例子。或者用 Jensen 的话来 说:"买得越多,赚得越多"。 市场对此感到担忧。人 ...
深度|SemiAnalysis万字解析英伟达GTC 2025:为推理而生,从硅片到系统再到软件的推理优化,买得越多,赚得越多
Z Finance· 2025-03-19 11:41
文章核心观点 - AI计算竞赛中效率提升成影响市场格局关键变量,Nvidia硬件进步和软件优化推动推理成本下降,虽引发市场对AI硬件“供过于求”担忧,但符合“杰文斯悖论”,计算力普及将催生更多应用推高AI产业规模,Nvidia重新定义GPU计算经济学并开创行业标准 [1] AI模型进展与市场担忧 - AI模型进展速度加快,三个扩展定律叠加协同工作,今年GTC致力于解决新扩展范式,Nvidia专注提高推理成本以实现模型训练和部署,口号从“买得越多,省得越多”变为“省得越多,买得越多” [4] - 市场担忧软件优化和硬件改进致成本过高使AI硬件需求下降、市场供过于求,但随着智能价格下降和能力提升,对智能需求将无限增长,Nvidia提供数据支持杰文斯悖论 [5][6] 詹森数学规则 - 第一条规则是Nvidia总体FLOP以2:4稀疏度与密集FLOP表示,如H100的FP16的989.4 TFLOP被引用为1979.8 TFLOP [10] - 第二条规则是带宽以双向方式引用,如NVLink5传输和接收速度均为900GB/s,被引用为1.8TB/s [10] - 第三条规则是GPU数量根据封装中GPU芯片数量而非封装数量计算,从Rubin开始采用此命名法 [11] GPU和系统路线图 布莱克韦尔Ultra B300 - B300以GPU形式出售,位于可装入口袋的SXM模块上,带Grace CPU和可装入口袋的BGA,与B200相比,FP4 FLOP密度高出50%以上,内存容量升级到每包288GB,带宽仍为8 TB/s [16] - B300 HGX版本现称B300 NVL16,将取代B200 HGX外形尺寸,采用16个封装和基板上的GPU芯片,封装技术采用CoWoS - L,16个GPU通过NVLink协议通信,不具备Astera Labs的重定时器,部分超大规模计算厂商将选PCIe交换机,还将引入CX - 8 NIC,网络速度提高一倍 [17][18] Rubin规格 - Rubin在台积电3nm上配备两个光罩大小计算芯片,两侧有I/O模块,提供50 PFLOP密集FP4计算能力,比B300一代提升三倍多,通过I/O芯片释放空间、采用3nm工艺、提高TDP和架构扩展等实现 [21] - Rubin再次使用Oberon机架架构,与Vera CPU配对,新机架有72个GPU封装但命名为VR200 NVL144,含144个计算芯片,Nvidia HBM容量保持288GB升级到HBM4,带宽达13TB/s,采用6代NVLink速度翻倍,NVSwitch ASIC聚合带宽翻倍 [24][25][26] Rubin Ultra规格 - Rubin Ultra性能提升显著,HBM堆栈从8个跃升至16个,计算面积和能力翻倍达100 PFLOP密集FP4,HBM容量达1024GB,系统有365 TB快速内存/第二层LPDDR,将引入Kyber Rack架构 [30][31][32] Kyber Rack架构 - 关键新功能是将机架旋转90度增加密度,NVL576配置下每个计算盒有一个R300 GPU和一个Vera CPU,PCB板背板取代铜缆背板,可能有VR300 NVL1,152变体,还将推出7代NVSwitch [33][35] 改进型指数硬件单元 - GPU中GEMM在张量核心执行,专注元素级指数计算的MUFU单元性能提升慢,在bf16 Hopper和FP8 Hopper上计算softmax存在问题,Blackwell Ultra重新设计SM并添加指令,MUFU单元性能提高2.5倍 [39][40][41] 推理堆栈和Dynamo - 去年GTC讨论GB200 NVL72比H200推理吞吐量提高15倍,今年Nvidia在硬件和软件领域加速推理吞吐量提升,Blackwell Ultra GB300 NVL72和Rubin一代网络升级提高推理吞吐量,软件领域推出Nvidia Dynamo [43][46] - Dynamo带来智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL、NVMe KV - Cache卸载管理器等新功能,全面提升推理速度,使DeepSeek创新民主化,有助于个人复制和更高交互性部署 [47][49][60] AI总拥有成本 - Blackwell性能比Hopper高出68倍,成本降低87%,Rubin预计性能是Hopper的900倍,成本降低99.97%,Nvidia追求进步,建议生态系统优先部署下一代系统 [61][63] - 研究的H100租赁价格预测框架准确率达98%,结合多方面估计构建预测价格曲线 [64] CPO插入 - Nvidia宣布首款共封装光学(CPO)解决方案,部署在横向扩展交换机中,CPO降低功耗,可使网络扁平化一层,400k* GB200 NVL72部署从三层网络转两层网络可节省12%总集群功耗 [69][70] - 推出多款基于CPO的交换机,Quantum X - 800 3400的CPO版本2025年下半年推出,Spectrum - X交换机2026年下半年推出,长远看CPO可增加GPU扩展网络基数和聚合带宽 [73][75] 行业地位 - 尽管亚马逊Trainium芯片定价低,但Nvidia技术领先,新架构、机架结构、算法改进和CPO使其与竞争对手拉开差距,预计将继续领先 [76]
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
创业邦· 2025-03-19 11:17
文章核心观点 英伟达在GTC大会展示过去一年进展,发布新产品路线图,强调Scaling Law未撞墙,未来数据中心建设规模将达万亿美元,还推出开源推理软件和通用机器人模型,有望在AI和机器人领域持续引领发展[1][23][27] 分组1:大会亮点与行业趋势 - 英伟达老黄在GTC大会介绍过去一年进展,称今年GTC是AI的超级碗,每个人都是赢家 [2] - Blackwell全面投产,因AI拐点至,训练推理AI/智能体系统对计算量需求大增 [3] - 英伟达预言未来有工厂的公司将有实体工厂和AI工厂,CUDA核心及算力将引爆行业变革 [4] - 通用计算到尽头,行业正从通用计算机转向加速器和GPU上运行的机器学习软件,计算机成为生成token的工具 [28] - 加速计算趋势无法阻挡,AI将进入各行业,英伟达CUDA - X库为科学领域提供加速框架 [29] 分组2:产品路线图 - AI芯片每年一更,下一代Rubin明年亮相,英伟达构建云上、企业和机器人AI基础设施 [5][8] - 今年下半年将问世的Blackwell Ultra提升训练和测试时推理能力,显存从192GB提升到288GB,GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍 [6][7] - 2026年下半年预计发布Vera Rubin,推理时每秒50千万亿次浮点运算,比Blackwell速度高出一倍多,显存升级为HBM4,带宽从8TB/s提高到13TB/s,扩展NVLink吞吐量提升到260TB/s,机架间CX9链路达28.8TB/s [9][10] - 2027年下半年预计推出Rubin Ultra版本,FP4精度推理性能达15 ExaFLOPS,FP8精度训练性能为5 ExaFLOPS,相比GB300 NVL72性能有14倍提升,配备HBM4e内存,带宽为4.6 PB/s,支持NVLink 7,带宽为1.5 PB/s,较上一代提升12倍,机架支持CX9,带宽达115.2 TB/s [11] - 2028年将上市Feynman,命名致敬美国理论物理学家Richard Feynman [17] 分组3:桌面级产品 - 推出Blackwell RTX PRO工作站和服务器系列,包括数据中心、桌面和笔记本GPU,为开发者等提供AI支持,RTX PRO 6000 Blackwell吞吐量高达1.5倍,第五代Tensor Core每秒4000万亿次AI运算,第四代RT Core性能提升2倍 [19] - 带来两款由Blackwell驱动的DGX个人桌面AI超级计算机DGX Spark和DGX Station,DGX Spark是最小的AI超级计算机,配备128GB内存,核心是GB10 Grace Blackwell超级芯片,每秒1000万亿次AI计算能力;DGX Station将数据中心级性能带到桌面,采用GB300 Grace Blackwell Ultra桌面超级芯片,配备784GB统一内存 [20][22] 分组4:Scaling Law与数据中心 - 老黄称Scaling Law没撞墙,推理计算量需求大增,数据可通过强化学习和合成数据获取,AI处于转折点 [25][26] - 2024年全球TOP 4云服务商买进130万块Hopper架构芯片,预计2028年数据中心建设规模达一万亿美元 [27] 分组5:架构与扩展 - 英伟达通过网络InfiniBand和Spectrum X实现scale up,Spectrum X具备低延迟和拥塞控制特性,成功扩展最大单GPU集群 [14] - 官宣首个共封装硅光子系统,每秒1.6T的CPO,基于「微环谐振器调制器」技术,用台积电工艺构建,可扩展至数十万甚至百万GPU规模 [15][16] - HGX系统架构解决纵向扩展问题,包含8个GPU,通过MVLink 8连接到CPU架,再通过PCI Express连接,用InfiniBand连接多个设备,NVLink交换机让GPU全带宽通信,液冷压缩计算节点,实现一个机架Exaflops级超算 [31][32][33] 分组6:推理Scaling问题与解决 - 推理Scaling是「终极计算」问题,推理中响应时间和吞吐量存在矛盾,需最大化生成token曲线下方面积,还需巨大带宽和浮点运算能力 [36] - 传统LLM用不到500个token快速回答问题但结果错误,推理模型需超8000个token推理简单问题,计算量增加150倍,万亿级参数模型需通过管线、张量和专家并行组合解决,NVlink可实现规模终极Scaling [37][38][39] 分组7:NVIDIA Dynamo - 发布开源推理软件NVIDIA Dynamo,被称为「AI工厂的操作系统」,能协调加速数千个GPU间推理通信,分配LLM处理和生成阶段到不同GPU,优化GPU资源利用 [41][42] - Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍,在GB200 NVL72集群上运行DeepSeek - R1模型时,每个GPU生成token数量提升超30倍,还能动态分配GPU、卸载推理数据降低成本 [42] - Dynamo完全开源,支持PyTorch、SGLang、NVIDIA TensorRT - LLM和vLLM [43] 分组8:性能对比与效益 - 新的Blackwell架构比Hopper强,能耗固定时性能提升25倍,推理模型上高40倍,用MVLink 8技术加速,引入4位浮点数优化,能效高的架构对未来数据中心重要 [44] - Blackwell扩展到MVLink 72加上Dynamo软件效果更好,能适应不同工作负载,老黄认为大型项目投资最新技术如Blackwell可避免落后,买得越多赚得越多 [45][46] 分组9:通用机器人模型 - 预计本世纪末世界劳动力短缺超5000万,通用机器人时代到来,具身智能遵循三大Scaling Law,数据短缺问题可由英伟达Omniverse和Cosmos解决 [48][49] - 官宣世界首个开源、完全可定制的通用人形机器人模型GROOT N1,采用「双系统架构」,慢思考系统推理规划行动,快思考系统转化为精确动作,可执行多步骤任务 [50][51][52] - 与DeepMind、迪士尼研究开发下一代开源的Newton物理引擎,让机器人精确处理复杂任务,以星球大战BDX机器人为灵感的Blue上台互动,老黄预言机器人领域将成最大产业 [54][55][56]