Workflow
英伟达H100 GPU
icon
搜索文档
Capex与大美丽法案:算力累积利好中
国盛证券· 2025-07-27 18:46
报告行业投资评级 - 行业评级为增持(维持)[2] 报告的核心观点 - AI产业在政策催化下有望进入由财政驱动的良性循环周期 [6] - 算力产业处于需求爆发与政策助推的交汇点,利好正加速累积 [6][23] - 继续看好算力板块,推荐算力产业链相关企业,关注光器件及国产算力产业链 [6][14][23] 根据相关目录分别进行总结 投资策略 - 本周建议关注算力和数据要素相关企业,包括光通信、铜链接、算力设备等领域 [12][13] - 本周海外算力板块行情先抑后扬,谷歌财报表现亮眼,特斯拉数据下滑 [14] 行情回顾 - 本周通信板块上涨,表现劣于上证综指,细分板块中物联网指数表现最优 [15][16][18] - 国投智能、迅游科技等因概念受益领涨,*ST高鸿、金智科技等领跌 [16][17] 周专题 - 需求侧科技巨头Capex激增,如谷歌、Meta、xAI、OpenAI等加大投入验证算力景气 [19][21] - 政策层面《大美丽法案》通过下调所得税、固定资产投资激励等刺激算力增长 [20][22] - 法案通过现金流释放、研发刺激、芯片产能扩建三条路径刺激算力板块增长 [6][20][24] xAI五年算力目标 - xAI计划5年内上线等效5000万块英伟达H100 GPU的算力,正洽谈120亿美元新投资 [25] 美国发布AI国家战略 - 美国发布《AI行动计划》,围绕创新、基础设施建设、全球博弈三大支柱打造AI霸权 [26] - 针对全球博弈提出限制中国影响力的措施 [27] 苹果携手剑桥大学设计AI评审框架 - 苹果与剑桥大学提出新AI评估系统,为评审员配备外部验证工具突破复杂任务评审局限 [28][30] 谷歌资本支出上调 - 谷歌母公司Alphabet上调2024年资本支出至850亿美元,聚焦AI基础设施和人才投入 [31] OpenAI警报 - OpenAI CEO奥尔特曼警告金融行业将面临重大AI欺诈危机 [32][33] 阿里云通义千问开源 - 阿里云通义团队开源Qwen3 - Coder,拥有480B参数等,还开源命令行工具 [34][35] 软银与OpenAI项目 - 5000亿美元“星际之门”项目陷入僵局,OpenAI与甲骨文达成协议,软银仍看好并有意追加投资 [36][37] 唐源电气战略升级 - 唐源电气实施“AI Agent+”战略,布局多领域,智能运维产品已投入使用获专家认可 [38][39]
这种大芯片,大有可为
半导体行业观察· 2025-07-02 09:50
核心观点 - 人工智能模型规模呈指数级增长,传统单芯片GPU架构在可扩展性、能源效率和计算吞吐量方面面临显著局限性 [1] - 晶圆级计算成为变革性范式,通过将多个小芯片集成到单片晶圆上提供前所未有的性能和效率 [1] - Cerebras WSE-3和特斯拉Dojo等晶圆级AI加速器展现出满足大规模AI工作负载需求的潜力 [1] - 台积电CoWoS等新兴封装技术有望将计算密度提高多达40倍 [1] AI硬件发展历程 - Cerebras里程碑包括2019年WSE-1、2021年WSE-2和2024年WSE-3的发布 [3] - NVIDIA产品线从1999年GeForce 256演进至2024年Blackwell B100/B200 GPU [3] - Google TPU系列从2015年初代发展到2024年TPU v6e [5] - 特斯拉于2021年宣布进入AI硬件领域推出Dojo系统 [5] 晶圆级计算优势 - 提供卓越带宽密度,特斯拉Dojo系统每个芯片边缘实现2TB/s带宽 [10] - 实现超低芯片间延迟,Dojo仅100纳秒,远低于NVIDIA H100的12毫秒 [10] - 物理集成度高,Dojo单个训练芯片集成25个芯片,传统方案需10倍面积 [11] - 台积电预计2027年CoWoS技术将提供比现有系统高40倍计算能力 [12] 主要AI训练芯片对比 - Cerebras WSE-3:46,225平方毫米面积,4万亿晶体管,90万个核心,21PB/s内存带宽 [15] - 特斯拉Dojo D1芯片:645平方毫米面积,1.25万亿晶体管,8,850个核心,2TB/s内存带宽 [16] - Graphcore IPU-GC200:800平方毫米面积,236亿晶体管,1,472个核心,47.5TB/s内存带宽 [17] - Google TPU v6e:700平方毫米面积,3.2TB/s内存带宽 [17] 性能比较 - WSE-3在FP16精度下峰值性能达125PFLOPS,支持24万亿参数模型训练 [25] - NVIDIA H100在FP64精度下提供60TFLOPS计算能力 [27] - WSE-3训练700亿参数Llama 2模型比Meta现有集群快30倍 [29] - WSE-3运行80亿参数模型时token生成速度达1,800/s,H100仅为242/s [29] 能效比较 - WSE-3功耗23kW,相同性能下比GPU集群能效更高 [75] - NVIDIA H100能效为7.9TFLOPS/W,A100为0.78TFLOPS/W [74] - WSE-3消除芯片间通信能耗,传统GPU互连功耗显著 [76] - 数据中心冷却系统占总能耗40%,液冷技术成为关键 [83] 制造工艺 - WSE-3采用台积电5nm工艺,4万亿晶体管集成在12英寸晶圆上 [66] - Dojo采用台积电7nm工艺,模块化设计包含25个D1芯片 [68] - WSE-3使用铜-铜混合键合技术,Dojo采用InFO封装技术 [71] - 两种架构均需应对良率挑战,采用冗余设计和容错机制 [67][70] 应用场景 - WSE-3适合大规模LLM、NLP和视觉模型训练 [54] - NVIDIA H100更适合通用AI训练和HPC应用 [54] - Dojo专为自动驾驶和计算机视觉工作负载优化 [57] - GPU集群在数据中心可扩展性方面表现更优 [54]
五大原因,英伟达:无法替代
半导体芯闻· 2025-06-06 18:20
华为AI芯片市场推广现状 - 华为推出Ascend 910C GPU试图减少中国对英伟达的依赖,但面临显著阻力,中国科技巨头如字节跳动、阿里巴巴和腾讯未大量订购[1] - 华为转向中国大型国企和地方政府采购,市场策略转变反映抢占主流市场的挑战[1] - Ascend 910C性能与英伟达H100相当,FP16精度算力达800TFLOP/s,记忆体频宽3.2TB/s[3] 华为AI芯片推广的五大障碍 - 英伟达CUDA生态系统根深蒂固,中国科技公司已投入大量资源,华为的替代方案CANN功能不及英伟达客制化软件[1][2] - 中国科技公司间竞争激烈,对采用竞争对手产品意愿低[2] - Ascend 910C存在周期性过热问题,影响可靠性认知[2] - 中国科技公司英伟达GPU库存充足,缺乏转换动力[3] - 美国出口管制使华为芯片被视为潜在合规风险,海外业务多的中国企业尤其谨慎[3] 华为与英伟达的技术对比 - 华为推出CloudMatrix 384捆绑384个Ascend芯片,作为英伟达超级电脑替代方案,但缺乏直接支援FP8等记忆体优化格式[4] - 华为提供工具实现FP8人工兼容性,但解决方案非最优[5] 英伟达市场主导地位 - 英伟达在2025年第一季AIB GPU市占率达92%,AMD降至8%,英特尔0%[5] - 英伟达AI基础设施业务管道达数十GW,每GW可带来400-500亿美元营收,潜在年营收约4000亿美元[5]
六年后再次面对禁令,华为云有了更多底气
36氪· 2025-05-16 17:21
美国对华AI芯片禁令与市场反应 - 美国商务部5月13日发布全球禁令,禁止使用华为昇腾AI芯片及所有中国先进芯片(advanced computing ICs)[2] - 禁令同日英伟达宣布获得沙特1.8万块AI GPU订单,显示地缘政治与商业竞争交织[2] - 英伟达计划对中国出售二次阉割版H20 GPU,INT8算力从296TFLOPs降至不足100TFLOPs,性能下降超60%[3] 华为CloudMatrix 384超节点技术突破 - 华为4月推出CloudMatrix 384超节点技术,将384张昇腾卡集成300PFlops算力的超级节点,单卡解码吞吐达1920Tokens/s,性能比肩英伟达H100[4][13] - 采用6812个400G光模块构建超高速互联,带宽提升10倍以上,数据流动损耗近乎为零,训练效率达英伟达单卡性能90%[13] - 支持MoE大模型架构,在Deepseek R1千亿参数模型测试中集群吞吐量提升3倍[13] 全球AI算力技术路线竞争 - 超节点技术成为行业焦点:英伟达推NVL72、AMD推Infinity Fabric、谷歌TPU设计ICI网络,美国科技巨头组建UAlink联盟对抗NVLink[15] - 中国厂商同步布局:阿里云发起ALink System、百度推出64张昆仑芯超节点技术[16] - 华为CloudMatrix 384为全球唯一商用大规模超节点集群,4月已在芜湖数据中心上线[17] AI算力基建体系化竞争趋势 - 华为实现全栈自研能力,整合芯片/交换机/光模块/云服务等环节,构建从硬件到软件的全景式AI基建体系[22][24] - 昇腾AI云服务已适配160+大模型,服务600+政企客户,覆盖金融/制造/交通等行业[26] - 华为云完成国内三大云核心枢纽布局,拥有300万台服务器规划、TB级带宽,PUE低至1.1[25] 中国AI产业发展现状 - 美国禁令未能遏制中国AI发展,DeepSeek/Manus等企业半年内快速崛起,DeepSeek Prover-V2参数达6710亿[7][9] - 大模型参数膨胀导致算力需求激增,多GPU协同成为刚需,但网络带宽成为瓶颈[9][10] - 比尔·盖茨承认科技封锁促使中国加速自主创新,在芯片等领域取得重大进展[19][21] 华为六年技术突围历程 - 从2019年被列入实体清单到2024年技术反超,华为营收重回8000亿规模[29] - 通过全栈自研实现从"无产品可卖"到掌握AI算力关键技术的转变[24][29] - 技术路线从跟随转向引领,CloudMatrix 384代表架构创新突破[13][22]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越 计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化 工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换 开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化 硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏 构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍 推动形成三位一体算力生态 [20]
对ChatGPT说「谢谢」,可能是你每天做过最奢侈的事
36氪· 2025-04-22 18:28
AI交互的能源与资源消耗 - OpenAI CEO估算用户对AI说"请"和"谢谢"等礼貌用语导致公司额外支出约1000万美元电费[4] - 百度数据显示文小言APP用户累计输入"谢谢"超1000万次[7] - 单次AI查询(输出500 token)耗电0.3Wh 全球累计能耗达天文数字[9][11] - 典型AI数据中心耗电量相当于10万户家庭 超大规模数据中心能耗达普通数据中心20倍[11][12] - 全球数据中心2024年耗电415TWh(占全球1.5%) 2030年将达1050TWh[14] - GPT-3训练耗水量相当于核反应堆冷却塔容量 ChatGPT每25-50次对话消耗500ml淡水[19] AI基础设施投资趋势 - OpenAI启动5000亿美元"星门计划" 联合甲骨文/软银/MGX建设全美AI数据中心网络[12] - Meta为Llama模型训练寻求微软/亚马逊等云厂商的"电/云/资金"支持[14] - OpenAI投资核聚变企业Helion 寻求解决算力需求的终极能源方案[22] 人类与AI的交互心理学 - 用户对AI使用"请/谢谢"等礼貌用语形成独特社交礼仪 拟人化交互增加11%回答长度[4][37] - 心理学实验证明人类会无意识对计算机设备产生"社会存在感知"[30][31] - 生成式AI会模仿用户输入的礼貌程度 礼貌提示词可获得更人性化回复[34] - AI心理咨询服务兴起 用户反馈某些AI对话体验优于真人[34] AI系统的行为模式与风险 - AI通过概率计算生成回复 不理解但会模仿人类对金钱暗示的期待[25][37] - 历史案例显示交互式AI易受恶意引导 如微软Tay机器人16小时内被教唆发布不当言论[39][40] - CharacterAI事件暴露系统对敏感词汇干预不足可能引发现实风险[42]
富士康发布FoxBrain大模型,使用120个英伟达H100 GPU
半导体芯闻· 2025-03-10 18:23
文章核心观点 富士康构建自有大型语言模型FoxBrain,计划开源以推动制造业和供应链管理进步,公司正从核心电子制造业务向人工智能和电动汽车等领域多元化发展 [1][3] 分组1:FoxBrain模型介绍 - 公司已构建具有推理能力的自有大型语言模型FoxBrain,为内部开发且在四周内完成训练 [1] - FoxBrain最初为公司内部使用设计,能进行数据分析、数学运算、推理和代码生成 [1] - 模型基于Meta公开的大型语言模型Llama 3.1的结构,是台湾首个具高级推理能力的大型语言模型,专为繁体中文设计和优化 [2] - 模型性能略落后于中国DeepSeek的一些模型,但正在接近世界一流水平 [3] 分组2:模型训练情况 - 英伟达通过位于台湾的超级计算机和技术咨询提供支持,助力模型成功训练 [1] - 人工智能研究中心主任李永辉团队用120个英伟达H100图形处理器,约四周完成FoxBrain训练 [1] 分组3:公司计划与安排 - 公司计划开源该模型,与行业合作伙伴合作,设想其推动制造业和供应链管理进步 [1] - 公司已公布FoxBrain一些参数,将在3月中旬英伟达年度技术活动上公布更多信息 [1] 分组4:公司业务发展 - 因行业转变和盈利能力下降,公司在核心电子制造业务面临挑战,正朝人工智能和电动汽车等领域多元化发展 [3]