Workflow
英伟达H100 GPU
icon
搜索文档
AI催生算力大变局,无锡给出“芯解法”
21世纪经济报道· 2025-09-06 22:08
国产大模型发展现状 - 2023年以来上百家国产大模型涌现 参数规模从几亿到上万亿 广泛应用于云计算 数据中心 边缘计算 消费电子 智能制造 智能驾驶 智能金融及智能教育等领域 [1] - AI已成为确定性赛道 算力投入是参与竞争的必要条件但非充分条件 需在芯片 算法 数据 生态 应用落地等多方面形成综合优势 [1] 算力需求与供给缺口 - 海外每天AI agent产生的token处理需求相当于260万亿TeraFLOPS算力 理论上需130万张英伟达H100 GPU 实际部署量可能达700万张 [2] - 每天需要20-30万片12寸晶圆 未来5年GPU需求预计增长100倍 中国所有晶圆厂总产能不足该需求1/10 [2] - 国内缺少真正有用的算力 需要统一调度 高效互联和稳定运行的大规模集群能力支撑大模型训练和推理 [2] 无锡算力建设进展 - 无锡城市智算云中心节点一期部署高性能智算卡超11000张 智算算力突破12000P 结合其他节点算力年内总规模达15000P [3] - 中心节点为摩尔线程 申威 太初等智算芯片提供验证环境 吸引银河通用 无问芯穹 羚数智能等AI企业落地 [3] 先进制程与封装技术 - AI应用推动对先进制程需求强劲 尽管摩尔定律降本效应消失 但AI芯片和高算力芯片仍蜂拥采用先进制程 [4][5] - 摩尔线程在无锡开展新一代AI SoC芯片研发 引入先进国产工艺 先进封装 先进存储及高速片间互联等技术 [5] - 无锡建成国内首家纳米级光刻胶中试线 产品涵盖EUV DUV及电子束光刻胶 可用于亚10纳米先进制程芯片 [5] 先进封装发展趋势 - 先进封装凭借小型化 高密度 低功耗 异构集成能力解决芯片带宽 功耗 集成密度三重瓶颈 [6] - 封装形态向Chiplet架构 2.5D中介层与3D堆叠等高集成方案迈进 围绕算力布局的封装占比可能从27%增至40%以上 [6] - 全球Chiplet市场规模预计从2023年31亿美元增至2033年1070亿美元 复合年增长率42.5% 消费电子领域占超26%份额 [7] 光互联技术变革 - AI智算中心光互联分Scale out和Scale up两类 前者用光模块互连 后者用铜缆互连 [7] - GPU性能提升需从铜线转向光互联 Scale up领域可能采用CPO技术 Scale out领域仍以光模块为主 [8] - CPO已有小批量应用 2025-2030年光模块仍有非常大增长 2030年CPO预计占20%份额 五年内CPO与光模块将共存 [8] - CPO面临热集中 无标准 不易维护 成本高 良率要求高 产业链不成熟等挑战 [9]
黄靖、郭皓宁:美国对华高科技竞争正转向市场控制
环球网资讯· 2025-08-13 06:42
美国政府与芯片企业的特殊协议 - 美国政府与英伟达和超威达成协议 两家企业同意将出口中国芯片收入的15%上缴美国政府以换取出口许可证[1] 美国政府对华技术封锁政策演变 - 拜登政府2022年8月签署《芯片与科学法》全面禁止高端芯片及半导体产品输入中国 包括对英伟达A100和H100系列GPU实施限制[2] - 2023年进一步限制美国公司先进半导体产品对华销售 并对日本与荷兰等盟友施压限制光刻机与芯片设备出口[2] - 出台"人工智能扩散规则"通过设定算力总量门槛限制中国通过第三国或云平台间接获取美国产品[2] 技术封锁政策的影响 - 中国本土AI大模型迅速崛起 深度求索发布DeepSeek-R1大模型通过优化算法和硬件配置降低计算需求和使用门槛[3] - 美国科技企业认为出口管制政策将市场拱手让给中国 迫使全球市场转向其他技术替代方案 削弱美国企业市场份额和竞争力[3] - 科技精英包括英伟达黄仁勋、特斯拉马斯克等多次公开表示美国应通过占领市场来主导技术标准和规则制定[3] 美国科技竞争战略调整 - 美国政府叫停原定5月15日生效的《人工智能扩散暂行最终规则》称拜登时期措施将扼杀美国创新[4] - 美国商务部发布指导意见警告美国AI芯片被用于训练中国AI模型的潜在后果[4] - 首次在官方文件中点名禁止购买使用华为昇腾系列芯片 违反者将受处罚[4] 美国在中东的AI战略布局 - 特朗普5月中东之行与海湾国家达成AI芯片供应协议 包括向沙特Humain公司出售1.8万枚英伟达Blackwell高端芯片[4][5] - 计划让阿联酋每年最多进口50万枚英伟达H100 GPU分配给G42等AI企业[5] - 战略意图是通过绑定中东国家资金限制对中国技术投资 同时输出技术与云平台服务保持AI产业链控制力[5] 美国AI行动计划内容 - 特朗普政府发布20页"AI行动计划"围绕基础设施、创新和全球影响三大支柱展开[6] - 基础设施方面改革许可规则简化新建数据中心流程 专注于电网现代化[6] - 创新方面强调移除繁文缛节 阻止各州监管AI[6] - 全球影响方面强调向全球推广美国AI以防止其他国家依赖中国AI模型或芯片[6] AI投资与项目进展 - 华盛顿宣布来自谷歌、Coreweave和黑石集团等公司总计920亿美元的能源和数据中心投资[7] - 白宫1月宣布启动5000亿美元"星际之门"项目 但启动6个月后仍未落地任何项目 已调降目标计划年底前只建造一座小型数据中心[7] 科技竞争战略转向 - 美国科技竞争策略由技术封锁转向竞争市场控制 在风险可控范围内推进美国产品和技术占领市场[8] - 战略思路强调利用美国现有技术优势在全球新兴市场优先布局 通过提供芯片、模型、算力服务和开发框架形成依赖[8] - 未来科技竞争取决于谁能率先将产品推向市场并制定技术标准、市场规则和主导产业布局[8]
Capex与大美丽法案:算力累积利好中
国盛证券· 2025-07-27 18:46
报告行业投资评级 - 行业评级为增持(维持)[2] 报告的核心观点 - AI产业在政策催化下有望进入由财政驱动的良性循环周期 [6] - 算力产业处于需求爆发与政策助推的交汇点,利好正加速累积 [6][23] - 继续看好算力板块,推荐算力产业链相关企业,关注光器件及国产算力产业链 [6][14][23] 根据相关目录分别进行总结 投资策略 - 本周建议关注算力和数据要素相关企业,包括光通信、铜链接、算力设备等领域 [12][13] - 本周海外算力板块行情先抑后扬,谷歌财报表现亮眼,特斯拉数据下滑 [14] 行情回顾 - 本周通信板块上涨,表现劣于上证综指,细分板块中物联网指数表现最优 [15][16][18] - 国投智能、迅游科技等因概念受益领涨,*ST高鸿、金智科技等领跌 [16][17] 周专题 - 需求侧科技巨头Capex激增,如谷歌、Meta、xAI、OpenAI等加大投入验证算力景气 [19][21] - 政策层面《大美丽法案》通过下调所得税、固定资产投资激励等刺激算力增长 [20][22] - 法案通过现金流释放、研发刺激、芯片产能扩建三条路径刺激算力板块增长 [6][20][24] xAI五年算力目标 - xAI计划5年内上线等效5000万块英伟达H100 GPU的算力,正洽谈120亿美元新投资 [25] 美国发布AI国家战略 - 美国发布《AI行动计划》,围绕创新、基础设施建设、全球博弈三大支柱打造AI霸权 [26] - 针对全球博弈提出限制中国影响力的措施 [27] 苹果携手剑桥大学设计AI评审框架 - 苹果与剑桥大学提出新AI评估系统,为评审员配备外部验证工具突破复杂任务评审局限 [28][30] 谷歌资本支出上调 - 谷歌母公司Alphabet上调2024年资本支出至850亿美元,聚焦AI基础设施和人才投入 [31] OpenAI警报 - OpenAI CEO奥尔特曼警告金融行业将面临重大AI欺诈危机 [32][33] 阿里云通义千问开源 - 阿里云通义团队开源Qwen3 - Coder,拥有480B参数等,还开源命令行工具 [34][35] 软银与OpenAI项目 - 5000亿美元“星际之门”项目陷入僵局,OpenAI与甲骨文达成协议,软银仍看好并有意追加投资 [36][37] 唐源电气战略升级 - 唐源电气实施“AI Agent+”战略,布局多领域,智能运维产品已投入使用获专家认可 [38][39]
这种大芯片,大有可为
半导体行业观察· 2025-07-02 09:50
核心观点 - 人工智能模型规模呈指数级增长,传统单芯片GPU架构在可扩展性、能源效率和计算吞吐量方面面临显著局限性 [1] - 晶圆级计算成为变革性范式,通过将多个小芯片集成到单片晶圆上提供前所未有的性能和效率 [1] - Cerebras WSE-3和特斯拉Dojo等晶圆级AI加速器展现出满足大规模AI工作负载需求的潜力 [1] - 台积电CoWoS等新兴封装技术有望将计算密度提高多达40倍 [1] AI硬件发展历程 - Cerebras里程碑包括2019年WSE-1、2021年WSE-2和2024年WSE-3的发布 [3] - NVIDIA产品线从1999年GeForce 256演进至2024年Blackwell B100/B200 GPU [3] - Google TPU系列从2015年初代发展到2024年TPU v6e [5] - 特斯拉于2021年宣布进入AI硬件领域推出Dojo系统 [5] 晶圆级计算优势 - 提供卓越带宽密度,特斯拉Dojo系统每个芯片边缘实现2TB/s带宽 [10] - 实现超低芯片间延迟,Dojo仅100纳秒,远低于NVIDIA H100的12毫秒 [10] - 物理集成度高,Dojo单个训练芯片集成25个芯片,传统方案需10倍面积 [11] - 台积电预计2027年CoWoS技术将提供比现有系统高40倍计算能力 [12] 主要AI训练芯片对比 - Cerebras WSE-3:46,225平方毫米面积,4万亿晶体管,90万个核心,21PB/s内存带宽 [15] - 特斯拉Dojo D1芯片:645平方毫米面积,1.25万亿晶体管,8,850个核心,2TB/s内存带宽 [16] - Graphcore IPU-GC200:800平方毫米面积,236亿晶体管,1,472个核心,47.5TB/s内存带宽 [17] - Google TPU v6e:700平方毫米面积,3.2TB/s内存带宽 [17] 性能比较 - WSE-3在FP16精度下峰值性能达125PFLOPS,支持24万亿参数模型训练 [25] - NVIDIA H100在FP64精度下提供60TFLOPS计算能力 [27] - WSE-3训练700亿参数Llama 2模型比Meta现有集群快30倍 [29] - WSE-3运行80亿参数模型时token生成速度达1,800/s,H100仅为242/s [29] 能效比较 - WSE-3功耗23kW,相同性能下比GPU集群能效更高 [75] - NVIDIA H100能效为7.9TFLOPS/W,A100为0.78TFLOPS/W [74] - WSE-3消除芯片间通信能耗,传统GPU互连功耗显著 [76] - 数据中心冷却系统占总能耗40%,液冷技术成为关键 [83] 制造工艺 - WSE-3采用台积电5nm工艺,4万亿晶体管集成在12英寸晶圆上 [66] - Dojo采用台积电7nm工艺,模块化设计包含25个D1芯片 [68] - WSE-3使用铜-铜混合键合技术,Dojo采用InFO封装技术 [71] - 两种架构均需应对良率挑战,采用冗余设计和容错机制 [67][70] 应用场景 - WSE-3适合大规模LLM、NLP和视觉模型训练 [54] - NVIDIA H100更适合通用AI训练和HPC应用 [54] - Dojo专为自动驾驶和计算机视觉工作负载优化 [57] - GPU集群在数据中心可扩展性方面表现更优 [54]
五大原因,英伟达:无法替代
半导体芯闻· 2025-06-06 18:20
华为AI芯片市场推广现状 - 华为推出Ascend 910C GPU试图减少中国对英伟达的依赖,但面临显著阻力,中国科技巨头如字节跳动、阿里巴巴和腾讯未大量订购[1] - 华为转向中国大型国企和地方政府采购,市场策略转变反映抢占主流市场的挑战[1] - Ascend 910C性能与英伟达H100相当,FP16精度算力达800TFLOP/s,记忆体频宽3.2TB/s[3] 华为AI芯片推广的五大障碍 - 英伟达CUDA生态系统根深蒂固,中国科技公司已投入大量资源,华为的替代方案CANN功能不及英伟达客制化软件[1][2] - 中国科技公司间竞争激烈,对采用竞争对手产品意愿低[2] - Ascend 910C存在周期性过热问题,影响可靠性认知[2] - 中国科技公司英伟达GPU库存充足,缺乏转换动力[3] - 美国出口管制使华为芯片被视为潜在合规风险,海外业务多的中国企业尤其谨慎[3] 华为与英伟达的技术对比 - 华为推出CloudMatrix 384捆绑384个Ascend芯片,作为英伟达超级电脑替代方案,但缺乏直接支援FP8等记忆体优化格式[4] - 华为提供工具实现FP8人工兼容性,但解决方案非最优[5] 英伟达市场主导地位 - 英伟达在2025年第一季AIB GPU市占率达92%,AMD降至8%,英特尔0%[5] - 英伟达AI基础设施业务管道达数十GW,每GW可带来400-500亿美元营收,潜在年营收约4000亿美元[5]
六年后再次面对禁令,华为云有了更多底气
36氪· 2025-05-16 17:21
美国对华AI芯片禁令与市场反应 - 美国商务部5月13日发布全球禁令,禁止使用华为昇腾AI芯片及所有中国先进芯片(advanced computing ICs)[2] - 禁令同日英伟达宣布获得沙特1.8万块AI GPU订单,显示地缘政治与商业竞争交织[2] - 英伟达计划对中国出售二次阉割版H20 GPU,INT8算力从296TFLOPs降至不足100TFLOPs,性能下降超60%[3] 华为CloudMatrix 384超节点技术突破 - 华为4月推出CloudMatrix 384超节点技术,将384张昇腾卡集成300PFlops算力的超级节点,单卡解码吞吐达1920Tokens/s,性能比肩英伟达H100[4][13] - 采用6812个400G光模块构建超高速互联,带宽提升10倍以上,数据流动损耗近乎为零,训练效率达英伟达单卡性能90%[13] - 支持MoE大模型架构,在Deepseek R1千亿参数模型测试中集群吞吐量提升3倍[13] 全球AI算力技术路线竞争 - 超节点技术成为行业焦点:英伟达推NVL72、AMD推Infinity Fabric、谷歌TPU设计ICI网络,美国科技巨头组建UAlink联盟对抗NVLink[15] - 中国厂商同步布局:阿里云发起ALink System、百度推出64张昆仑芯超节点技术[16] - 华为CloudMatrix 384为全球唯一商用大规模超节点集群,4月已在芜湖数据中心上线[17] AI算力基建体系化竞争趋势 - 华为实现全栈自研能力,整合芯片/交换机/光模块/云服务等环节,构建从硬件到软件的全景式AI基建体系[22][24] - 昇腾AI云服务已适配160+大模型,服务600+政企客户,覆盖金融/制造/交通等行业[26] - 华为云完成国内三大云核心枢纽布局,拥有300万台服务器规划、TB级带宽,PUE低至1.1[25] 中国AI产业发展现状 - 美国禁令未能遏制中国AI发展,DeepSeek/Manus等企业半年内快速崛起,DeepSeek Prover-V2参数达6710亿[7][9] - 大模型参数膨胀导致算力需求激增,多GPU协同成为刚需,但网络带宽成为瓶颈[9][10] - 比尔·盖茨承认科技封锁促使中国加速自主创新,在芯片等领域取得重大进展[19][21] 华为六年技术突围历程 - 从2019年被列入实体清单到2024年技术反超,华为营收重回8000亿规模[29] - 通过全栈自研实现从"无产品可卖"到掌握AI算力关键技术的转变[24][29] - 技术路线从跟随转向引领,CloudMatrix 384代表架构创新突破[13][22]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越 计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化 工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换 开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化 硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏 构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍 推动形成三位一体算力生态 [20]
对ChatGPT说「谢谢」,可能是你每天做过最奢侈的事
36氪· 2025-04-22 18:28
AI交互的能源与资源消耗 - OpenAI CEO估算用户对AI说"请"和"谢谢"等礼貌用语导致公司额外支出约1000万美元电费[4] - 百度数据显示文小言APP用户累计输入"谢谢"超1000万次[7] - 单次AI查询(输出500 token)耗电0.3Wh 全球累计能耗达天文数字[9][11] - 典型AI数据中心耗电量相当于10万户家庭 超大规模数据中心能耗达普通数据中心20倍[11][12] - 全球数据中心2024年耗电415TWh(占全球1.5%) 2030年将达1050TWh[14] - GPT-3训练耗水量相当于核反应堆冷却塔容量 ChatGPT每25-50次对话消耗500ml淡水[19] AI基础设施投资趋势 - OpenAI启动5000亿美元"星门计划" 联合甲骨文/软银/MGX建设全美AI数据中心网络[12] - Meta为Llama模型训练寻求微软/亚马逊等云厂商的"电/云/资金"支持[14] - OpenAI投资核聚变企业Helion 寻求解决算力需求的终极能源方案[22] 人类与AI的交互心理学 - 用户对AI使用"请/谢谢"等礼貌用语形成独特社交礼仪 拟人化交互增加11%回答长度[4][37] - 心理学实验证明人类会无意识对计算机设备产生"社会存在感知"[30][31] - 生成式AI会模仿用户输入的礼貌程度 礼貌提示词可获得更人性化回复[34] - AI心理咨询服务兴起 用户反馈某些AI对话体验优于真人[34] AI系统的行为模式与风险 - AI通过概率计算生成回复 不理解但会模仿人类对金钱暗示的期待[25][37] - 历史案例显示交互式AI易受恶意引导 如微软Tay机器人16小时内被教唆发布不当言论[39][40] - CharacterAI事件暴露系统对敏感词汇干预不足可能引发现实风险[42]
富士康发布FoxBrain大模型,使用120个英伟达H100 GPU
半导体芯闻· 2025-03-10 18:23
文章核心观点 富士康构建自有大型语言模型FoxBrain,计划开源以推动制造业和供应链管理进步,公司正从核心电子制造业务向人工智能和电动汽车等领域多元化发展 [1][3] 分组1:FoxBrain模型介绍 - 公司已构建具有推理能力的自有大型语言模型FoxBrain,为内部开发且在四周内完成训练 [1] - FoxBrain最初为公司内部使用设计,能进行数据分析、数学运算、推理和代码生成 [1] - 模型基于Meta公开的大型语言模型Llama 3.1的结构,是台湾首个具高级推理能力的大型语言模型,专为繁体中文设计和优化 [2] - 模型性能略落后于中国DeepSeek的一些模型,但正在接近世界一流水平 [3] 分组2:模型训练情况 - 英伟达通过位于台湾的超级计算机和技术咨询提供支持,助力模型成功训练 [1] - 人工智能研究中心主任李永辉团队用120个英伟达H100图形处理器,约四周完成FoxBrain训练 [1] 分组3:公司计划与安排 - 公司计划开源该模型,与行业合作伙伴合作,设想其推动制造业和供应链管理进步 [1] - 公司已公布FoxBrain一些参数,将在3月中旬英伟达年度技术活动上公布更多信息 [1] 分组4:公司业务发展 - 因行业转变和盈利能力下降,公司在核心电子制造业务面临挑战,正朝人工智能和电动汽车等领域多元化发展 [3]