Workflow
英伟达H100
icon
搜索文档
Deepseek V3.1的UE8M0 FP8和英伟达的FP8格式有什么区别
傅里叶的猫· 2025-08-24 20:31
以下文章来源于More Than Semi ,作者猫叔 More Than Semi . More Than SEMI 半导体行业研究 这是前天的消息了,相信大家都已经看到了,Deepseek V3.1发布,引入了UE8M0 FP8,说了针对即将 发布的下一代国产芯片。 这个消息发布的时候,我们就在星球里面发了一个前一天的国产GPU纪要,根据纪要内容,也基本能 确定是哪款国产芯片了。 UE8M0 是由 Open Compute Project(OCP)提出的。OCP 是 2011 年由 Facebook(现 Meta)联合英特 尔、Rackspace 等发起的开源硬件协作计划,其成员包括微软、谷歌、亚马逊、AMD、英伟达等国外企 业,以及阿里、腾讯、百度等国内企业。2023 年,OCP 发布了《Microscaling(MX)Formats Specification v1.0》,其中定义了 MXFP8 格式,UE8M0 就是 MXFP8 路径里的 "缩放因子"。 看到这里,有些非技术出身的读者可能还是有点晕,简单总结一下就是,FP8就是8位的浮点数, UE8M0、E5M2和E4M3都是FP8的一种,目前国外 ...
DeepSeek V3到V3.1,走向国产算力自由
虎嗅APP· 2025-08-24 17:02
以下文章来源于未尽研究 ,作者未尽研究 未尽研究 . AI,新能源,合成生物,地缘X 本文来自微信公众号: 未尽研究 (ID:Weijin_Research) ,作者:未尽研究,题图来自:AI生成 从V3到V3.1,DeepSeek正在探索出一条"算力自由"之路。 从魔改PTX到使用UE8M0 FP8 Scale的参数精度,DeepSeek先榨取英伟达GPU算力,再适配国产芯 片,可能会在软硬件协同方面带来新的突破, 进一步提高训练效率,最多可以减少75%的内存使用 ,从而在实际应用中减少对进口先进GPU芯片的依赖。 DeepSeek正在与下一代国产GPU芯片厂商一起,向算力自主又迈进一步。正是这样一种令人激动的 前景,激活了科技色彩愈发浓厚的中国资本市场。 DeepSeek发布了V3.1,而不是广受期待的V4或者R2,连R1也消失了。 DeepSeek变成了一个混合推 理架构,即一个模型同时支持思考模式和非思考模式。 这是一个趋势,在V3.1发布一周之前,GPT- 5发布了,这是一个"统一的系统",包括一个对话模型,一个思考模型,和一个实时路由,用来决定 如何结合对话与思考。 这次升级提高了DeepSeek ...
美媒直言:中美AI竞争,美国已经输在了电力上!
搜狐财经· 2025-08-17 15:17
AI竞争与电力基础设施 - AI本质是"电老虎",电力差距将决定未来AI竞争胜负 [1] - GPT-3训练一次大模型耗电相当于120个美国家庭年用电量,每日响应请求耗电50万度(2万户家庭日用量) [4] - 英伟达H100芯片单张年耗电≈3个家庭全年用电,2024年预估销量400-500万颗全部投用年耗电可供1200万家庭使用 [4] 美国电力系统现状 - 美国城市电网仅15%备用容量,德克萨斯州和加利福尼亚州频繁出现短缺和停电 [5] - AI公司被迫自建发电厂导致投资低效,缺乏规模经济和可复用基础设施 [5] - 加州工业电价达1 2元/度,显著高于中国西部0 3元/度的水平 [7] 中国电力系统优势 - 多元化电力生产覆盖风电 水电 核电 太阳能及火电,42个核电站处于建设和规划阶段 [7] - 在建雅江水电站年发电量预计达3000亿千瓦时(三峡水电站3倍) [7] - 特高压传输技术实现跨省绿电调度,"东数西算"战略强化电力成本优势 [7] AI芯片与电力需求关系 - 芯片性能越强耗电越高,电力供应不足将导致先进芯片无法发挥算力 [5] - 未来AI芯片迭代升级后,当前电力消耗数据将失去参考价值 [5]
全球资产配置,真能离开中国资产吗?
美股研究社· 2025-08-16 18:23
中国资产表现 - 中国资产2024年大幅跑赢美股 上证指数虽长期徘徊3000点但牛股频出 实际赚钱效应显著优于美股[1] - 标普500年内涨幅仅9.6% 叠加美元贬值9.8%后 美股实际收益被汇率侵蚀 需超10%收益才能覆盖损失[1] - 韩国散户2024年净买入港A股54亿美元创历史峰值 小米(1.7亿)、比亚迪(9310万)、宁德时代(6089万)成主要标的[2] 中美跨市场机会 - 液冷赛道A股公司7月后涨幅显著:淳中科技+158% 英维克+83% 申菱环境+60% 同期美股Vertiv仅涨5%[3] - 苹果概念股表现超AAPL:港股鸿腾精密+123% 瑞声+18% A股相关标的涨幅更显著[3] - 英伟达产业链A股公司年内暴涨:胜宏科技+452% 工业富联+115% 新易盛+183% 光模块供应商集体跑赢NVDA[5] 银行与红利资产 - 中证银行指数2024年初至8月15日上涨9.8% 显著跑赢沪深300的6.8% 2024年1月至2025年6月累计涨幅达50%[6] - 国有大行两年涨幅超美股七大巨头:农业银行+97% 工商银行+75% 招商银行+93% 银行ETF峰值涨幅65%[5] - 红利低波100指数2005年以来年化收益17.97% 银行券商及长江电力等分红蓝筹构成核心权重[8][11] 全球化配置策略 - 安枕长盈组合2013年至今年化收益12.5% 配置结构为A股红利(40%)+黄金(30%)+美股(30%) 最大回撤15%[8][10] - QDII基金通过多市场配置降低单一风险 黄金资产与股票呈负相关性 组合波动率控制在10%[10] - 2025年关税调整期中国资产展现抗压性 与美股形成风险对冲 验证多元配置必要性[13][14] 市场结构差异 - A股缺乏顶尖科技企业上市 华为/字节/大疆未上市 腾讯阿里等科网龙头境外上市致A股错失互联网红利[12] - 银行保险股具全球竞争力 工商银行连续12年全球银行榜首 市值与涨幅反映实际财富增长[12] - 美股七大巨头ETF(MAGS)两年涨75% 但A股银行板块同期跑赢纳斯达克100指数17%[5][11]
台积电,靠封装赢麻了
半导体芯闻· 2025-07-30 18:54
全球CoWoS晶圆需求与产能分配 - 2026年全球CoWoS晶圆总需求预计达100万片,台积电占据主导地位[1] - 英伟达将抢下60%的CoWoS产能,约59.5万片,其中51万片由台积电代工[1] - 英伟达2026年芯片出货量预计达540万颗,其中240万颗来自Rubin平台[1] - 英伟达同时委托Amkor与日月光分担约8万片产能,用于Vera CPU及汽车芯片[1] 台积电美国先进封装厂计划 - 台积电将在美国亚利桑那州兴建首座先进封装厂,预计2029年前完工[1] - 新厂将包括CoWoS、SoIC与CoW等高阶技术,60%产能专供英伟达使用[2] - 部分产能将供应超微Instinct MI400系列,已开始招募封装设备工程师[2] - 新厂将与亚利桑那晶圆厂整合,满足SoIC等复杂封装需求[2] - 公司已宣布总额高达1000亿美元的投资计划,涵盖晶圆厂和封装设施[2] CoWoS技术的重要性 - CoWoS技术已成为高阶AI芯片的标准封装方式[3] - 该技术可将复数芯片垂直堆叠于矽中介层上,提升传输效率与芯片密度[3] - 同时降低功耗与散热压力,应用于英伟达H100、Blackwell与超微MI300系列[3] 地缘政治与供应链考量 - 美国设厂可解决供应瓶颈、降低地缘风险并强化本土供应能力[2] - 目前部分在美制造芯片需回台封装,增加时间与成本[2] - AI与高效能运算芯片对先进封装需求急速上升,客户要求美国境内产能[2]
3个月内10亿美元禁运GPU流入国内?英伟达AI芯片非官方维修需求暴增
是说芯语· 2025-07-28 15:47
核心观点 - 在美国收紧AI芯片对华出口管制后,至少有价值10亿美元的英伟达先进AI芯片(如B200、H100、H200)通过黑市流入中国大陆 [1][2] - 这些芯片主要通过中国分销商(如"时代之门")销售给数据中心供应商和其他公司,形成完整的地下供应链 [2][3][5] - 尽管英伟达否认参与,但黑市交易规模庞大,价格溢价高达50%,且已形成成熟的交易和测试流程 [3][6][7] - 随着H20芯片出口管制放宽,黑市销量有所下降,但对高性能芯片的需求依然存在 [12][13] - 东南亚国家成为新的中转站,美国可能进一步收紧对这些地区的出口管制 [13][14] - AI芯片维修需求激增,中国市场已出现专门维修英伟达高端GPU的公司,月维修量达500块 [17][18] 芯片黑市交易 - 英伟达B200 GPU成为中国半导体黑市最受欢迎的芯片,尽管被禁止向中国销售 [1] - 在特朗普政府收紧管制后的三个月内,黑市交易额超过10亿美元 [2] - 芯片以现成机架形式出售,每个机架包含8个B200,价格在300万至350万人民币之间,比美国溢价50% [3] - "时代之门"是主要销售商之一,估计已售出近4亿美元的产品 [3][5] - 交易通过社交媒体平台公开进行,包括抖音和小红书,形成类似"海鲜市场"的交易模式 [7][8][9] 供应链与分销网络 - 芯片最初可能来自美国超微电脑(Supermicro),但该公司否认参与走私 [5] - 分销网络涉及多级经销商,最终客户包括数据中心运营商和科技公司 [3][5] - 华纪元科技被列为"时代之门"的最大股东,声称拥有100多个业务合作伙伴,包括阿里云、百度云等 [3] - 供应链已扩展至东南亚国家,可能通过泰国、马来西亚等中转站进入中国 [13][14] 市场需求与价格动态 - B200因其性能、价值和易于维护而需求旺盛 [11] - GB200 AI机架也在中国市场出现,每个售价接近4000万人民币 [11] - 经销商已开始为未来的B300库存做广告,预计第四季度量产 [12] - 随着H20芯片恢复销售,黑市销量下降,但对高端芯片的需求持续存在 [12][13] 维修市场 - 中国市场上已出现十余家专门维修英伟达高端GPU的公司 [17] - 一家深圳企业月均维修量达500块AI芯片,配备256台服务器测试机房 [17] - 维修报价为1-2万元/块,或按原价10%收费,涵盖软件调试和硬件维修 [18] - 由于长期高负荷运转,H100/A100的故障率持续攀升,正常寿命仅2-5年 [18] 公司回应 - 英伟达否认参与或知晓芯片被违规转移,强调只有官方授权渠道才能提供可靠服务 [2][17] - 美超微、戴尔、华硕等公司表示严格遵守出口管制法规 [5][8] - 华纪元否认参与英伟达芯片业务,称其从事"智慧城市工作" [4][5]
莲花紫星算力项目缩水超9成;某国产全功能GPU性能对标H100;芯片公司40亿建智算中心;华东大厂购入GB200丨算力情报局
雷峰网· 2025-07-17 21:16
国产GPU性能对标 - 某国产全功能GPU实测算力达英伟达H100的60%-70%,在Llama2-7B预训练、Qwen2.5VL-7B微调及Llama3-8B训练任务中单位计算效率均优于H100 [1] - 该产品在ResNet-50 v1.5图像分类识别任务中计算效率超H100,Mask R-CNN目标识别训练性能与H100持平 [1][4] - 大模型支撑能力测试显示,国产GPU在Llama3-8B预训练、Llama2-7B预训练及Qwen2.5VL-7B微调任务中的tokens/s/gpu效率表现突出 [5] 跨界算力市场动态 - 莲花紫星算力项目规模从1545PFLOPS(合同金额5.55亿元)缩水至单台服务器租赁,转型轻资产算力平台 [7][8] - 某头部模型创业公司半年融资近60亿元,其中30亿元用于算力采购,地方投资要求资金用于消纳当地算力 [10][12][13] - 国产芯片公司A与电子公司B通过双向采购(芯片与服务器)及置换2GW新能源指标实现营收与利润双增长 [14][16][17] 算力设备市场趋势 - 二手服务器市场升温,爱回收2024年相关业务营收达20亿元,上半年已实现9亿元,老旧设备可拆解零部件或作为金属原料出售 [18][19] - 国产AI服务器因高成本(约20万元/匹)落地困难,运营商尝试用绿电补贴提升性价比但受限于地方财政压力 [20][21] - 英伟达H20因合规风险遭冷落,B200虽价格超H20两倍但成市场焦点,某大厂已采购512台,但实际成交率低 [22] 区域算力消纳差异 - 西部四省智算中心消纳冷热不均,青海/甘肃/宁夏70%需求来自互联网大厂(主要用于转售),某省无大型互联网公司采购 [23][24] - 某国产芯片公司投资40亿元自建西部智算中心,通过自产自销模式解决消纳难题,运营方为中青宝 [25][26] 头部企业算力布局 - 华东某大厂年初购入GB200(单价超3000万元),单套性能抵30-40台H200,计划用于数据租赁项目 [27] - 华南某大厂新购8万张英伟达网卡(推测对应8万张GPU),但需求多通过固定供应链消化难流入公开市场 [28]
从CoreWeave视角看算力租赁行业
2025-07-16 14:13
纪要涉及的行业和公司 - **行业**:算力租赁行业、IDC行业 - **公司**:Core Wave(Qorweb) 纪要提到的核心观点和论据 Core Wave公司基本面 - **公司背景**:2017年成立,前身是加密货币挖矿企业Atlantic,总部在美国,初期通过以太坊挖矿积累大量英伟达GPU资源,2019年调整业务方向聚焦AI云和基础设施建设[1] - **GPU资源**:拥有二十五万颗以上GPU,大部分是英伟达Hopper架构,是英伟达H100、H200、GB200 NVR72的高性能基础设施云服务商之一[2] - **业务形态**:提供基础设施及服务(算力租赁,即裸金属GPU租赁)、管理软件、应用服务(如SUNK服务、Tensor Racer加速推理响应及即时监控)三类业务,核心是GPU裸金属租赁[2][3] - **商业模式**: - **承诺制合同**:客户主要是AI实验室和企业(如微软),按签约的每GPU小时价格计价,合同期限内单价固定,客户需支付15% - 25%预付款,收入占比96%[3][4] - **按需付费**:按使用量计时计费,支持客户动态调整算力规模,适用于已有承诺式合同客户补充算力不足和中小客户尝试使用平台,填补合同外算力空白,提升算力利用率[5] - **历史沿革**:2020年推出云平台,2021年6月在北美部署最大的A40 GPU集群,2025年2月首家实现英伟达GB200 NVL 70月实列全面上线,完成多轮融资,2025年宣布并购相关企业[5][6] - **股东结构**:英伟达是大股东之一,持股3.86%,保障芯片优先供应并参与早期技术验证;AO持股2.39%,集团高管对公司控制权达83%[6] Core Wave公司核心优势 - **模型浮点利用率高**:通过大规模GPU基础和自建软件优化AI训练和推理效率,模型浮点利用率比行业平均高20%[7] - **专为人工智能打造平台**:重构传统云架构,去除不必要的托管服务,提高机架密度和数据中心占地面积利用率[8] - **电力获取能力强**:截至2024年底与科斯Scientific达成五百兆瓦容量协议,截至2025年底拥有三百六十兆瓦可用电力和约十三亿兆瓦合同电力[9] - **融资及生态关系良好**:与英伟达等厂商有良好合作,融资能力较强[8] Core Wave公司财务数据 - **营收情况**:2024年营收19.15亿美元,同比增长七倍以上;2025年一季度收入9.82亿美元,同比增长四倍以上,环比增长31%;剩余订单义务达150亿美元,同比增长53%[9][10] - **利润情况**:2024年亏损8.63亿美元,2025年一季度亏损3.15亿美元,主要因IPO后利息资本化比例下降[10] - **费用率情况**:2025年一季度销售、管理、研发费用率分别为1.1%、17.8%、57.3%,销售费用低因客户集中度高,管理费用高因IPO后一次性股权纪律费用,研发费用增长因提升电力、数据中心等方面能力[11] - **毛利率情况**:2024年全年毛利率74%,2025年一季度73.3%,同比提升4个百分点,原因是算力利用率提高和高算力集群单价提升[11] - **收入结构**:2025年一季度95%收入来自北美AI实验室和大型客户,主要服务于北美实验室和大型客户,客户分为AI企业(如Azure Ripple AI)和科技企业(如亚马逊、微软),当前收入主要来自微软,2024年前两大客户收入占77%,微软占62%,微软有100亿合同[12] Core Wave公司未来规划 - **增长点**:挖掘现有客户算力需求,拓展新行业(银行、制药等),收购AI开发平台进行协同和行业扩展,向国际化扩张(北美、欧洲、亚太等)[13] - **工作重心**:落地已签约的1.6G瓦合同电力以支撑剩余合同履约;保持低杠杆的日常性债务结构;通过平台差异化提升用户联系和毛利率;通过并购进行扩张[14] 算力租赁行业情况 - **市场规模**:预计从2023年的790亿美元增长到2028年的3990亿美元,年复合增速达38%,潜在需求包括训练基础设施、推理基础设施及工作负载监控市场[15] - **行业现状**:全球超过一百多家新型云计算服务商,过去六个月更多云服务商扩展H100、H200、GB200机群,行业活跃度显著提升[15] - **产品价格**:H100价格呈下降趋势,NVL72推理单位成本比H100降低75%,训练成本降低56%[16] - **运营成本**:云巨头每GPU每小时运营成本0.39美元,新兴云巨头0.45美元,大型云商更具规模优势[17] - **合同优势**:建议云商签订三年及以上合同,确保计算资源,规避三年后GPU降价影响;三年期合同对新型机构厂商更有优势,可实现盈亏平衡并提高利润[17][19] - **集群回报**:按芯片使用六年测算,Core Wave的EBIT利润率能达到20% - 30%;按五年寿命测算,利润率降至百分之十几[19] 行业投资观点 - 国内算力租赁行业在互联网资本开支增长和中美供应链限制背景下有竞争优势,长期来看因针对AI场景和大型客户需求有定制化属性,会有一定需求,颠覆云厂商竞争格局[20] - 看好算力及AI方向,关注芯片环节(如海光信息、航空机)、服务器整机(如中途曙光)、算力租赁数据中心及服务器组件环节[21] 其他重要但可能被忽略的内容 - Core Wave公司目前卡以GPU训练为主,但推理增速更快,未来管理层要大幅提升推理占比以摊薄成本、改善营利结构[13] - 若GPU有良好的维修和保护,其使用寿命可能比预期更长[19]
华为芯片,让英伟达黄教主坐不住了
21世纪经济报道· 2025-07-07 16:56
核心观点 - 华为昇腾CloudMatrix 384超节点在部分性能上超越英伟达GB200机柜,整体计算能力达后者的1.6倍[1][13] - 昇腾通过集群化设计弥补单芯片性能差距,实现从"备胎"到"主力"的转变,成功训练出千亿参数大模型[3][6][32] - 昇腾在算力利用率(MFU)上达到全球一流水平,稠密模型MFU超50%,MoE模型达41%-45%[9][10] - 昇腾384超节点采用光互联等系统性工程突破,实现384芯片高效协同,技术路径与英伟达差异化[16][21][29] 技术性能对比 - 单芯片性能为英伟达Blackwell的三分之一,但384超节点通过5倍芯片数量实现系统算力反超[13] - 推理性能对标英伟达H100,在DeepSeek-R1模型测试中算力利用率获全场最佳[11] - 英伟达GB200机柜仅集成72块GPU(下一代144块),华为突破384芯片互联技术[19][20] 技术路径创新 - 采用全对等互联架构与光缆连接,传输效率优于英伟达NVLink铜缆方案[27][29] - 结合鲲鹏CPU与昇腾NPU协同优化,实现"数学补物理"的系统级创新[24][32] - 自研CANN软件栈替代CUDA生态,支持分钟级故障恢复等工程优化[32] 行业竞争格局 - 国内AI芯片形成三大派系:科技巨头(华为/百度/阿里)、纯芯片厂商(寒武纪/燧原等)、细分领域企业(地平线等)[36] - 英伟达仍保持3nm工艺领先优势,CUDA生态历史积淀深厚[33][34] - 美国制裁背景下,昇腾在中国市场加速替代英伟达H20受限产品[36][37] 发展前景 - 华为通过"面积换性能"策略开辟中国特色技术曲线,实现弯道超车[38][39] - 昇腾已验证国产芯片训练千亿参数模型能力,标志国产算力进入实用阶段[6][40]
华为芯片,究竟有多牛?(上)
21世纪经济报道· 2025-07-06 11:12
华为昇腾芯片性能突破 - 昇腾384超节点整体计算能力达英伟达GB200机柜的1.6倍 [3][10] - 单芯片性能为英伟达Blackwell三分之一,但通过5倍芯片数量堆叠实现系统算力反超 [10] - 在DeepSeek-R1大模型推理实战中,昇腾算力利用率表现最佳,对标英伟达H100 [10] 昇腾技术进展与成果 - 昇腾910从"备胎"升级为训练千亿参数大模型的主力芯片 [4][6] - 使用8192颗昇腾芯片训练1350亿参数稠密大模型"盘古Ultra",MFU超50% [6][9] - 6000多颗芯片训练7180亿参数MoE大模型,MFU达41%-45% [6][9] 昇腾与英伟达竞争格局 - 昇腾在AI推理环节已广泛应用,模型训练能力2024年后显著提升 [4][5] - 采用集群剑阵策略弥补单卡性能差距,实现系统级性能领先 [2][10] - 海外机构SemiAnalysis确认昇腾系统算力超越英伟达最新产品 [3][10] 国产算力发展现状 - 昇腾成为国产AI芯片标杆,突破制裁限制实现自主训练能力 [4][6] - 技术论文验证国产芯片可支撑千亿级参数大模型训练 [6] - 算力利用率(MFU)指标达到全球一流水平 [9][10]