AI计算
搜索文档
华为版CUDA,全面开源了
36氪· 2025-08-06 16:29
华为昇腾AI生态开源战略 - 公司宣布全面开源昇腾硬件使能软件CANN及Mind系列应用使能套件,支持开发者深度挖潜和自定义开发,加速AI创新 [3] - CANN作为华为版CUDA,提供多层编程接口,已升级至8.0版本,包含社区版(新功能体验)和商业版(企业稳定版),新增适配12款操作系统 [6] - 配套自研深度学习框架MindSpore(类似PyTorch),形成原生AI软硬件方案,并支持PyTorch、TensorFlow等8种主流框架与第三方库 [6][9] - 联合行业发起《CANN开源开放生态共建倡议》,意图打破英伟达CUDA封闭生态的垄断 [11] 挑战英伟达CUDA的新兴竞争者 - 传奇GPU架构师Raja Koduri创立Oxmiq Labs,定位为硅谷25年来首家GPU初创公司,专注GPU硬件IP与软件堆栈授权 [12][14] - 公司硬件方案基于RISC-V指令集,推出模块化GPU IP核OxCore及芯片集构建器OxQuilt,支持灵活配置AI训练/推理SoC [18][20] - 软件核心OXPython可无修改运行Python版CUDA应用,通过统一运行时OXCapsule实现跨硬件平台兼容,初期适配Tenstorrent加速器 [23] - 战略强调软件堆栈与硬件解耦,直接对标CUDA生态,降低开发者迁移门槛 [16][21] 行业竞争格局变化 - 华为与Oxmiq分别从开源生态和兼容层技术切入,挑战英伟达CUDA的封闭体系 [6][23] - 昇腾CANN开源可能吸引受限于CUDA绑定的开发者,而Oxmiq的跨硬件兼容方案瞄准多模态AI/图形工作负载 [6][16] - 两家公司均强调降低开发者迁移成本,通过工具链开放或代码兼容性争夺生态话语权 [3][23]
中国特供芯片恢复销售了?AMD CEO苏姿丰:许可证尚未获批
凤凰网· 2025-08-06 07:23
公司业绩表现 - 第二季度营收同比增长32%至77亿美元,高于分析师平均预计的74.3亿美元 [2] - 预计第三季度营收约为87亿美元,高于分析师平均预计的83.7亿美元 [2] - 公司股价今年累计上涨44%,成为半导体行业表现最佳的股票 [1] AI业务前景 - 公司对整体AI计算市场持乐观态度,认为其AI业务规模有清晰路径可扩大至每年数百亿美元营收 [1] - 公司正在提高新一代MI350系列产品的生产 [1] - 由于面向中国市场的芯片存在不确定性,公司股价在盘后交易中一度下跌超5% [1] 中国市场业务 - 恢复在中国销售芯片仍需时日,公司警告这一不确定性为其AI业务前景蒙上阴影 [1] - 公司高管拒绝预测其专为中国市场设计的AI处理器Instinct MI308在中国的销售情况 [1] - 公司预计在获得许可证后将恢复MI308的发货,但这取决于最终客户需求及供应链准备情况,由于许可证仍在审查中,未在第三季度业绩指引中计入任何MI308收入 [1]
英诺赛科(02577) - 自愿公告 与NVIDIA达成合作
2025-08-01 17:38
合作与技术 - 公司与NVIDIA合作推动800 VDC电源架构在AI数据中心落地[3] - 800 VDC电源架构可使AI算力提升100 - 1000倍[3] - 公司第三代GaN器件为NVIDIA架构提供全链路氮化镓电源方案[3] 未来展望 - 未来几年AI数据中心将从千瓦级到兆瓦级飞跃[3]
马斯克:xAI的目标是在5年内实现5000万台H100等效AI计算(但能效更高)上线。
快讯· 2025-07-23 01:17
xAI计算目标 - 公司计划在5年内实现5000万台H100等效AI计算设备上线 [1] - 新型AI计算设备将保持更高能效特性 [1]
电子行业周报:科创招股书梳理之摩尔线程篇-20250714
华安证券· 2025-07-14 11:20
报告行业投资评级 - 行业评级为增持 [6] 报告的核心观点 - 摩尔线程推出四代 GPU 架构,拥有万卡集群智算中心解决方案,在芯片层面基于自主研发的 MUSA 架构,2021 - 2024 年分别发布四代 GPU 架构,产品线丰富能满足不同市场需求 [1][28] - 摩尔线程在 AI 智算、专业图形加速及桌面级图形加速、智能 SoC 三大领域实现商业化和持续迭代的技术储备,2024 年 AI 智算产品收入占比高,各领域均有相关产品推出 [1][2][44] - 摩尔线程拥有国际先进制程量产和国产工艺研发迭代能力,在封装测试环节实现国产化,首创 Chiplet 可扩展架构 [2][7] - 公司核心创始团队经验丰富,股东汇聚诸多知名投资机构,已完成 6 轮融资,累计融资金额超 45 亿元 [7][8] - 摩尔线程以全功能 GPU 为核心,本次发行并上市募集资金 80 亿元,主力投入新一代 AI 训推一体芯片、图形芯片和 AI SoC 芯片研发项目 [9][111] 根据相关目录分别进行总结 1 摩尔线程:国内高性能 GPU 产品的主要领军企业,把握时代机遇助力国产替代 - 历经三个发展阶段,目标成为具备国际竞争力的 GPU 领军企业,2020 - 2022 年团队原始积累,2023 - 2024 年高速成长,2025 年至今响应国产大模型新时代 [17][18][19] - 推出四代 GPU 架构,形成多元计算加速产品矩阵,涵盖 AI 智算、高性能计算等应用领域,产品线覆盖不同市场 [25][28] - 在三大领域实现商业化和持续迭代的技术储备,AI 智算产品聚焦前沿模型训练和推理,专业图形加速及桌面级图形加速产品丰富,智能 SoC 产品基于自研架构量产芯片并推出多种产品 [44][50][51] 2 摩尔线程 AI 智算接棒传统专业图形加速助力国产算力高速发展 - 产品线日趋丰富,营收快速增长,业务收入主要来自 AI 智算、专业图形加速、桌面级图形加速领域,2024 年 AI 智算产品增长大,专业图形加速产品 2023 年增长快,桌面级图形加速产品收入呈下降趋势 [54][55] - 汇聚诸多知名投资机构,已完成 6 轮融资,累计融资金额超 45 亿元,第一大股东南京神傲持有 14.55% [63] - 具备多重竞争优势,包括国产全功能 GPU 领域技术领先性、MUSA 架构生态系统支持、适应中国本土技术能力、专业研发团队与高效研发体系和商业化落地与技术迭代 [66][67][69] 3 摩尔线程持续加强研发投入,夯实竞争优势 - 核心创始团队和核心技术团队产业经验积累丰富,核心创始人张建中及联合创始人等均有在知名企业的工作经历 [75][76] - 公司持续积累核心技术,实现自研全功能 GPU 架构和技术创新,MUSA 架构优势明显,有多引擎集成技术等多项创新 [80][81][85] - 在芯片制造方面加强国产供应链,同时加强万卡集群可靠性保障,具备全栈式 GPU 芯片自主研发体系,有突破性 GPU 芯片设计技术矩阵,有全周期验证体系和万卡集群级可靠性测试能力 [89][90][92] - 凭借多年技术积累,在部分产品性能已达到或接近国际先进水平,在 AI 计算加速、智算集群、图形渲染、智能 SoC 层面均有体现 [101][103][106] - 募资主力投入新一代 AI 训推一体芯片研发项目、图形芯片研发项目和 AI SoC 芯片研发项目,各项目有明确研发内容和产品方案 [111][116] 4 市场行情回顾 - 行业板块表现:本周(2025 - 07 - 07 至 2025 - 07 - 11),上证指数周涨跌 +1.09%,深证成指涨跌幅为 +1.78%,创业板指数涨跌幅 +2.36%,科创 50 涨跌幅为 +0.98%,申万电子指数涨跌幅 +0.93%;板块行业指数中分立器件表现最好,涨幅为 3.10%,被动元件表现较弱,跌幅为 1.01%;板块概念指数中富士康产业链指数表现最好,涨幅为 2.99%,存储器指数表现最弱,涨幅为 0.12% [120] - 电子个股表现:本周表现最好的前五名分别是新亚电子、金安国纪、东田微、乐鑫科技、长光华芯;瑞联新材、中京电子、宝明科技、南亚新材、好上好表现较弱;今年表现最好的前五名分别是胜宏科技、逸豪新材、旭光电子、隆扬电子、慧为智能;国星光电、国光电器、盛科通信 - U、光智科技、电连技术表现较弱 [138]
光计算系统解决方案商「光本位」半年完成两轮融资,获两地国资加持丨36氪首发
36氪· 2025-07-07 14:04
行业趋势 - AI算力需求暴涨背景下,国内GPU厂商纷纷递交IPO招股书,同时光计算作为AI计算新范式备受投资机构追捧 [1] - 光子计算被视为突破后摩尔时代传统算力瓶颈的重要技术路线,对推动模型性能进步和降低推理成本具有重要价值 [6] - 光计算行业在技术突破和下游应用爆发的催化下高速发展,有望重构算力市场竞争格局 [8][9] 公司融资 - 光本位科技于2024年12月完成由锦秋基金领投的战略轮融资,老股东慕石资本、小苗朗程、中赢创投超额跟投 [1] - 2024年6月完成新一轮融资,由敦鸿资产领投,浦东科技天使母基金、苏州未来天使产业基金、张江科投等国资基金跟投,老股东中赢创投再次加注 [1] - 中赢创投在光本位早期便参与投资并多次加注,持续看好其研发能力和发展前景 [9] 技术优势 - 光本位是全球首家采用硅光+相变材料(PCM)异质集成并实现光芯片存算一体商业化的公司 [3] - 技术路径具有单元尺寸小、系统能耗低的优势,适合大规模AI计算场景,集成度比其他技术方案提升10倍以上 [3] - 采用"PCM + Crossbar"路线,显著提升AI推理速度并大幅降低功耗,直击当前产业痛点 [7] 产品进展 - 2024年6月完成首颗算力密度和算力精度达商用标准的光计算芯片,矩阵规模128*128,打破行业64*64的天花板 [3] - 正在进行256*256光计算芯片流片和第一代光电融合计算卡封测,512*512光计算芯片已在设计中 [3] - 基于512*512芯片的产品系统算力或将远超目前全球顶尖的基于电芯片的产品 [3] 商业化进展 - 2024年12月与国内一线互联网大厂建立战略合作,在AI算力硬件方面展开深度合作 [5] - 致力于为大模型、科学计算、具身智能等高性能计算领域提供新型计算芯片与系统方案 [5] 团队背景 - 两位95后创始人分别毕业于牛津大学和芝加哥大学,研发负责人师从英国皇家工程院院士Harish Bhaskaran教授 [5] - 运营负责人具有大模型算法、AI agent工程化和商业化落地经验 [5] - 团队依托牛津先进微纳工程实验室多年技术积累推进产业化落地,取得阶段性成果 [6] 投资人评价 - 光本位技术壁垒高、稀缺性强,与浦东集成电路产业形成上下游联动效应 [8] - 光本位团队创新技术方案和高效务实风格展现出快速产业化落地潜力 [8] - 光本位年轻、执行力强、具有韧性的团队有望在"追光"长路上实现换道超车 [8]
产品老化、竞争激烈、品牌受损!汇丰大幅下调特斯拉未来三年利润预测
华尔街见闻· 2025-06-27 17:47
汇丰对特斯拉的负面展望 - 汇丰维持特斯拉"减持"评级,目标价120美元不变,暗示较当前股价有63%下行空间 [1][4] - 采用DCF和同业倍数估值各50%权重方法,同业倍数估值得出每股公允价值60美元,DCF估值得出180美元 [4][5] - DCF估值涵盖汽车、储能、完全自动驾驶、Dojo、Optimus和服务六大业务板块 [5] 交付量与盈利预期下调 - 预计Q2交付量环比持平,较市场预期低15%,营业收入面临8%下行风险 [1][2] - 大幅下调2025-27年运营利润率预期19-25%,因交付量疲软导致自由现金流仅略为正值 [2] - 中期销量增长将保持温和,除非推出价格低于2.5万美元的入门级车型 [1][2] 销量疲软的结构性原因 - 产品组合老化、竞争加剧和品牌形象担忧是销量疲软主因 [1][2] - 改款Model Y对提振销量作用有限,但可能支撑Q3和Q4销量和价格组合 [1][2] - Q2汽车业务毛利率有望环比改善,能源存储业务预测与市场共识一致 [2] Robotaxi业务面临的挑战 - 需证明纯摄像头方案的稳健性,奥斯汀试点早期迹象令人担忧 [3] - 需改变消费者放弃个人车辆拥有权的观念 [3] - 需证明能通过运营Robotaxi实现盈利,Waymo距离盈利仍有距离且需60亿美元股权融资 [3] 技术业务前景 - 完全自动驾驶、Dojo和Optimus等技术预计从2028年开始贡献收入 [5] - 与Robotaxi AI计算相关的成本可能在短期内增加但对收入和利润贡献有限 [2]
前英特尔CEO加入AI芯片创企!
搜狐财经· 2025-06-24 18:13
公司融资与核心目标 - 美国AI芯片创企Snowcap Compute获得2300万美元(约合人民币1.65亿元)种子轮融资,由Playground Global领投 [2] - 前英特尔CEO帕特·基辛格加入公司董事会 [2] - 公司计划利用超导体研发新型AI计算芯片,目标超越当前最先进AI系统,同时大幅降低功耗 [2] - 首款基础芯片计划于2026年底前推出,完整系统将在更晚时间推出 [2] 技术架构与创新 - 公司采用超导技术,芯片架构专为极致性能与能效设计,支持AI、量子和高性能计算 [2] - 超导计算平台使用约瑟夫森结取代晶体管,开关门能耗比传统晶体管低5个数量级 [13] - 芯片使用现有300mm(12英寸)半导体工艺制造,无需特殊工艺 [14] - 超导芯片在4.5开尔文低温下运行,每次操作能耗仅为CMOS的10万分之一 [13] 团队背景与行业支持 - CEO Michael Lafferty曾任职Cadence,负责超导与量子技术 [3] - 创始团队包括首席科学家Anna Herr和CTO Quentin Herr,均为超导计算机领域前沿研究人员 [3] - 前英伟达、谷歌、特斯拉高管加入顾问团队 [5] - 前英特尔CEO帕特·基辛格和前英伟达商务拓展副总裁里克·海曼加入董事会 [8] 性能与能效优势 - 公司芯片的每瓦性能预计是当前最好芯片的25倍,即使考虑冷却能耗 [12] - 超导逻辑技术在处理速度和效率上实现数量级提升,突破CMOS技术限制 [12] - 技术可支持AI推理及训练、高性能计算、量子经典混合工作负载 [13] 行业背景与商业化进展 - 超导技术商业化因物理学和制造技术成熟成为可能 [12] - AI聊天机器人兴起推动计算需求,传统芯片性能接近极限,超导技术有望缓解能耗问题 [15] - 公司解决了超导技术商业化关键挑战,包括可扩展性、晶圆厂兼容性、EDA挑战等 [15]
NVIDIA Tensor Core 从 Volta 到 Blackwell 的演进
傅里叶的猫· 2025-06-23 23:18
性能基本原理 - 阿姆达尔定律指出,对于固定问题规模,通过增加计算资源实现的最大加速比受限于串行部分,即使并行资源无限增加,加速比也只能趋近于1−S,因为串行部分的执行时间无法通过并行化减少 [3][4] - 强缩放指的是在固定问题规模下,通过增加计算资源来缩短执行时间,其加速比由阿姆达尔定律量化 [6] - 弱缩放则是在保持执行时间不变的情况下,通过增加计算资源来处理更大的问题,问题规模和资源同时按比例增加,以维持时间不变 [6] - 数据移动在性能优化中是一个关键瓶颈,被称为 "cardinal sin",现代 DRAM 单元的操作时间为数十纳秒,而晶体管开关速度在亚纳秒级别,这种速度差异导致数据移动本质上更慢 [8] 张量核心架构演进 - Volta 架构作为首个引入张量核心的里程碑,其设计源于深度学习对矩阵乘法硬件加速的需求,2017 年推出的 Volta 架构在 Tesla V100 GPU 中集成张量核心,旨在解决传统 GPU 执行矩阵乘法时指令功耗与计算功耗的失衡问题 [9] - Turing 架构于 Volta 之后推出,其第二代张量核心在 Volta 基础上增加了 INT8 和 INT4 精度支持,进一步拓展了低精度计算能力,同时通过引入深度学习超采样(DLSS)技术,将深度学习应用于游戏图形领域 [10] - Ampere 架构带来了异步数据复制技术,这一创新允许数据直接从全局内存异步加载到共享内存,绕开寄存器中转,解决了 Volta 时代数据加载与 MMA 指令竞争寄存器资源的问题 [11] - Hopper 架构进一步深化了并行计算的层次设计,新增线程块集群(Thread Block Cluster),将多个 SM 分组为图形处理集群(GPC),允许跨 SM 的数据共享与低延迟通信 [12] - Blackwell 架构作为最新一代,针对寄存器压力问题引入张量内存(TMEM),每个 SM 配备 256KB 的 TMEM,以 warpgroup 为单位访问 [13] 结构化稀疏性 - Ampere 架构推出了 2:4 结构化稀疏性,其核心在于对权重矩阵进行修剪,使每 4 个元素中 2 个为零,通过压缩非零元素并利用元数据索引记录位置,理论上可将张量核心吞吐量翻倍 [14] - Blackwell 架构则针对 NVFP4 数据类型引入了 4:8 结构化稀疏性,该模式将 8 个元素划分为 4 对连续元素,要求其中 2 对为非零值、2 对为零 [15] 张量核心规模与内存演进 - 从 Volta 到 Blackwell,张量核心的计算规模呈指数级增长,而内存层次结构则通过容量扩展与架构优化持续适配计算需求 [16] - Volta 架构作为张量核心的起点,单个 SM 配备 8 个张量核心,可实现 1024 FLOP / 周期的 F16 计算能力,支持 m8n8k4 的 MMA 形状 [17] - Ampere 将单 SM 的张量核心计算能力翻倍至 2048 FLOP / 周期,MMA 形状扩展为 m16n8k16 [17] - Hopper 进一步提升至 4096 FLOP / 周期(F16),并引入 F8 格式使计算能力达到 8192 FLOP / 周期,MMA 形状支持 m64n256k16 的更大规模 [17] - Blackwell 则实现了 F16 计算能力 8192 FLOP / 周期、F8 达 16384 FLOP / 周期、F4 达 32768 FLOP / 周期 [17] MMA 指令异步性 - Volta 架构作为初代张量核心,其 MMA 指令采用 warp-scoped 同步执行模式,需 8 线程 quadpair 协作完成 8x8x4 矩阵运算 [20] - Ampere 架构首次引入异步数据复制技术,允许数据从全局内存直接加载至共享内存,绕过寄存器中转 [20] - Hopper 架构实现了 MMA 指令的根本性突破,推出 warpgroup-level 异步 MMA(wgmma),支持 4 个 warp 组成的 warpgroup 协作执行更大规模矩阵运算 [22] - Blackwell 架构将 MMA 异步性推向极致,第五代张量核心的 tcgen05.mma 指令具备单线程语义,无需 warpgroup 协作即可发起 MMA 操作 [23] 数据类型精度演进 - Volta 架构作为张量核心的起点,仅支持 FP16 半精度输入与 FP32 单精度累加 [25] - Turing 架构在此基础上新增 INT8 和 INT4 整数精度支持,首次将低精度整数计算引入张量核心 [25] - Ampere 架构进一步拓展数据类型范围,引入 BF16(脑浮点格式),其 8 位指数与 7 位尾数的设计,在保持与 FP32 相同动态范围的同时,将存储成本减半 [25] - Hopper 架构标志着低精度浮点类型的重大突破,首次引入 FP8 格式(E4M3 和 E5M2),通过 4 位指数与 3 位或 2 位尾数实现更低精度计算 [26] - Blackwell 架构将精度降低推向极致,新增 MXFP 系列微缩放浮点格式(MXFP8、MXFP6、MXFP4),并推出自研的 NVFP4 格式 [26] 编程模型演进 - 早期 CUDA 编程模型遵循高线程占用率原则,通过将多个 CTA 分配至单个 SM,利用线程上下文切换隐藏内存访问延迟 [28] - Ampere 架构首次推出异步数据复制指令,允许线程直接将数据从全局内存加载至共享内存,无需经过寄存器中转 [29] - Hopper 架构进一步深化异步能力,新增线程块集群(Thread Block Cluster),将多个 SM 分组为 GPC,通过协作组 API 暴露硬件执行单元 [29] - Blackwell 架构将异步执行推向全栈支持,第五代张量核心的 tcgen05.mma 指令具备单线程语义,无需 warp 协作即可发起 MMA 操作 [30]
摩根士丹利:英伟达NVL72出货量
傅里叶的猫· 2025-06-10 22:13
GB200 NVL72机架出货量预测 - 2025年5月GB200 NVL72机架全球总产量预计达2000至2500台 较4月的1000至1500台显著增长 [1] - 预计6月出货量继续攀升 第二季度整体产量有望达5000至6000台 [1] - 供应链快速响应能力与市场需求高涨推动增长 [1] AI计算需求与厂商表现 - AI计算需求持续爆发 尤其在云计算和数据中心领域广泛应用 [2] - 广达5月出货约400台GB200机架 较4月的300至400台略有提升 月营收达1600亿新台币 同比增长58% [2] - 纬创5月出货900至1000台GB200计算托盘 较4月的150台增长近6倍 营收同比增长162%至2084.06亿新台币 [2] - 鸿海5月出货近1000台GB200机架 预计第二季度交付3000至4000台 [2] 市场结构与供应链瓶颈 - GB200机架实际交付量可能低于出货数据 因L10计算托盘需组装为完整L11机架 [3] - 下游最终交付受制于组装与测试瓶颈 [3] - 摩根士丹利对下游AI服务器代工厂商偏好排名:技嘉、鸿海、广达、纬创和纬颖 [3] 行业趋势与挑战 - 主流超大规模云厂商平均每周部署近1000个NVL72机柜 出货节奏持续提速 [3] - GB300系统样品已开始向主要云服务商送样 [3] - 组装瓶颈、价格竞争及地缘政治因素可能对未来增长构成挑战 [3]