CUDA

搜索文档
国产GPU,还有多少硬骨头要啃?
虎嗅· 2025-07-02 08:46
国产GPU企业IPO动态 - 摩尔线程和沐曦集成电路科创板IPO申请获上交所受理,标志着国产GPU赛道进入新阶段 [1][3] - 沐曦拟募资39亿元,摩尔线程计划募资80亿元,显示行业高投入特性 [4][5] - 两家公司营收呈现快速增长趋势:沐曦从2022年42.64万元增至2024年7.43亿元,摩尔线程从2022年4608.8万元增至2024年4.38亿元 [7][9] 财务与研发投入 - 沐曦2022-2024年累计研发投入22亿元,净亏损分别为7.77亿/8.71亿/14亿元 [4] - 摩尔线程同期累计研发投入38亿元,净亏损分别为18.4亿/16.73亿/14.92亿元 [5] - 与国际巨头相比仍有差距:英伟达2024财年研发费用达129.14亿美元 [6] 产品与技术布局 - 沐曦产品矩阵覆盖计算和渲染全场景,包括曦思N系列、曦云C系列和曦彩G系列 [7] - 摩尔线程基于MUSA架构推出智算卡和消费级GPU,支持AI计算加速等多项功能 [9][10] - 两家公司产品结构显示业务重心:沐曦训推板卡占比97.55%,摩尔线程AI智算集群占比75.38% [8][11] 行业竞争格局 - 国产GPU企业可分为NVIDIA系、AMD系、国家队和拆分系等不同流派 [12][13] - 主要厂商包括天数智芯、壁仞科技、景嘉微等,成立时间和技术路线各异 [13] - 行业面临洗牌压力,上市成为决定企业发展的关键因素 [12][26] 技术挑战与发展路径 - 突破CUDA生态困局是首要挑战,需构建兼容层+自研框架方案 [15] - Chiplet和HBM技术成为性能提升关键路径 [16][17] - 兼容性和集群能力是产品市场化的重要保障 [19][20] 市场前景与AI机遇 - 中国AI芯片市场规模预计从2024年1425.37亿元增至2029年13367.92亿元 [25] - GPU市场份额将从69.9%提升至77.3%,增长潜力显著 [25] - AI算力需求激增为国产GPU创造发展窗口,但需避免"田忌赛马"式宣传 [22][27]
如何打破CUDA垄断?LLVM奠基人长文解读
半导体行业观察· 2025-05-02 11:58
核心观点 - DeepSeek的成功证明小规模专注团队可通过效率突破挑战行业巨头,打破"只有大公司才能推动AI前沿"的固有认知 [1] - AI发展需降低总体拥有成本(TCO),否则将面临硬件短缺或开发者难以有效利用现有资源的瓶颈 [2] - CUDA平台是NVIDIA构建的庞大分层生态系统,包含编程模型、库和优化,而非单一技术 [6][26] - AI行业面临的关键问题是技术锁定和生态碎片化,替代方案难以突破CUDA主导地位 [69][70] CUDA平台分析 定义与组成 - CUDA包含三层结构:底层并行编程模型(类似C++语法)、中间件库(cuDNN等)、高级解决方案(TensorRT-LLM) [8] - 实际是涵盖驱动程序、语言、库和框架的多层生态系统,类似Java生态系统或操作系统 [26][28] - 核心组件包括:庞大代码库(数十年优化)、工具生态系统(cuDNN/TensorRT)、硬件优化性能、专有闭源特性 [30] 发展历程 - 从图形处理器演进而来,2001年GeForce引入可编程着色器开启通用计算可能 [9] - 2006年推出首个通用GPU编程平台,通过CUDA语言和驱动程序暴露GPU底层特性 [11][12] - 通过高层库(cuDNN等)降低使用门槛,支撑TensorFlow/PyTorch等框架崛起 [18][20] - 垂直解决方案(TensorRT等)进一步抽象复杂性,推动GenAI应用爆发 [22][25] 成功因素 - 统一产品线战略:游戏GPU到数据中心加速器的无缝扩展,降低开发者准入门槛 [31][33] - 抓住AI浪潮:优化cuDNN等库与PyTorch/TensorFlow深度整合,形成硬件-软件协同设计 [34][35] - 生成式AI爆发:ChatGPT推动计算需求激增,行业被迫针对CUDA优化 [38][39] - 自我强化循环:用户基础吸引更多研究投入,新硬件发布需重写软件加深依赖 [42][44] 行业挑战与替代方案 CUDA局限性 - 版本管理复杂:工具包/驱动/框架兼容性问题频发,故障排查成本高 [47][50] - 性能可移植性差:新旧硬件代际间需重写代码,无法充分发挥新架构性能 [17][65] - 语言不匹配:CUDA基于C++而AI开发主要用Python,增加开发障碍 [56][57] - 供应商锁定:无法在其他硬件运行,跨平台开发需维护多套代码路径 [59] 替代方案失败原因 - OpenCL:委员会决策缓慢、技术碎片化、缺乏张量核心支持导致性能落后 [71][76][81] - TVM:难以实现现代硬件最佳性能,商业利益导致代码分支碎片化 [100][101] - XLA:谷歌内部TPU优先,GPU支持不足,技术设计无法适应GenAI需求 [106][109][111] - 共同问题:缺乏参考实现、发展速度慢、性能不达预期、生态建设不足 [85] 未来发展方向 - 硬件创新加速:AMD/Intel等厂商持续投入,但需解决软件生态短板 [69] - 编译器技术演进:MLIR等框架试图解决跨平台问题,但尚未形成统一标准 [86] - 效率突破关键:如DeepSeek直接操作PTX层,探索绕过CUDA的新路径 [41][53] - 行业协作需求:避免重复建设,建立开放社区推动标准化 [85]
芯片大佬聚首,合力攻破CUDA护城河
半导体行业观察· 2025-03-18 09:36
以下文章来源于半导体产业洞察 ,作者Tobias Mann 在英伟达举办GTC之际,一群在AI 领域有影响力的领导者正在英伟达GTC三个街区外举办Beyond CUDA 峰会,并希望通过演示、热点话题、小组讨论和专家意见,探讨如何绕开英伟达的CUDA包 围圈。在这些专家中,包括了 Jim Keller 和 Raja Koduri 等计算机架构师偶像。 众所周知,Nvidia 制造的 GPU 构成了 AI 领域的大部分硬件。尽管 AMD 的 Instinct 加速器提供 的性能可与 Nvidia 硬件相媲美,但已经建立的成熟 CUDA 生态系统对某些用户/组织来说是必不可 少的。Nvidia 很早就意识到了其 GPU 上并行计算的潜力,并开发了一个名为 CUDA 的专有平台, 该平台现在已成为 GPU 加速计算的事实标准。 通过不断的努力、优化,以及恰好由 GPU 驱动的 AI 的突然崛起,Nvidia 已将自己定位为领先的解 决方案提供商。事实上,Nvidia 90% 的收入现在来自其数据中心产品,而 CUDA 是其核心卖点。 这造成了供应商锁定的情况,其中 CUDA(软件)实际上将行业限制在 Nvidia ...