CUDA替代方案
搜索文档
攻破CUDA护城河,英伟达挑战者融资18亿
半导体行业观察· 2025-09-25 11:35
融资与公司概况 - 人工智能初创公司Modular Inc在第三轮融资中筹集2.5亿美元(约18亿人民币),公司估值达到16亿美元 [2] - 此轮融资由Thomas Tull的美国创新科技基金领投,DFJ Growth跟投,所有现有投资者均参与,使公司融资总额达到3.8亿美元 [2] - 公司成立于2022年,总部位于旧金山湾区,员工人数已超过130人,计划利用新融资在北美和欧洲扩大招聘,并扩展其云平台及业务重点 [5] 核心产品与技术平台 - 公司提供一个平台,允许开发人员在不同计算机芯片(包括CPU、GPU、ASIC和定制硅片)上运行AI应用程序,而无需重写或迁移代码 [2] - 平台是一个企业级AI推理堆栈,旨在抽象出硬件,解决当前AI部署生态系统的碎片化问题 [2] - 在过去三年中,公司构建了一个软件基础设施层和一种专门的编程语言,旨在让企业能够在多种芯片和服务器上部署人工智能模型 [2] 市场定位与竞争格局 - 英伟达目前在AI加速器市场占据主导地位,其Hopper和Blackwell架构预计为70%至95%的AI数据中心GPU提供支持,其专有框架CUDA已成为AI开发事实上的标准 [3] - 挑战者包括AMD公司,但其开源ROCm软件堆栈因开发工具多为CUDA编写而处于不利地位 [3] - Modular平台已支持Nvidia、AMD和Apple定制芯片的架构,其最新版本在下一代加速器(包括Nvidia B200和AMD MI355)上的性能比vLLM和SGLang等领先框架提升20%至50% [4] 合作伙伴与生态系统 - AMD、Nvidia和亚马逊公司已加入成为Modular的生态系统合作伙伴 [5] - 公司与AI应用开发商合作,例如与Inworld AI合作加速语音合成,与San Francisco Compute Co合作运营GPU集群市场 [5] 技术优势与发展路线 - Modular的AI推理引擎Max于2023年推出,支持x86和Arm CPU,并增加了对Nvidia GPU的支持,意味着公司拥有了CUDA的全栈替代品 [9] - Max可以满足Nvidia A100和H100 GPU的CUDA性能,从引入H100支持到达到或超过其生成式AI推理性能仅用了两个月时间 [10][11] - 公司对硬件功能的更高层次抽象实现了高性能的可移植性,目标是成为芯片制造商和软件开发者之间的桥梁 [12] - 对非Nvidia GPU和其他类型加速器的模块化支持将于2025年底开始 [12] 未来规划与集群管理 - 公司计划将业务重点从AI推理领域拓展到AI训练领域 [5] - Modular正在为其堆栈开发集群管理功能,构建了数据和控制平面,可以在节点之间一致地路由请求,管理整个集群的状态和分布 [13] - 其理念是将查询在正确的时间智能地路由到正确的硬件,考虑到批量大小和序列长度支持等因素的权衡 [14]
如何打破CUDA垄断?LLVM奠基人长文解读
半导体行业观察· 2025-05-02 11:58
核心观点 - DeepSeek的成功证明小规模专注团队可通过效率突破挑战行业巨头,打破"只有大公司才能推动AI前沿"的固有认知 [1] - AI发展需降低总体拥有成本(TCO),否则将面临硬件短缺或开发者难以有效利用现有资源的瓶颈 [2] - CUDA平台是NVIDIA构建的庞大分层生态系统,包含编程模型、库和优化,而非单一技术 [6][26] - AI行业面临的关键问题是技术锁定和生态碎片化,替代方案难以突破CUDA主导地位 [69][70] CUDA平台分析 定义与组成 - CUDA包含三层结构:底层并行编程模型(类似C++语法)、中间件库(cuDNN等)、高级解决方案(TensorRT-LLM) [8] - 实际是涵盖驱动程序、语言、库和框架的多层生态系统,类似Java生态系统或操作系统 [26][28] - 核心组件包括:庞大代码库(数十年优化)、工具生态系统(cuDNN/TensorRT)、硬件优化性能、专有闭源特性 [30] 发展历程 - 从图形处理器演进而来,2001年GeForce引入可编程着色器开启通用计算可能 [9] - 2006年推出首个通用GPU编程平台,通过CUDA语言和驱动程序暴露GPU底层特性 [11][12] - 通过高层库(cuDNN等)降低使用门槛,支撑TensorFlow/PyTorch等框架崛起 [18][20] - 垂直解决方案(TensorRT等)进一步抽象复杂性,推动GenAI应用爆发 [22][25] 成功因素 - 统一产品线战略:游戏GPU到数据中心加速器的无缝扩展,降低开发者准入门槛 [31][33] - 抓住AI浪潮:优化cuDNN等库与PyTorch/TensorFlow深度整合,形成硬件-软件协同设计 [34][35] - 生成式AI爆发:ChatGPT推动计算需求激增,行业被迫针对CUDA优化 [38][39] - 自我强化循环:用户基础吸引更多研究投入,新硬件发布需重写软件加深依赖 [42][44] 行业挑战与替代方案 CUDA局限性 - 版本管理复杂:工具包/驱动/框架兼容性问题频发,故障排查成本高 [47][50] - 性能可移植性差:新旧硬件代际间需重写代码,无法充分发挥新架构性能 [17][65] - 语言不匹配:CUDA基于C++而AI开发主要用Python,增加开发障碍 [56][57] - 供应商锁定:无法在其他硬件运行,跨平台开发需维护多套代码路径 [59] 替代方案失败原因 - OpenCL:委员会决策缓慢、技术碎片化、缺乏张量核心支持导致性能落后 [71][76][81] - TVM:难以实现现代硬件最佳性能,商业利益导致代码分支碎片化 [100][101] - XLA:谷歌内部TPU优先,GPU支持不足,技术设计无法适应GenAI需求 [106][109][111] - 共同问题:缺乏参考实现、发展速度慢、性能不达预期、生态建设不足 [85] 未来发展方向 - 硬件创新加速:AMD/Intel等厂商持续投入,但需解决软件生态短板 [69] - 编译器技术演进:MLIR等框架试图解决跨平台问题,但尚未形成统一标准 [86] - 效率突破关键:如DeepSeek直接操作PTX层,探索绕过CUDA的新路径 [41][53] - 行业协作需求:避免重复建设,建立开放社区推动标准化 [85]