Workflow
自研训练芯片
icon
搜索文档
又一颗芯片,被英伟达打败
36氪· 2025-08-09 14:32
特斯拉Dojo项目终止 - 特斯拉解散Dojo团队并终止自研训练芯片项目 核心负责人包括Jim Keller、Ganesh Venkataramanan和Peter Bannon相继离职 [1][3] - Dojo项目曾计划实现超1 ExaFLOP级ML计算能力 采用自研D1芯片+Training Tile架构 单芯BF16/CFP8算力达362 TFLOPS 单块Tile算力达9 PFLOPS [2][6] - 项目终止主因转向采购成熟GPU平台 2024年Q4上线5万张H100集群 2025年Q2新增1.6万H200 总规模等效6.7万张H100 [4] 行业自研训练芯片困境 - 生态与软件壁垒是最大挑战 CUDA/cuDNN等工具链需长期打磨 多数厂商难以稳定释放算力密度 [7] - 系统工程与供应链制约明显 先进封装和HBM供给被英伟达主导 台积电CoWoS-L七成产能已被锁定 [8] - 需求与现金流要求苛刻 仅云巨头能实现"芯片-集群-云服务"正循环 Meta训练芯片项目进展缓慢 [9] - 机会成本过高 芯片代际升级以季度为单位 自研方案易落地即落后 AMD MI325X性能已超H200达8% [10] 英伟达系统性优势 - 构建全栈交付能力 涵盖GPU+NVLink+高带宽内存+机架级整机+网络方案+软件工具 [12] - 实现"AI工厂"式交付 GB200 NVL72液冷整柜支持576 GPU无阻塞拼合 提供交钥匙工程 [12] - 部署效率惊人 xAI Colossus超级计算机连接10万Hopper GPU 从装机到训练仅用19天 [12] 行业策略转向 - 特斯拉调整战略 训练端外采英伟达/AMD 推理端与三星签订165亿美元代工协议自研AI6芯片 [5] - 非云巨头普遍采用"训练公版平台+推理自研SoC"策略 聚焦端侧差异化 [13] - 行业共识形成 自研训练芯片仅适合云巨头 车企/应用公司机会成本过高 [11][14]
又一颗芯片,被英伟达打败
半导体行业观察· 2025-08-09 10:17
特斯拉Dojo项目终止分析 - 特斯拉解散Dojo团队并终止项目,转向采购英伟达GPU平台[1][4] - Dojo曾被视为特斯拉自研训练芯片的重要项目,目标实现超1 ExaFLOP级ML计算能力[3] - 摩根士丹利曾估算Dojo可能为特斯拉带来约5000亿美元增量价值[4] - 项目终止前多位核心技术负责人相继离职,包括Jim Keller、Ganesh Venkataramanan和Peter Bannon[4] - 特斯拉已在奥斯汀上线约6.7万张H100的"Cortex"训练集群,转向采购成熟GPU平台[4] 自研训练芯片面临的挑战 - 生态与软件壁垒:CUDA等工具链打磨十余年,后来者难以追平[9] - 系统工程与供应链:先进封装和HBM供给被英伟达等巨头垄断[10][11] - 需求与现金流节奏:需要超大规模自用训练需求摊薄前期投入[12] - 机会成本:AI芯片代际升级以季度为单位,自研容易落地即落后[13] - 除谷歌(TPU)和AWS(Trainium)等云巨头外,鲜有公司能形成正循环[15] 英伟达的竞争优势 - 系统性胜利:从硅到机架到网络到软件的全栈交付能力[17] - 硬件层:GPU+NVLink/NVSwitch+高带宽内存+机架级整机[17] - 网络层:InfiniBand与Spectrum-X以太网两套方案[18] - 软件层:CUDA体系与全栈库/工具保障"可用算力/周"[18] - 交付层:从整柜到整机房的"交钥匙工程",缩短Time-to-Train[18] - xAI Colossus超级计算机仅用122天建成,通常需要数月甚至数年[18] 行业趋势与结论 - "训练自研,推理解耦"将成为非云巨头主流策略[19] - 特斯拉转向训练端采购成熟平台,推理端自研贴近产品[7] - 自研训练芯片对绝大多数公司不具可复制性[21] - 英伟达赢下时间、生态与现金流三重赛点[21] - 在AI基建时代,速度与生态就是一切[22]