特斯拉Dojo项目终止分析 - 特斯拉解散Dojo团队并终止项目,转向采购英伟达GPU平台[1][4] - Dojo曾被视为特斯拉自研训练芯片的重要项目,目标实现超1 ExaFLOP级ML计算能力[3] - 摩根士丹利曾估算Dojo可能为特斯拉带来约5000亿美元增量价值[4] - 项目终止前多位核心技术负责人相继离职,包括Jim Keller、Ganesh Venkataramanan和Peter Bannon[4] - 特斯拉已在奥斯汀上线约6.7万张H100的"Cortex"训练集群,转向采购成熟GPU平台[4] 自研训练芯片面临的挑战 - 生态与软件壁垒:CUDA等工具链打磨十余年,后来者难以追平[9] - 系统工程与供应链:先进封装和HBM供给被英伟达等巨头垄断[10][11] - 需求与现金流节奏:需要超大规模自用训练需求摊薄前期投入[12] - 机会成本:AI芯片代际升级以季度为单位,自研容易落地即落后[13] - 除谷歌(TPU)和AWS(Trainium)等云巨头外,鲜有公司能形成正循环[15] 英伟达的竞争优势 - 系统性胜利:从硅到机架到网络到软件的全栈交付能力[17] - 硬件层:GPU+NVLink/NVSwitch+高带宽内存+机架级整机[17] - 网络层:InfiniBand与Spectrum-X以太网两套方案[18] - 软件层:CUDA体系与全栈库/工具保障"可用算力/周"[18] - 交付层:从整柜到整机房的"交钥匙工程",缩短Time-to-Train[18] - xAI Colossus超级计算机仅用122天建成,通常需要数月甚至数年[18] 行业趋势与结论 - "训练自研,推理解耦"将成为非云巨头主流策略[19] - 特斯拉转向训练端采购成熟平台,推理端自研贴近产品[7] - 自研训练芯片对绝大多数公司不具可复制性[21] - 英伟达赢下时间、生态与现金流三重赛点[21] - 在AI基建时代,速度与生态就是一切[22]
又一颗芯片,被英伟达打败