特斯拉Dojo项目终止 - 特斯拉解散Dojo团队并终止自研训练芯片项目 核心负责人包括Jim Keller、Ganesh Venkataramanan和Peter Bannon相继离职 [1][3] - Dojo项目曾计划实现超1 ExaFLOP级ML计算能力 采用自研D1芯片+Training Tile架构 单芯BF16/CFP8算力达362 TFLOPS 单块Tile算力达9 PFLOPS [2][6] - 项目终止主因转向采购成熟GPU平台 2024年Q4上线5万张H100集群 2025年Q2新增1.6万H200 总规模等效6.7万张H100 [4] 行业自研训练芯片困境 - 生态与软件壁垒是最大挑战 CUDA/cuDNN等工具链需长期打磨 多数厂商难以稳定释放算力密度 [7] - 系统工程与供应链制约明显 先进封装和HBM供给被英伟达主导 台积电CoWoS-L七成产能已被锁定 [8] - 需求与现金流要求苛刻 仅云巨头能实现"芯片-集群-云服务"正循环 Meta训练芯片项目进展缓慢 [9] - 机会成本过高 芯片代际升级以季度为单位 自研方案易落地即落后 AMD MI325X性能已超H200达8% [10] 英伟达系统性优势 - 构建全栈交付能力 涵盖GPU+NVLink+高带宽内存+机架级整机+网络方案+软件工具 [12] - 实现"AI工厂"式交付 GB200 NVL72液冷整柜支持576 GPU无阻塞拼合 提供交钥匙工程 [12] - 部署效率惊人 xAI Colossus超级计算机连接10万Hopper GPU 从装机到训练仅用19天 [12] 行业策略转向 - 特斯拉调整战略 训练端外采英伟达/AMD 推理端与三星签订165亿美元代工协议自研AI6芯片 [5] - 非云巨头普遍采用"训练公版平台+推理自研SoC"策略 聚焦端侧差异化 [13] - 行业共识形成 自研训练芯片仅适合云巨头 车企/应用公司机会成本过高 [11][14]
又一颗芯片,被英伟达打败