大芯片，再度崛起？

文章核心观点 - 2025年初，AI芯片领域的两则重磅消息——特斯拉重启Dojo 3项目以及Cerebras与OpenAI达成超百亿美元协议——使“大芯片”技术路线重回聚光灯下[1] - “大芯片”并非单一技术，主要分为Cerebras代表的晶圆级单片集成和特斯拉Dojo代表的晶圆级系统两种路线，旨在解决传统GPU架构的“内存墙”和“互连瓶颈”问题[2] - 行业竞争格局正在演变，Cerebras和特斯拉并未试图直接复制英伟达的成功，而是在AI算力版图的特定裂隙中寻找被通用方案忽视的价值洼地，进行错位竞争[19][20] 两种大芯片的技术分野与特点 - 技术路线分野：“大芯片”概括了两种不同设计，Cerebras采用晶圆级单片集成，用一整片300毫米晶圆构建单一处理器；特斯拉Dojo采用晶圆级系统，通过先进封装将多个预测试芯片集成为类单芯片系统[2] - 传统GPU的瓶颈：传统GPU架构存在处理器与内存分离的问题，从英伟达A100到H100，计算能力增加约6倍，但内存带宽仅增长1.7倍，训练时间主导因素从计算能力转向内存带宽[2] - Cerebras的晶圆级单片方案：2024年发布的Cerebras WSE-3拥有4万亿晶体管、90万个AI核心和44GB片上SRAM，通过将计算和存储集成在同一硅片来提升性能[3] - Cerebras的性能数据：WSE-3片上互联带宽达214Pbps，是英伟达H100系统的3715倍；内存带宽高达21PB/s，是H100的880倍；在Llama 3.1 8B模型上生成速度达1800 token/s，而H100仅为242 token/s[3] - Cerebras的工程挑战与解决方案：晶圆级单片面临良率挑战，Cerebras将每个AI核心缩小到0.05平方毫米（仅为H100 SM核心的1%），并通过冗余设计和智能路由绕过缺陷区域，但需要专门固件映射和复杂散热系统，WSE-3功耗达23千瓦[3] - 特斯拉的晶圆级系统方案：Dojo的D1芯片面积为645平方毫米，通过5×5阵列排列并利用台积电InFO封装技术实现高密度互连，使25颗芯片协同工作，芯片间延迟仅100纳秒，远低于传统GPU集群的毫秒级[4] 特斯拉Dojo的战略转向与挑战 - 项目重启与战略转向：特斯拉在2025年8月解散Dojo团队后，于短短半年后重启Dojo 3项目，其战略重心发生根本转变，目标从训练地球上的自动驾驶模型转向专注于“太空人工智能计算”[5][6] - 初始定位与调整原因：Dojo最初被定位为对标10万张H100的通用训练平台，摩根士丹利一度估值其能带来5000亿美元增量，但核心团队离职，项目在2024年底被叫停，特斯拉转而采购6.7万张H100等效算力组建Cortex集群[7] - 转向原因分析：英伟达的护城河在于CUDA生态积累、CoWoS先进封装产能锁定及HBM供应链深度绑定，特斯拉自研方案需在软件适配、集群调度等方面补课数年，而英伟达可能已迭代两至三代产品[7] - 新的战略选择：特斯拉选择训练外采和推理自研，马斯克表示在两种完全不同的AI芯片设计上分散资源不合理，后续AI5、AI6等芯片在推理方面将非常出色[7] - AI5芯片细节：AI5芯片采用3nm制程，由台积电代工，预计2026年底量产，单颗性能接近英伟达Hopper级别，双芯片配置则可接近Blackwell架构[7] - 太空算力新赛道：Dojo 3面向太空算力部署，马斯克计划通过SpaceX未来的IPO融资，利用星舰部署可在持续日照下运行的算力卫星，该赛道没有英伟达的生态壁垒，是全新应用场景[8] - 供应链调整：特斯拉已将Dojo 3芯片制造合同授予三星，芯片封装业务交由英特尔承接，这反映了台积电产能饱和无法提供积极支持，以及特斯拉在争抢代工产能上的弱势[8] Cerebras的商业突破与市场定位 - 与OpenAI的巨额协议：Cerebras与OpenAI敲定了一份价值超百亿美元、承诺交付750兆瓦算力的多年采购协议，该产能将在2028年前分批投入使用[1][10] - 协议的战略意义：该订单是OpenAI在推理爆发前夜的一次精准卡位，OpenAI愿意为“超低延迟推理”支付溢价[10] - 推理市场需求背景：巴克莱研报预测，未来AI推理计算需求将占通用AI总算力的70%以上，推理计算需求可达训练计算需求的4.5倍[10] - OpenAI的考量：OpenAI基础设施负责人表示，当AI实时响应时，用户会做更多事情、停留更长时间、运行更高价值的工作负载[10] - Cerebras的架构优势：其独特速度来自于将大量计算、内存和带宽集成在单个巨型芯片上，消除了传统硬件中减慢推理速度的瓶颈[11] - 性能表现：Cerebras WSE-3在碳捕获模拟中比H100快210倍，在AI推理上实现20倍加速[11] - 公司的财务状况与客户依赖：2024年上半年，Cerebras 87%的收入来自阿联酋的G42；2024年10月公司撤回IPO申请，最新报道称正在洽谈新一轮10亿美元融资，估值约220亿美元；OpenAI的订单金额超过了Cerebras目前的公司估值，使其成为最大也是唯一的主要客户[11] - 历史纠葛与收购可能：OpenAI CEO Sam Altman早在2017年就个人投资了Cerebras，2018年埃隆·马斯克曾试图收购Cerebras，知情人士认为若OpenAI财务状况更强劲，或许会直接收购该公司[12][13] - 促成供应链多元化：OpenAI在2025年也与英伟达、AMD和博通签署了协议，英伟达承诺投入1000亿美元支持OpenAI，建设至少10吉瓦的英伟达系统（相当于400万至500万个GPU）[13] - 市场定位分析：分析师指出，这促使超大规模提供商实现计算系统多样化，针对通用AI工作负载使用英伟达GPU，针对高度优化任务使用内部AI加速器，针对专业低延迟工作负载使用Cerebras等系统[13] 大芯片路线的生存空间与竞争策略 - 激烈的市场竞争：AI芯片市场竞争激烈，AMD推出了MI350X和MI355X GPU，训练及推理速度与英伟达B200相当或更优；英伟达在CES上推出了Rubin平台，更新速度令人咋舌[14] - Cerebras的错位竞争策略：CS-3系统不以训练平台自居，而是主打推理专用机，通过存算一体架构将推理延迟压到极致，同时简化软件栈，瞄准生态锁定效应较弱的推理市场[15] - OpenAI订单的验证作用：OpenAI的百亿订单是用真金白银验证专用架构的商业逻辑，当推理成本占运营支出大头时，15倍的性能提升足以重塑供应商格局[15] - 特斯拉押注先进封装：台积电预计2027年推出晶圆级CoWoS技术，将实现40倍于现有系统的计算能力、超过40个光罩的硅片面积、容纳60+个HBM芯片，这为晶圆级集成量身定制[16] - 技术界限模糊化：当封装技术允许在单一衬底上集成数十颗预测试芯片和HBM时，“大芯片”与“小芯片互联”之间的界限将变得模糊，特斯拉D2芯片和未来的Dojo3可能探索此路线[16] “大”的边界重新定义 - 物理尺寸的“大”：Cerebras的晶圆级单芯片是技术奇迹，但商业价值限定在特定场景，其WSE系统价格约200万至300万美元，部署在阿贡国家实验室、梅奥诊所及与G42合作的Condor Galaxy设施，不会取代GPU成为通用训练平台，但可在推理、科学计算等对延迟敏感领域开辟新战场[18] - 系统集成度的“大”：特斯拉的晶圆级封装、英伟达GB200 NVL72的整柜方案正在成为主流，SEMI报告显示2025年全球晶圆厂设备支出将达1100亿美元，2026年增长18%至1300亿美元[18] - 技术推动力：台积电CoWoS路线图演进、HBM4标准化推进、UCIe互联协议普及，都在推动小芯片异构集成走向系统级单芯片化[19] - 商业模式的“大”：OpenAI与Cerebras的合作被视为领先科技公司吸收AI芯片初创公司的例证，无论是通过直接收购还是大规模商业合作，将其纳入主导生态系统[19] - 初创公司挑战：SambaNova、Groq和Cerebras等被视为利基挑战者，但随着竞争加剧和客户接受度有限，许多此类初创公司难以突破与主要客户的试点部署阶段[19] - 战略试错与卡位总结：特斯拉Dojo的停摆与重启是一次昂贵的商业试错，验证了全栈自研训练芯片对非云巨头不具可复制性，但为推理侧保留了技术储备；Cerebras与OpenAI的联姻是在推理爆发前夜的精准卡位，用极致性能换取垂直场景定价权[19] - 行业背景：在摩尔定律放缓、先进封装接力、AI场景碎片化的三重背景下，晶圆级集成技术路线正在以意想不到的方式重新定义“大”的边界[19]