文章核心观点 - 2025年初,AI芯片领域的两则重磅消息——特斯拉重启Dojo 3项目以及Cerebras与OpenAI达成超百亿美元协议——使“大芯片”技术路线重回聚光灯下[1] - “大芯片”并非单一技术,主要分为Cerebras代表的晶圆级单片集成和特斯拉Dojo代表的晶圆级系统两种路线,旨在解决传统GPU架构的“内存墙”和“互连瓶颈”问题[2] - 行业竞争格局正在演变,Cerebras和特斯拉并未试图直接复制英伟达的成功,而是在AI算力版图的特定裂隙中寻找被通用方案忽视的价值洼地,进行错位竞争[19][20] 两种大芯片的技术分野与特点 - 技术路线分野:“大芯片”概括了两种不同设计,Cerebras采用晶圆级单片集成,用一整片300毫米晶圆构建单一处理器;特斯拉Dojo采用晶圆级系统,通过先进封装将多个预测试芯片集成为类单芯片系统[2] - 传统GPU的瓶颈:传统GPU架构存在处理器与内存分离的问题,从英伟达A100到H100,计算能力增加约6倍,但内存带宽仅增长1.7倍,训练时间主导因素从计算能力转向内存带宽[2] - Cerebras的晶圆级单片方案:2024年发布的Cerebras WSE-3拥有4万亿晶体管、90万个AI核心和44GB片上SRAM,通过将计算和存储集成在同一硅片来提升性能[3] - Cerebras的性能数据:WSE-3片上互联带宽达214Pbps,是英伟达H100系统的3715倍;内存带宽高达21PB/s,是H100的880倍;在Llama 3.1 8B模型上生成速度达1800 token/s,而H100仅为242 token/s[3] - Cerebras的工程挑战与解决方案:晶圆级单片面临良率挑战,Cerebras将每个AI核心缩小到0.05平方毫米(仅为H100 SM核心的1%),并通过冗余设计和智能路由绕过缺陷区域,但需要专门固件映射和复杂散热系统,WSE-3功耗达23千瓦[3] - 特斯拉的晶圆级系统方案:Dojo的D1芯片面积为645平方毫米,通过5×5阵列排列并利用台积电InFO封装技术实现高密度互连,使25颗芯片协同工作,芯片间延迟仅100纳秒,远低于传统GPU集群的毫秒级[4] 特斯拉Dojo的战略转向与挑战 - 项目重启与战略转向:特斯拉在2025年8月解散Dojo团队后,于短短半年后重启Dojo 3项目,其战略重心发生根本转变,目标从训练地球上的自动驾驶模型转向专注于“太空人工智能计算”[5][6] - 初始定位与调整原因:Dojo最初被定位为对标10万张H100的通用训练平台,摩根士丹利一度估值其能带来5000亿美元增量,但核心团队离职,项目在2024年底被叫停,特斯拉转而采购6.7万张H100等效算力组建Cortex集群[7] - 转向原因分析:英伟达的护城河在于CUDA生态积累、CoWoS先进封装产能锁定及HBM供应链深度绑定,特斯拉自研方案需在软件适配、集群调度等方面补课数年,而英伟达可能已迭代两至三代产品[7] - 新的战略选择:特斯拉选择训练外采和推理自研,马斯克表示在两种完全不同的AI芯片设计上分散资源不合理,后续AI5、AI6等芯片在推理方面将非常出色[7] - AI5芯片细节:AI5芯片采用3nm制程,由台积电代工,预计2026年底量产,单颗性能接近英伟达Hopper级别,双芯片配置则可接近Blackwell架构[7] - 太空算力新赛道:Dojo 3面向太空算力部署,马斯克计划通过SpaceX未来的IPO融资,利用星舰部署可在持续日照下运行的算力卫星,该赛道没有英伟达的生态壁垒,是全新应用场景[8] - 供应链调整:特斯拉已将Dojo 3芯片制造合同授予三星,芯片封装业务交由英特尔承接,这反映了台积电产能饱和无法提供积极支持,以及特斯拉在争抢代工产能上的弱势[8] Cerebras的商业突破与市场定位 - 与OpenAI的巨额协议:Cerebras与OpenAI敲定了一份价值超百亿美元、承诺交付750兆瓦算力的多年采购协议,该产能将在2028年前分批投入使用[1][10] - 协议的战略意义:该订单是OpenAI在推理爆发前夜的一次精准卡位,OpenAI愿意为“超低延迟推理”支付溢价[10] - 推理市场需求背景:巴克莱研报预测,未来AI推理计算需求将占通用AI总算力的70%以上,推理计算需求可达训练计算需求的4.5倍[10] - OpenAI的考量:OpenAI基础设施负责人表示,当AI实时响应时,用户会做更多事情、停留更长时间、运行更高价值的工作负载[10] - Cerebras的架构优势:其独特速度来自于将大量计算、内存和带宽集成在单个巨型芯片上,消除了传统硬件中减慢推理速度的瓶颈[11] - 性能表现:Cerebras WSE-3在碳捕获模拟中比H100快210倍,在AI推理上实现20倍加速[11] - 公司的财务状况与客户依赖:2024年上半年,Cerebras 87%的收入来自阿联酋的G42;2024年10月公司撤回IPO申请,最新报道称正在洽谈新一轮10亿美元融资,估值约220亿美元;OpenAI的订单金额超过了Cerebras目前的公司估值,使其成为最大也是唯一的主要客户[11] - 历史纠葛与收购可能:OpenAI CEO Sam Altman早在2017年就个人投资了Cerebras,2018年埃隆·马斯克曾试图收购Cerebras,知情人士认为若OpenAI财务状况更强劲,或许会直接收购该公司[12][13] - 促成供应链多元化:OpenAI在2025年也与英伟达、AMD和博通签署了协议,英伟达承诺投入1000亿美元支持OpenAI,建设至少10吉瓦的英伟达系统(相当于400万至500万个GPU)[13] - 市场定位分析:分析师指出,这促使超大规模提供商实现计算系统多样化,针对通用AI工作负载使用英伟达GPU,针对高度优化任务使用内部AI加速器,针对专业低延迟工作负载使用Cerebras等系统[13] 大芯片路线的生存空间与竞争策略 - 激烈的市场竞争:AI芯片市场竞争激烈,AMD推出了MI350X和MI355X GPU,训练及推理速度与英伟达B200相当或更优;英伟达在CES上推出了Rubin平台,更新速度令人咋舌[14] - Cerebras的错位竞争策略:CS-3系统不以训练平台自居,而是主打推理专用机,通过存算一体架构将推理延迟压到极致,同时简化软件栈,瞄准生态锁定效应较弱的推理市场[15] - OpenAI订单的验证作用:OpenAI的百亿订单是用真金白银验证专用架构的商业逻辑,当推理成本占运营支出大头时,15倍的性能提升足以重塑供应商格局[15] - 特斯拉押注先进封装:台积电预计2027年推出晶圆级CoWoS技术,将实现40倍于现有系统的计算能力、超过40个光罩的硅片面积、容纳60+个HBM芯片,这为晶圆级集成量身定制[16] - 技术界限模糊化:当封装技术允许在单一衬底上集成数十颗预测试芯片和HBM时,“大芯片”与“小芯片互联”之间的界限将变得模糊,特斯拉D2芯片和未来的Dojo3可能探索此路线[16] “大”的边界重新定义 - 物理尺寸的“大”:Cerebras的晶圆级单芯片是技术奇迹,但商业价值限定在特定场景,其WSE系统价格约200万至300万美元,部署在阿贡国家实验室、梅奥诊所及与G42合作的Condor Galaxy设施,不会取代GPU成为通用训练平台,但可在推理、科学计算等对延迟敏感领域开辟新战场[18] - 系统集成度的“大”:特斯拉的晶圆级封装、英伟达GB200 NVL72的整柜方案正在成为主流,SEMI报告显示2025年全球晶圆厂设备支出将达1100亿美元,2026年增长18%至1300亿美元[18] - 技术推动力:台积电CoWoS路线图演进、HBM4标准化推进、UCIe互联协议普及,都在推动小芯片异构集成走向系统级单芯片化[19] - 商业模式的“大”:OpenAI与Cerebras的合作被视为领先科技公司吸收AI芯片初创公司的例证,无论是通过直接收购还是大规模商业合作,将其纳入主导生态系统[19] - 初创公司挑战:SambaNova、Groq和Cerebras等被视为利基挑战者,但随着竞争加剧和客户接受度有限,许多此类初创公司难以突破与主要客户的试点部署阶段[19] - 战略试错与卡位总结:特斯拉Dojo的停摆与重启是一次昂贵的商业试错,验证了全栈自研训练芯片对非云巨头不具可复制性,但为推理侧保留了技术储备;Cerebras与OpenAI的联姻是在推理爆发前夜的精准卡位,用极致性能换取垂直场景定价权[19] - 行业背景:在摩尔定律放缓、先进封装接力、AI场景碎片化的三重背景下,晶圆级集成技术路线正在以意想不到的方式重新定义“大”的边界[19]
大芯片,再度崛起?