大芯片,再度崛起?
智通财经网·2026-01-25 14:24

文章核心观点 - 2025年初AI芯片领域的两则重磅消息,使“大芯片”技术路线重回聚光灯下[1] - 特斯拉重启Dojo 3项目并转向太空人工智能计算,Cerebras与OpenAI敲定超百亿美元订单,两者代表了“大芯片”下两种不同的技术路径与商业策略[1] - 在摩尔定律放缓、先进封装发展及AI场景碎片化的背景下,晶圆级集成技术路线正在重新定义“大”的边界,并非直接复制英伟达的成功,而是在通用方案之外寻找价值洼地[21] 技术路线分野 - “大芯片”概括了两种截然不同的设计:以Cerebras为代表的晶圆级单片集成,以及以特斯拉Dojo为代表的通过先进封装集成多个芯片的“晶圆级系统”[3] - 分野根源在于对“内存墙”和“互连瓶颈”两大痛点的不同解法[3] - 传统GPU架构存在计算能力与内存带宽增长失衡的问题,例如英伟达H100相比A100计算能力增约6倍,但内存带宽仅增1.7倍[3] - 多GPU系统中,芯片间通信延迟是片上互联的数百倍,即便NVLink 6.0单GPU带宽已达3.6TB/s[3] Cerebras的晶圆级单片集成 - Cerebras WSE-3采用晶圆级单片集成,拥有4万亿晶体管、90万个AI核心和44GB片上SRAM,旨在将计算和存储置于同一硅片以解决内存墙问题[4] - 其片上互联带宽达214Pbps,是英伟达H100系统的3715倍,内存带宽达21PB/s,是H100的880倍[4] - 在Llama 3.1 8B模型上,WSE-3生成速度达1800 token/s,而H100仅为242 token/s[4] - 面临巨大工程挑战,通过将AI核心缩小至0.05平方毫米(约为H100 SM核心的1%)、冗余设计和智能路由来应对晶圆级良率问题[4] - WSE-3功耗达23千瓦,需要定制液冷循环和混合冷却剂[4] - Cerebras CS-3系统定位为推理专用机,通过存算一体架构极致降低延迟并简化软件栈[16] 特斯拉的晶圆级系统路线 - 特斯拉Dojo走晶圆级系统路线,D1芯片(645平方毫米)通过5×5阵列排列,利用台积电InFO封装技术实现高密度互连,使25颗芯片协同工作[5] - 该设计避免了单片晶圆的良率风险(D1芯片可预测试),并缓解互连瓶颈,芯片间延迟仅100纳秒,远低于传统GPU集群的毫秒级[5] - Dojo项目经历转向:2025年8月团队解散,2025年初重启Dojo 3项目,战略重心从对标10万张H100的通用训练平台,转向专注于“太空人工智能计算”[7][8] - 特斯拉调整策略为训练外采(采购6.7万张H100等效算力组建Cortex集群)和推理自研[8] - AI5芯片采用3nm制程,由台积电代工,预计2026年底量产,单颗性能接近英伟达Hopper级别,双芯片配置可接近Blackwell架构[8] - Dojo 3芯片制造合同授予三星,封装业务交由英特尔,反映了供应链调整及在争抢代工产能上的弱势[9] 商业合作与市场定位 - Cerebras与OpenAI敲定一份价值超100亿美元、承诺交付750兆瓦算力的多年采购协议,产能将在2028年前分批投入使用[1][11] - 该合作的关键在于OpenAI愿意为“超低延迟推理”支付溢价[11] - 巴克莱研报预测,未来AI推理计算需求将占通用AI总算力的70%以上,推理计算需求可达训练需求的4.5倍[11] - Cerebras架构在特定场景展现巨大性能优势:在碳捕获模拟中比H100快210倍,在AI推理上实现20倍加速[12] - 截至2024年上半年,Cerebras 87%的收入来自阿联酋的G42[12] - 2024年10月,Cerebras撤回IPO申请,据报道正洽谈新一轮10亿美元融资,估值约220亿美元[12] - OpenAI的订单金额超过了Cerebras当前的公司估值,使OpenAI成为其最大且唯一的主要客户[12] 行业竞争与生态格局 - AI芯片市场竞争激烈,AMD和英伟达产品迭代迅速,例如AMD MI350X/MI355X训练及推理速度与英伟达B200相当或更优,英伟达在2025年1月CES上推出Rubin平台[16] - 客户可用AMD等通用GPU厂商对冲英伟达,使第三条技术路线的窗口期收窄[16] - 英伟达的护城河在于CUDA生态积累、CoWoS先进封装产能锁定及HBM供应链深度绑定[8] - OpenAI为实现供应链多元化,与英伟达、AMD和博通签署协议,英伟达承诺投入1000亿美元支持OpenAI建设至少10吉瓦(相当于400万至500万个GPU)的英伟达系统[13] - 分析师指出,超大规模提供商正实现计算系统多样化:通用AI工作负载用英伟达GPU,高度优化任务用内部AI加速器,专业低延迟工作负载用Cerebras等系统[14] - 推理场景的碎片化意味着没有一种芯片架构能通吃所有场景,专用加速器存在价值于此[14] 技术发展趋势与前景 - 台积电预计2027年推出晶圆级CoWoS技术,将实现40倍于现有系统的计算能力、超过40个光罩的硅片面积、容纳60+个HBM芯片[17] - 先进封装技术使“大芯片”与“小芯片互联”界限模糊,特斯拉D2芯片曾采用CoWoS封装实现晶圆级性能并规避良率风险,未来Dojo3可能继续探索此路径[17] - “大”的边界在三个层面被重新定义:物理尺寸(如Cerebras晶圆级单芯片)、系统集成度(如晶圆级封装或整柜方案)、商业模式(如大规模独家合作)[19] - 2025年全球晶圆厂设备支出预计达1100亿美元,2026年增长18%至1300亿美元,逻辑微组件领域在2纳米制程和背面供电技术等推动下成为关键驱动力[19] - 特斯拉Dojo的停摆与重启是一次商业试错,验证了全栈自研训练芯片对非云巨头难以复制,但为推理侧保留了技术储备[21] - Cerebras与OpenAI的合作是在推理爆发前夜的精准卡位,用晶圆级架构的极致性能换取垂直场景定价权[21]

大芯片,再度崛起? - Reportify