超低延迟推理
搜索文档
大芯片,再度崛起?
智通财经网· 2026-01-25 14:24
文章核心观点 - 2025年初AI芯片领域的两则重磅消息,使“大芯片”技术路线重回聚光灯下[1] - 特斯拉重启Dojo 3项目并转向太空人工智能计算,Cerebras与OpenAI敲定超百亿美元订单,两者代表了“大芯片”下两种不同的技术路径与商业策略[1] - 在摩尔定律放缓、先进封装发展及AI场景碎片化的背景下,晶圆级集成技术路线正在重新定义“大”的边界,并非直接复制英伟达的成功,而是在通用方案之外寻找价值洼地[21] 技术路线分野 - “大芯片”概括了两种截然不同的设计:以Cerebras为代表的晶圆级单片集成,以及以特斯拉Dojo为代表的通过先进封装集成多个芯片的“晶圆级系统”[3] - 分野根源在于对“内存墙”和“互连瓶颈”两大痛点的不同解法[3] - 传统GPU架构存在计算能力与内存带宽增长失衡的问题,例如英伟达H100相比A100计算能力增约6倍,但内存带宽仅增1.7倍[3] - 多GPU系统中,芯片间通信延迟是片上互联的数百倍,即便NVLink 6.0单GPU带宽已达3.6TB/s[3] Cerebras的晶圆级单片集成 - Cerebras WSE-3采用晶圆级单片集成,拥有4万亿晶体管、90万个AI核心和44GB片上SRAM,旨在将计算和存储置于同一硅片以解决内存墙问题[4] - 其片上互联带宽达214Pbps,是英伟达H100系统的3715倍,内存带宽达21PB/s,是H100的880倍[4] - 在Llama 3.1 8B模型上,WSE-3生成速度达1800 token/s,而H100仅为242 token/s[4] - 面临巨大工程挑战,通过将AI核心缩小至0.05平方毫米(约为H100 SM核心的1%)、冗余设计和智能路由来应对晶圆级良率问题[4] - WSE-3功耗达23千瓦,需要定制液冷循环和混合冷却剂[4] - Cerebras CS-3系统定位为推理专用机,通过存算一体架构极致降低延迟并简化软件栈[16] 特斯拉的晶圆级系统路线 - 特斯拉Dojo走晶圆级系统路线,D1芯片(645平方毫米)通过5×5阵列排列,利用台积电InFO封装技术实现高密度互连,使25颗芯片协同工作[5] - 该设计避免了单片晶圆的良率风险(D1芯片可预测试),并缓解互连瓶颈,芯片间延迟仅100纳秒,远低于传统GPU集群的毫秒级[5] - Dojo项目经历转向:2025年8月团队解散,2025年初重启Dojo 3项目,战略重心从对标10万张H100的通用训练平台,转向专注于“太空人工智能计算”[7][8] - 特斯拉调整策略为训练外采(采购6.7万张H100等效算力组建Cortex集群)和推理自研[8] - AI5芯片采用3nm制程,由台积电代工,预计2026年底量产,单颗性能接近英伟达Hopper级别,双芯片配置可接近Blackwell架构[8] - Dojo 3芯片制造合同授予三星,封装业务交由英特尔,反映了供应链调整及在争抢代工产能上的弱势[9] 商业合作与市场定位 - Cerebras与OpenAI敲定一份价值超100亿美元、承诺交付750兆瓦算力的多年采购协议,产能将在2028年前分批投入使用[1][11] - 该合作的关键在于OpenAI愿意为“超低延迟推理”支付溢价[11] - 巴克莱研报预测,未来AI推理计算需求将占通用AI总算力的70%以上,推理计算需求可达训练需求的4.5倍[11] - Cerebras架构在特定场景展现巨大性能优势:在碳捕获模拟中比H100快210倍,在AI推理上实现20倍加速[12] - 截至2024年上半年,Cerebras 87%的收入来自阿联酋的G42[12] - 2024年10月,Cerebras撤回IPO申请,据报道正洽谈新一轮10亿美元融资,估值约220亿美元[12] - OpenAI的订单金额超过了Cerebras当前的公司估值,使OpenAI成为其最大且唯一的主要客户[12] 行业竞争与生态格局 - AI芯片市场竞争激烈,AMD和英伟达产品迭代迅速,例如AMD MI350X/MI355X训练及推理速度与英伟达B200相当或更优,英伟达在2025年1月CES上推出Rubin平台[16] - 客户可用AMD等通用GPU厂商对冲英伟达,使第三条技术路线的窗口期收窄[16] - 英伟达的护城河在于CUDA生态积累、CoWoS先进封装产能锁定及HBM供应链深度绑定[8] - OpenAI为实现供应链多元化,与英伟达、AMD和博通签署协议,英伟达承诺投入1000亿美元支持OpenAI建设至少10吉瓦(相当于400万至500万个GPU)的英伟达系统[13] - 分析师指出,超大规模提供商正实现计算系统多样化:通用AI工作负载用英伟达GPU,高度优化任务用内部AI加速器,专业低延迟工作负载用Cerebras等系统[14] - 推理场景的碎片化意味着没有一种芯片架构能通吃所有场景,专用加速器存在价值于此[14] 技术发展趋势与前景 - 台积电预计2027年推出晶圆级CoWoS技术,将实现40倍于现有系统的计算能力、超过40个光罩的硅片面积、容纳60+个HBM芯片[17] - 先进封装技术使“大芯片”与“小芯片互联”界限模糊,特斯拉D2芯片曾采用CoWoS封装实现晶圆级性能并规避良率风险,未来Dojo3可能继续探索此路径[17] - “大”的边界在三个层面被重新定义:物理尺寸(如Cerebras晶圆级单芯片)、系统集成度(如晶圆级封装或整柜方案)、商业模式(如大规模独家合作)[19] - 2025年全球晶圆厂设备支出预计达1100亿美元,2026年增长18%至1300亿美元,逻辑微组件领域在2纳米制程和背面供电技术等推动下成为关键驱动力[19] - 特斯拉Dojo的停摆与重启是一次商业试错,验证了全栈自研训练芯片对非云巨头难以复制,但为推理侧保留了技术储备[21] - Cerebras与OpenAI的合作是在推理爆发前夜的精准卡位,用晶圆级架构的极致性能换取垂直场景定价权[21]
大芯片,再度崛起?
半导体行业观察· 2026-01-25 11:52
文章核心观点 - 2025年初,AI芯片领域的两则重磅消息——特斯拉重启Dojo 3项目以及Cerebras与OpenAI达成超百亿美元协议——使“大芯片”技术路线重回聚光灯下[1] - “大芯片”并非单一技术,主要分为Cerebras代表的晶圆级单片集成和特斯拉Dojo代表的晶圆级系统两种路线,旨在解决传统GPU架构的“内存墙”和“互连瓶颈”问题[2] - 行业竞争格局正在演变,Cerebras和特斯拉并未试图直接复制英伟达的成功,而是在AI算力版图的特定裂隙中寻找被通用方案忽视的价值洼地,进行错位竞争[19][20] 两种大芯片的技术分野与特点 - **技术路线分野**:“大芯片”概括了两种不同设计,Cerebras采用晶圆级单片集成,用一整片300毫米晶圆构建单一处理器;特斯拉Dojo采用晶圆级系统,通过先进封装将多个预测试芯片集成为类单芯片系统[2] - **传统GPU的瓶颈**:传统GPU架构存在处理器与内存分离的问题,从英伟达A100到H100,计算能力增加约6倍,但内存带宽仅增长1.7倍,训练时间主导因素从计算能力转向内存带宽[2] - **Cerebras的晶圆级单片方案**:2024年发布的Cerebras WSE-3拥有4万亿晶体管、90万个AI核心和44GB片上SRAM,通过将计算和存储集成在同一硅片来提升性能[3] - **Cerebras的性能数据**:WSE-3片上互联带宽达214Pbps,是英伟达H100系统的3715倍;内存带宽高达21PB/s,是H100的880倍;在Llama 3.1 8B模型上生成速度达1800 token/s,而H100仅为242 token/s[3] - **Cerebras的工程挑战与解决方案**:晶圆级单片面临良率挑战,Cerebras将每个AI核心缩小到0.05平方毫米(仅为H100 SM核心的1%),并通过冗余设计和智能路由绕过缺陷区域,但需要专门固件映射和复杂散热系统,WSE-3功耗达23千瓦[3] - **特斯拉的晶圆级系统方案**:Dojo的D1芯片面积为645平方毫米,通过5×5阵列排列并利用台积电InFO封装技术实现高密度互连,使25颗芯片协同工作,芯片间延迟仅100纳秒,远低于传统GPU集群的毫秒级[4] 特斯拉Dojo的战略转向与挑战 - **项目重启与战略转向**:特斯拉在2025年8月解散Dojo团队后,于短短半年后重启Dojo 3项目,其战略重心发生根本转变,目标从训练地球上的自动驾驶模型转向专注于“太空人工智能计算”[5][6] - **初始定位与调整原因**:Dojo最初被定位为对标10万张H100的通用训练平台,摩根士丹利一度估值其能带来5000亿美元增量,但核心团队离职,项目在2024年底被叫停,特斯拉转而采购6.7万张H100等效算力组建Cortex集群[7] - **转向原因分析**:英伟达的护城河在于CUDA生态积累、CoWoS先进封装产能锁定及HBM供应链深度绑定,特斯拉自研方案需在软件适配、集群调度等方面补课数年,而英伟达可能已迭代两至三代产品[7] - **新的战略选择**:特斯拉选择训练外采和推理自研,马斯克表示在两种完全不同的AI芯片设计上分散资源不合理,后续AI5、AI6等芯片在推理方面将非常出色[7] - **AI5芯片细节**:AI5芯片采用3nm制程,由台积电代工,预计2026年底量产,单颗性能接近英伟达Hopper级别,双芯片配置则可接近Blackwell架构[7] - **太空算力新赛道**:Dojo 3面向太空算力部署,马斯克计划通过SpaceX未来的IPO融资,利用星舰部署可在持续日照下运行的算力卫星,该赛道没有英伟达的生态壁垒,是全新应用场景[8] - **供应链调整**:特斯拉已将Dojo 3芯片制造合同授予三星,芯片封装业务交由英特尔承接,这反映了台积电产能饱和无法提供积极支持,以及特斯拉在争抢代工产能上的弱势[8] Cerebras的商业突破与市场定位 - **与OpenAI的巨额协议**:Cerebras与OpenAI敲定了一份价值超百亿美元、承诺交付750兆瓦算力的多年采购协议,该产能将在2028年前分批投入使用[1][10] - **协议的战略意义**:该订单是OpenAI在推理爆发前夜的一次精准卡位,OpenAI愿意为“超低延迟推理”支付溢价[10] - **推理市场需求背景**:巴克莱研报预测,未来AI推理计算需求将占通用AI总算力的70%以上,推理计算需求可达训练计算需求的4.5倍[10] - **OpenAI的考量**:OpenAI基础设施负责人表示,当AI实时响应时,用户会做更多事情、停留更长时间、运行更高价值的工作负载[10] - **Cerebras的架构优势**:其独特速度来自于将大量计算、内存和带宽集成在单个巨型芯片上,消除了传统硬件中减慢推理速度的瓶颈[11] - **性能表现**:Cerebras WSE-3在碳捕获模拟中比H100快210倍,在AI推理上实现20倍加速[11] - **公司的财务状况与客户依赖**:2024年上半年,Cerebras 87%的收入来自阿联酋的G42;2024年10月公司撤回IPO申请,最新报道称正在洽谈新一轮10亿美元融资,估值约220亿美元;OpenAI的订单金额超过了Cerebras目前的公司估值,使其成为最大也是唯一的主要客户[11] - **历史纠葛与收购可能**:OpenAI CEO Sam Altman早在2017年就个人投资了Cerebras,2018年埃隆·马斯克曾试图收购Cerebras,知情人士认为若OpenAI财务状况更强劲,或许会直接收购该公司[12][13] - **促成供应链多元化**:OpenAI在2025年也与英伟达、AMD和博通签署了协议,英伟达承诺投入1000亿美元支持OpenAI,建设至少10吉瓦的英伟达系统(相当于400万至500万个GPU)[13] - **市场定位分析**:分析师指出,这促使超大规模提供商实现计算系统多样化,针对通用AI工作负载使用英伟达GPU,针对高度优化任务使用内部AI加速器,针对专业低延迟工作负载使用Cerebras等系统[13] 大芯片路线的生存空间与竞争策略 - **激烈的市场竞争**:AI芯片市场竞争激烈,AMD推出了MI350X和MI355X GPU,训练及推理速度与英伟达B200相当或更优;英伟达在CES上推出了Rubin平台,更新速度令人咋舌[14] - **Cerebras的错位竞争策略**:CS-3系统不以训练平台自居,而是主打推理专用机,通过存算一体架构将推理延迟压到极致,同时简化软件栈,瞄准生态锁定效应较弱的推理市场[15] - **OpenAI订单的验证作用**:OpenAI的百亿订单是用真金白银验证专用架构的商业逻辑,当推理成本占运营支出大头时,15倍的性能提升足以重塑供应商格局[15] - **特斯拉押注先进封装**:台积电预计2027年推出晶圆级CoWoS技术,将实现40倍于现有系统的计算能力、超过40个光罩的硅片面积、容纳60+个HBM芯片,这为晶圆级集成量身定制[16] - **技术界限模糊化**:当封装技术允许在单一衬底上集成数十颗预测试芯片和HBM时,“大芯片”与“小芯片互联”之间的界限将变得模糊,特斯拉D2芯片和未来的Dojo3可能探索此路线[16] “大”的边界重新定义 - **物理尺寸的“大”**:Cerebras的晶圆级单芯片是技术奇迹,但商业价值限定在特定场景,其WSE系统价格约200万至300万美元,部署在阿贡国家实验室、梅奥诊所及与G42合作的Condor Galaxy设施,不会取代GPU成为通用训练平台,但可在推理、科学计算等对延迟敏感领域开辟新战场[18] - **系统集成度的“大”**:特斯拉的晶圆级封装、英伟达GB200 NVL72的整柜方案正在成为主流,SEMI报告显示2025年全球晶圆厂设备支出将达1100亿美元,2026年增长18%至1300亿美元[18] - **技术推动力**:台积电CoWoS路线图演进、HBM4标准化推进、UCIe互联协议普及,都在推动小芯片异构集成走向系统级单芯片化[19] - **商业模式的“大”**:OpenAI与Cerebras的合作被视为领先科技公司吸收AI芯片初创公司的例证,无论是通过直接收购还是大规模商业合作,将其纳入主导生态系统[19] - **初创公司挑战**:SambaNova、Groq和Cerebras等被视为利基挑战者,但随着竞争加剧和客户接受度有限,许多此类初创公司难以突破与主要客户的试点部署阶段[19] - **战略试错与卡位总结**:特斯拉Dojo的停摆与重启是一次昂贵的商业试错,验证了全栈自研训练芯片对非云巨头不具可复制性,但为推理侧保留了技术储备;Cerebras与OpenAI的联姻是在推理爆发前夜的精准卡位,用极致性能换取垂直场景定价权[19] - **行业背景**:在摩尔定律放缓、先进封装接力、AI场景碎片化的三重背景下,晶圆级集成技术路线正在以意想不到的方式重新定义“大”的边界[19]