Workflow
苹果Fusion架构
icon
搜索文档
数据中心架构,革新
半导体芯闻· 2026-06-11 17:43
文章核心观点 - 智能体人工智能的兴起正在从根本上重塑数据中心和计算芯片的架构,推动从以GPU为中心的加速器架构向CPU、GPU、NPU紧密集成的异构系统转变,CPU的角色从数据加载器转变为整个智能体工作流的协调与编排引擎[2][3][4] - 为满足智能体工作负载对低延迟、高带宽和复杂协调的需求,行业趋势是发展更紧密耦合的异构SoC/芯片组、统一内存架构,并将更多计算能力推向边缘[4][5][6] - 架构转变带来了巨大的验证挑战,包括功能与性能的协同验证、3D-IC堆叠的物理影响分析,以及硬件级安全监控的集成[2][10][12] 数据中心架构转变 - 数据中心设计正从优化GPU原始吞吐量转向验证复杂的混合系统,其中CPU负责协调长时间运行的推理循环、管理上下文、内存和数据移动,而GPU/加速器处理繁重计算[2] - Arm预测,智能体人工智能将要求数据中心在相同功耗下提供高达四倍的CPU核心密度,加速器的性能愈发依赖整个系统的效率、响应速度和平衡性[3] - 基础设施正从独立服务器驱动演变为异构机架级系统,处理器开发商正将GPU和CPU置于同一机架以降低延迟,模仿过去服务器公司的做法[4] - 智能体工作负载引入了不可预测的控制流、不规则内存访问和密集I/O,要求更紧密的CPU-加速器耦合、更高效的数据传输、更高带宽的内存访问以及支持一致性、隔离性和可扩展性的系统架构[3] 芯片架构与集成趋势 - 技术正重新转向紧密集成的异构SoC和芯片组,近期案例如英特尔酷睿Ultra系列、英伟达RTX Spark PC芯片、苹果Fusion架构、AMD APU及英伟达Vera Rubin平台[4] - 现代面向AI的智能SoC专为连续、异步、多步骤执行循环设计,将CPU、GPU等组件集成到同一芯片,共享统一内存带宽,大幅降低延迟并提升两端运算能力[5] - PCIe、CXL、芯片间一致性链路等技术为系统设计人员提供了平衡灵活性、带宽、延迟和效率的新方法[3] - 为满足智能体AI需求,芯片设计所需的PCIe通道数量激增,有客户设计需要上百条通道,而用于AI训练的通常只有16条,通道和带宽需求至少是以前的五倍,且低延迟变得至关重要[9] 边缘计算与分布式格局 - 智能体AI的崛起正直接影响云计算与边缘计算的整体格局,由于数据中心计算能力可能无法满足代币需求的快速增长,市场对将GenAI计算推向新型AI边缘设备兴趣浓厚[6] - 市场需要价格远低于1000美元、功耗与家用电器相当的专用代理令牌服务器,未来或将看到被动式风冷设备实现PetaOp级别推理能力,适用于家庭和办公室[6] - 预计1亿台分布式代理令牌引擎可提供超过ZettaOp级别的推理计算能力,而无需大规模建设数据中心或发电厂[6] - 实现新计算模式的关键在于:将AI模型适配到去中心化计算模型,以及采用高效节能、专为边缘设计的推理处理能力(非重新利用的GPU)[6] 验证挑战与复杂度提升 - 智能体AI芯片中存在两种不同的计算范式,验证工作量巨大,需确保它们能协同工作且无冲突,并解决内存瓶颈等问题[10] - 验证需涵盖功能验证和更彻底的性能验证,后者对仿真产生巨大需求[10] - 所有芯片将采用3D-IC堆叠技术,验证需理解高交换总线带来的热效应等物理影响,确保高性能混合架构芯片的所有环节完美运行[11] - 随着安全风险认知加深,客户更关注硬件安全及安全监控集成,需确保系统硬件层面的访问控制安全,防止代理执行不受信任的代码[12] CPU角色演变与交互变化 - CPU正从数据加载器转变为数据编排器,整个智能体工作流的编排层由CPU处理,导致对CPU的需求上升[3][4] - 在智能体AI中,CPU作为整个系统的协调器,与文件、网络、磁盘交互以读写数据,并根据GPU(大脑)的指令执行操作,与GPU的交互更为频繁[8] - 智能体AI的应用(如创建PPT)更加以CPU为中心,使得CPU再次成为关注焦点[9]