处理器，进入混战时代

文章核心观点 - 人工智能工作负载的快速演进正驱动处理器架构向更专业化、异构化的方向发展，没有任何单一处理器能胜任所有任务，协调不同架构成为关键挑战[1][2] - 成功的协处理器设计关键在于平衡专用效率与通用可编程性，并最大限度地减少数据传输能耗和软件集成摩擦，而非单纯追求峰值算力[2][6] - 处理器与协处理器的界限正变得模糊，出现了紧耦合、松耦合及基于互连 Fabric 的多种协同模式，RISC-V 等开放指令集架构为处理器与加速器的融合提供了新范式[6][7] - 系统级效率和数据移动管理，而非单纯计算能力，正成为异构处理系统设计的核心挑战，需要从芯片、封装到系统级的协同设计与仿真[8][9] 处理器架构的演进与专业化驱动 - 过去50年CPU一直是主力，但早期如8086就已需要8087浮点协处理器辅助特定工作负载[1] - 音频、手机应用催生了数字信号处理器（DSP），其通过分离数据/指令流和专用乘加逻辑来优化傅里叶变换等任务，后扩展至编解码、调制解调等功能[1] - 计算机辅助设计（CAD）和商业游戏推动了图形处理器（GPU）的快速发展，使人工智能从基于规则转向基于模型[1] - 新处理器类别的出现由功耗和性能驱动，但完全可编程性决定了其能否成功；只有当CPU效率低下时，架构师才会引入专门化设计[2] 人工智能对硬件架构的影响与挑战 - 人工智能工作负载正从短小的推理内核转向长时间运行的智能体工作负载，涉及推理循环、工具使用和跨组件交互[2] - 挑战从构建更快的计算模块，转向在通用可编程性和ASIC级效率之间取得平衡[2] - 在包含多个异构处理单元（如CPU、NPU）的系统中，通常由CPU作为高级主机协调工作，将大量计算（如大型语言模型的数学运算）卸载到NPU等协处理器以提升效率[3] - 神经处理单元（NPU）最初是运行AI模型的固定硬件模块，但随着模型复杂化（如需要处理非乘加操作或新算子），需要增加灵活性[3][4] - Arm认为，随着智能体AI普及，所有实现智能体所需的工作受限于CPU性能，导致数据中心出现瓶颈，因此需要越来越多的CPU[4] 协处理器架构的复杂化与新范式 - 协处理架构现在涵盖紧耦合单元、松耦合加速器和基于Fabric的分布式系统，各有其优劣势[6] - RISC-V指令集架构为高度专业化的处理器和加速器提供了独特优势，基于RISC-V的加速器正涌现，其中处理单元是加速器的一部分，可消除独立单元间控制与数据传输的开销[6] - 这种融合范式适用于向CPU添加功能，或向NPU添加更通用的处理能力，例如将小型RISC-V内核更靠近乘加阵列以提高效率[6] - 除了电子处理器，光子人工智能加速器等新型处理器也因其高速、低功耗优势而受到关注[7] - 计算的执行位置不断变化，影响数据移动和存储；随着AI成熟（尤其是智能体），需要更多的CPU工作来配合一定数量的乘加单元[7] 系统级效率与设计挑战 - 对于参数量庞大的大型语言模型，核心挑战在于高效的数据移动，而非单纯数学计算；必须在处理能力和数据带宽间找到平衡点[8] - 系统级规划需要将设计周期左移，在集成电路、封装和系统级进行协同设计与仿真[8] - 尽管UCIe和CXL等标准解决了物理和协议兼容性，但无法解决系统级行为集成问题（如流量管理、内存排序、服务质量预期差异），因此需要一致的互连层来确保可预测的系统行为[8][9] - 硬件开发周期长（制造芯片一年，集成到产品一年，市场流通数年），如何确保片上系统面向未来是一大挑战[9] - 为特定工作负载打造紧密相关的硬件效率更高，但面临工作负载或模型变更的风险[9] - 架构师需要在专业性能与支持快速演进的AI工作负载的灵活性之间找到平衡，使得系统级调度、数据移动和软件集成变得与原始计算吞吐量同等重要[9] 面向未来的处理器设计考量 - NPU的设计从处理卷积神经网络，演进到处理更复杂的Transformer和大型语言模型，内存占用成为新瓶颈，并进一步向混合多模态模型发展[9][10] - 优化已知的常见算子相对容易，真正棘手的是处理未预先规划的算子，效率问题常出于此[10] - 支持现有和未来可能出现的数据类型需要设计具有面向未来灵活性的引擎，但这需要在面积效率和可编程性之间进行权衡[10] - 任务专用处理器通过匹配数据类型和计算原语提高效率，但紧密连接的“辅助”加速器并不能真正解放CPU；历史表明，真正的扩展性在于完全可编程且与CPU解耦的独立处理器（如GPU、DSP的演进）[7] - 各种方案（CPU邻近加速、GPU式引擎、专用加速器、异构子系统）均需权衡编程易集成性、灵活性、软件栈开销、数据传输成本和最终效率[7]