文章核心观点 - 人工智能对计算能力和能效的需求激增,传统半导体渐进式改进和冯·诺依曼架构已无法满足,行业需要一种全新的硅芯片架构 [1] - Ambient Scientific公司通过其DigAn技术和GPX系列AI处理器,提供了一种创新的“可配置矩阵计算机”方案,从根本上解决了传统架构在AI计算中的内存访问和并行计算效率低下问题 [9][19] - 该方案在性能和功耗上实现了巨大突破,性能可比MCU高100多倍,或在同等性能下能耗不到GPU的1%,为边缘AI和数据中心应用带来了变革潜力 [13][19] 行业背景与挑战 - 人工智能领域对计算能力和电力的需求巨大,半导体行业难以满足,边缘AI设备同样受限于处理器性能慢和功耗高 [1] - 大型语言模型一次推理可能需要1000亿到10000亿次运算,传统架构执行如此海量运算时,内存访问时间成为关键瓶颈 [4] - 传统CPU、GPU或NPU等架构,其速度和功耗仍受限于内存访问,无法将足够内存紧密靠近计算单元 [5] 传统架构的局限性 - 经典的冯·诺依曼架构擅长处理顺序指令,但不适用于需要大规模并行矩阵计算的人工智能模型 [4] - 将神经网络工作负载编译到冯·诺依曼架构会产生海量运算,且内存与计算模块物理分离导致性能低下、功耗高、成本昂贵 [4][5] - 脉动阵列在概念上更契合神经网络,但以往硅芯片实现难以做到密集互连,且同样存在内存访问问题 [6][8] Ambient Scientific的创新解决方案 - 公司开发了DigAn技术,能够在芯片级制造“可配置矩阵计算机”,其核心是一种新型的“模拟MAC”计算单元 [9] - 模拟MAC针对占AI工作负载95%的MAC运算优化,并支持内存计算,通过HyperPort 3D内存架构实现内存元件在MAC单元上的垂直堆叠,解决了内存与计算分离的问题 [11] - 该技术将模拟MAC模块排列成与神经网络拓扑对应的形状,每个DigAn单元是一个独立单片电路,可在一个周期内计算一整层神经元 [11] 性能与功耗突破 - 一个DigAn计算块可以在一个周期内计算一个1×32×8矩阵,而传统AI处理器需要38,600个周期 [13] - 一个典型的1×32×8神经网络矩阵的32层运算,在传统架构中需要1,235,200个时钟周期,而在DigAn矩阵计算机中仅需32个周期 [13] - 将运算次数从1,235,200次减少到32次,带来了显著提升:性能比同等功耗的典型MCU高出100多倍,或性能与典型GPU相同但能耗不到其1% [13] GPX系列芯片产品化 - GPX芯片系列是DigAn技术的实现,将DigAn模块组合成可扩展的AI处理器内核(MX8内核)以适应不同应用 [14] - 截至2025年底,GPX系列包括GPX10和GPX10 Pro,其中GPX10 Pro采用两组各包含五个MX8内核的集群,是一款集成Arm Cortex-M4F控制器的完整系统级芯片(SoC) [16] - 尽管底层技术全新,但GPX处理器支持TensorFlow、PyTorch等主流机器学习框架,并通过Nebula SDK提供完整工具链,便于工程师使用熟悉平台进行开发 [18] 未来前景 - 由于MX8 AI内核易于扩展,产品路线图设想未来的GPX设备可扩展到8000个内核,用于数据中心服务器和超级计算机 [19] - 对于优先考虑性能和功耗的AI系统开发者,这些新芯片和DigAn架构预示着AI处理变革时代的到来 [19]
冯诺依曼架构的新替代方案
半导体行业观察·2025-12-24 10:16