AI芯片十年路线图：英伟达和谷歌等联手撰文

文章核心观点 - 人工智能与硬件的发展轨迹密不可分，但当前缺乏统一的长期战略愿景来协调两者发展，导致创新碎片化并面临能源消耗不可持续的挑战[4][5] - 文章提出一个为期十年的人工智能与硬件协同设计与开发路线图，核心目标是实现人工智能训练和推理效率提升1000倍，并构建节能、自优化、无缝衔接且以人为本的智能系统[6] - 实现这一愿景需要根本性的跨层协同设计，涵盖从硬件技术、算法范式到应用与社会影响的各个层面，并通过学术界、产业界、政府及社区的深度合作来推动[6][21][23] 重塑计算和人工智能基础，实现1000倍效率提升 - 实现1000倍效率提升需要人工智能模型与硬件架构的深度协同创新，重点应对数据传输瓶颈[8] - 需转向内存沉浸式计算，通过计算和内存的密集三维集成实现超高带宽和低能耗[8] - 需开发低复杂度但高质量的人工智能模型，如混合模型、香农启发式模型等，以在不牺牲精度的前提下降低计算和内存需求[8] - 硬件感知模型需通过冗余减少、低秩低精度训练等技术进一步适应系统约束[8] - 结合跨层优化和透明的基准测试框架，推动模型、编译器、运行时、架构等紧密协同演进，以最大化每焦耳智能[8] 革新设计生产力和适应性 - 人工智能创新速度远超硬件和系统设计速度，需将人工智能融入开发每个阶段，构建人工智能在环设计工作流程[9] - 开放数据集和标准化基准对于电子设计自动化的透明度、可复现性和进步至关重要[9] - 利用专门的大型和小型语言模型实现细粒度的任务-智能体对齐，可以自动化并加速设计子任务，同时提升智能效率[9] 构建可靠且值得信赖的人工智能系统 - 人工智能的可靠性和可信度需通过权衡准确性、鲁棒性和效率来理解，鲁棒性必须涵盖模型和硬件[10] - 人工智能硬件范式应根据其在多维权衡曲面上的位置进行评估，优秀方案应在关键指标上接近帕累托最优[10] - 实现可靠性需要形式化验证、基于物理的约束和运行时监控[10] - 基准测试必须超越MLPerf，将鲁棒性、可解释性和可持续性纳入考量[10] 用于科学发现、机器人和自主代理的物理人工智能 - 人工智能创新的下一个飞跃在于将数据驱动学习与物理定律相结合，物理信息人工智能为建模科学和工程领域的核心多尺度现象提供了原则性方法[11] - 物理和具身人工智能系统对能效、实时响应和鲁棒性提出了严格的要求，需要学习、控制和硬件之间的紧密集成[11] - 该领域进展受到缺乏统一基准、数据集和可扩展求解器的阻碍[11] - 新兴的潜在世界模型可能为未来人工智能系统中集成符号推理、物理信息先验和更高效的决策机制奠定基础[11] 解决核心瓶颈并统一人工智能与硬件演进 - 未来前沿在于开发紧凑、节能的模型，使其在性能上与前沿模型媲美，同时能在边缘和嵌入式平台上高效运行[12] - 需要持续创新，结合注意力机制与互补架构、算法稀疏性、状态空间模型和系统级优化，以提高效率、可扩展性和泛化能力[12] - 下一代人工智能计算平台将基于异构的、以内存为中心的架构构建，集成人工智能加速器、可编程架构和量子处理器[12] - 跨领域重点包括人工智能与硬件的协同设计、全栈能耗优化、人工智能驱动的芯片和系统自动化以及大规模集群效率[12] - 随着智能体人工智能系统能力提升，人机交互必须始终是关注焦点，确保人类和智能体能够无缝协作[12] 人工智能与硬件的实践：迈向协调一致的全球影响 - 一个具有韧性的AI生态系统依赖于严谨的学术研究和批判性评估，以确保技术进步能有效转化为实际应用[13] - 在整个技术栈上协调一致的AI+硬件工作对于应对系统性挑战至关重要，这些挑战包括将试点系统扩展到持续部署、管理前沿模型攀升的成本和能源需求，以及弥合开放式学术研究与产业目标之间的差距[13] - 通过协调一致的政策、共享资源和持续合作，AI和硬件创新可以以可持续、公平且具有全球影响力的方式向前发展[13] 构建可持续的产学研政伙伴关系 - 实现宏伟愿景需要学术界、产业界和政府之间的深度合作[14] - 扩大诸如国家人工智能研究资源等政府举措，将有助于实现计算、数据和模型的民主化获取[14] - 弥合学术界长期探索性研究与产业界短期产品驱动型开发之间的鸿沟，需要共享基础设施、开源协作以及能够结合学术创造力与产业规模和重点的政策框架[14] 背景与动机 - 人工智能模型呈指数级增长，但发展轨迹难以为继，每一代前沿模型需要数量级更高的能源和内存带宽，单次训练运行消耗数百万千瓦时[16] - 当今以计算为中心的基础设施存在“内存墙”性能瓶颈，传输数据所消耗的能量超过了计算数据所消耗的能量[16] - 软件框架和算法进步速度远超硬件开发周期，缺乏系统性的协同设计导致了各自为政的局面[17] - 未来发展需要重新思考“扩展”本身，采用节能、自优化和架构自适应的系统，并以每焦耳的智能、可信度和适应性作为衡量成功的标准[17][18] 激进变革的理由 - 人工智能的扩展应从以计算能力提升为核心转向以计算能力优化为核心，未来系统必须具备节能意识、自我优化能力和架构自适应性[20] - 需从以计算为中心向以内存和数据为中心的架构转变，以突破内存和性能瓶颈，这要求在计算堆栈的各个层面进行创新，并通过协同设计确保效率、可扩展性和设计生产力同步提升[20] AI+硬件协同演化的多层次愿景 - 未来进步来自三个抽象层面的协同创新：硬件技术、算法和范式、以及应用和社会影响，它们构成一个紧密耦合的动态反馈回路[22][23] - 硬件层定义性能、能耗和可扩展性边界；算法层将硬件限制转化为高效方法；应用层驱动新要求并激励整个技术栈创新[23] - 这种相互依赖性要求持续的跨层协同设计，使人工智能帮助设计硬件，硬件加速人工智能，两者共同演进以响应社会优先事项[23] 硬件层：硬件技术 - 硬件设计需进行根本性创新以实现千倍效率提升，关键方向包括以内存为中心的架构、高密度3D单片集成、3D芯片堆叠、内存计算和模拟人工智能加速器[25] - 连接性和计算协同设计至关重要，包括光子和光电互连以及人工智能优化的系统拓扑和路由策略[25] - 量子-经典融合为混合系统开辟新机遇，将经典人工智能流水线与量子处理器相结合[28] - 需要人工智能驱动的电子设计自动化成为硬件工作流程的核心组成部分，利用语言模型来自动化设计空间探索、代码生成、验证和系统级协同优化[28] 算法层：算法与范式 - 算法需具备硬件感知能力，硬件需具备人工智能自适应能力，以弥合人工智能演进周期（月）与硬件演进周期（年）的差距[29] - 人工智能在环设计自动化将彻底改变架构、编译器和系统的构思方式，使基于学习的方法能近乎实时地优化内存层次结构、互连和微架构[29] - 硬件感知的训练范式将通过低精度计算、稀疏性、模块化和内存高效执行来提高效率[29] - 新的学习范式，如物理信息学习和潜在世界模型，承诺构建能够推理物理过程而不仅仅是拟合数据的AI系统[29] 应用层：应用与社会影响 - 人工智能系统最终必须满足人类和地球的需求，同时保持计算的可持续性[30] - 到本十年末，训练一个前沿模型所消耗的能源可能相当于整个国家的能源消耗，引发环境、经济和伦理问题[30] - 现实世界的应用对能源、延迟、鲁棒性等提出的限制，反过来推动新算法范式的出现和对硬件的具体设计目标[30] - 衡量成功的标准必须从原始吞吐量转向每焦耳的智能，使技术进步与全球可持续发展目标保持一致[31] 跨层协同设计：从各自为政到协同增效 - 未来的变革源于跨层的协同设计，算法必须适应物理限制，硬件必须演进以服务于学习动态，系统软件必须充当连接组织[32] - 优化端到端能源利用需要统一的抽象概念，将模型结构与芯片布局、运行时调度乃至散热策略联系起来[32] - 利用人工智能模型进行硬件生成、验证和仿真，可以将从概念到原型的周期从数年缩短到数月甚至数周[33] 硬件技术的关键要点与挑战 - 系统级限制（供电、散热、可靠性、数据传输）已成为比芯片级因素更重要的制约因素，需要在机架和整个计算集群间进行协同设计[39] - 数据移动已成为主要瓶颈，跨内存层次结构和互连移动数据的能量成本远超算术运算[39] - 连接性与计算能力同样重要，性能扩展越来越依赖于互连带宽、延迟和拓扑结构[39] - 密集的3D集成和异构封装打破了逻辑、内存和互连之间的传统界限，实现了新的算法数据流[39] - 硬件必须具备适应性，必须是可重新配置和可编程的，以跟上快速发展的人工智能算法[40] - 人工智能必须帮助设计硬件，未来系统的规模和复杂性需要人工智能驱动的EDA，形成闭环反馈[40] 硬件层的主要挑战与机遇 - 主要挑战包括内存和数据传输壁垒、连接扩展极限、热力及电力输送限制以及设计复杂性爆炸式增长[42][44] - 关键机遇包括：1) 采用跨层、系统中心的AI硬件设计视角，需要新的硬件抽象和评估方法[45]；2) 以内存为中心和内存内计算作为算法使能器，提供卓越的能源效率和计算密度[46]；3) 利用3D集成与异构封装实现面向新型数据流的设计[47]；4) 通过光子和光电连接实现扩展性突破[48]；5) 进行连接性-计算-拓扑协同设计[49]；6) 发展人工智能驱动的设计自动化作为关键倍增器[50]；7) 开发用于超高密度3D集成电路的热支架材料[51] 关键问题及答案（硬件） - 硬件与算法创新均不足，需要两者不断协同演进[52][53] - 专业化和通用性可通过分层和模块化设计共存，例如通过专用加速器、Chiplet和可编程接口组合[54] - 人工智能系统能容忍相当程度的近似性和异构性，许多工作负载本质上是统计性的，可结合鲁棒性感知训练等技术[55] - 传统工作流程无法跟上AI创新，但人工智能在环硬件设计、生成式EDA和可重用芯片生态系统可显著缩短设计周期[55] - 成功衡量标准应从峰值浮点运算次数转向系统层面指标，如每焦耳智能、端到端延迟和对不断演进算法的适应能力[56] - 社会和应用需求（如能效、鲁棒性、边缘部署）必须反馈到硬件设计中，确保创新与社会影响保持一致[57] 重要的未来趋势（硬件） - 人工智能系统进步的定义正在转变，从优化单一维度（模型规模）转向融合解决方案以提升所有维度的设计质量，智能效率将成为核心指标[61][62] - 近期使能技术（2-5年）包括：支持量化和稀疏性的领域特定AI加速器、异构计算节点、高带宽内存集成、3D封装和基于芯片的架构、硬件感知编译器、生态系统标准化、边缘和设备端AI以及混合统一内存层次结构[64][65] - 中长期使能技术（6-10年）包括：量子加速人工智能、光子和光学互连、光子加速器和模拟-光学混合计算、更广泛的内存计算和模拟计算、密集3D异构集成、超越CMOS的新材料技术以及超可扩展分布式人工智能系统[65][66] 可扩展人工智能+硬件的算法和范式 - 算法创新带来的效率提升效果可媲美甚至超越单纯的硬件扩展，过去的架构变革表明根本性变革能释放此前无法企及的可扩展性和效率[79] - 训练和推理对系统提出截然不同的要求，必须视为不同的协同设计目标，训练优先考虑吞吐量和统计效率，推理（尤其是物理AI系统）则需在严格功率预算下实现毫秒级延迟和极高能效[79] - 实现物理人工智能效率的量级提升，需要针对实时推理专门优化的软硬件堆栈，包括可预测的内存层次结构、局部性优先执行和领域专用模型[80] - 目标的实现需依靠密切的跨学科合作，以缩小模型/算法开发与硬件路线图之间创新速度的不匹配，人机交互仍是重中之重[80] 算法与范式的主要挑战与机遇 - 需解决孤立的硬件开发和模型设计问题，未来硬件必须采用跨层、系统中心的设计视角，将算法、编译器和物理平台紧密耦合，并暴露数据移动、内存局部性和能耗成本作为一等基本要素[81][82] - 需克服算法暴力破解与检索优势导致的效率下降问题，需要新的学习算法来利用深度内存层次结构，将优化目标从浮点运算次数转向内存流量和数据局部性[83] - 需应对能量、存储和互连壁垒，近内存/内存内计算、3D集成和光互连是有希望的方向[84] - 需解决利用率低和协同设计差距问题，实际部署中系统利用率通常仅5%至20%，需要自动化、跨层设计空间探索和自改进系统[85] - 优化必须针对整个吉瓦级集群，而不仅仅是单个节点，目标是在整个部署范围内优化每瓦性能和每瓦精度[86] - 设备端人工智能既是挑战也是机遇，推动了新的硬件创新和特定应用模型与专用硬件的紧密协同设计[87] 关键问题及答案（算法与范式） - 可扩展的瓶颈是能源限制、内存瓶颈、互连架构限制、基础设施利用率不足以及缺乏抽象层，解决方案包括内存内计算、3D内存、早期协同设计和集群级优化[88][89] - 体积小10-100倍的模型通过专注于特定应用领域可以实现类似功能，途径包括剪枝量化、特定领域蒸馏、新型架构、异构硬件和混合部署策略[89] - 注意力机制并非万能，卷积神经网络、状态空间模型和扩散模型同样重要，硬件应重视可重构原语和提高内存利用率[90] - 理想的硬件架构是异构、大规模并行、以内存为中心的系统，具有节能核心、3D堆叠内存、高效连接支持和光链路，并需解决部署复杂性和软件集成问题[91] - 最重要的研究重点包括人机交互、跨层协同设计、人工智能赋能的量子计算、人工智能驱动的芯片设计自动化以及自我改进系统[92] 重要的未来趋势（算法与范式） - 未来基础设施将采用融合异构堆栈，集成经典计算、AI专用计算、可重构结构和量子计算机，并建立光学全球链路[93] - 计算与内存将融合以克服能耗/延迟限制，内存内计算、3D堆叠和以内存为中心的数据流将成为主流[93] - 将出现小型模型与大型模型的共生关系，大型模型作为知识源，紧凑型小型语言模型在边缘高效运行，并由多智能体框架协调[93] - 机制理解将驱动专业化，模型内部表示的知识将转化为新的数据结构、内核和硬件指令，实现内核的自动生成和验证[93] 十年后成功的定义 - 硬件的成功体现在异构组件间的无缝互操作性、数据传输最小化、连接性透明扩展以及硬件能随算法演进而调整[72] - 成功意味着硬件平台可通过软件和编译快速重新专门化或结构重新配置，从而无需重新设计芯片即可部署新的AI模型和工作负载，缩小硬件与AI创新速度的差距[72] - 算法的成功需要可重复的多指标评估，并实现能够根据人类意图可靠执行复杂任务的系统[98][100] - 将出现自优化流水线，模型能够自我调度、合成内核并与硬件协同演化，人工智能生成和验证的内核将成为标准[99] - 将实现100倍的端到端能源效率，并在千兆瓦级规模下达到≥60%的集群持续利用率[101] - 将建立完全可互操作的异构系统，具有无缝协调和光纤全球链路[102] - 将形成一个成熟的领域调整型小型语言模型生态系统，由从开放教师模型中提炼而来，并部署在多智能体框架中[102] - 将实现可自我改进的芯片和系统人工智能管道，使硅设计周期加快3倍，并具有可预测的性能、功耗和面积以及经过验证的内核[102] 人工智能与硬件的实际应用及社会影响 - AI+HW协同设计不仅能实现更快的系统，还能催生全新的应用领域，如智能体AI、自主发现和与物理世界的实时交互[106] - 未来十年，AI软硬件的进步将从根本上改变几乎所有行业的生产力，实现前所未有的实时推理、感知和控制规模与经济性[106] - 跨层协同设计对于将AI扩展到物理世界至关重要，因为物理系统必须在严格的实时性、安全性、能耗和可靠性约束下运行[106] - 节能型人工智能将能够实现大规模气候建模、材料发现、可再生能源优化等，而不会产生不可持续的碳足迹[107] - 在科学和健康领域，人工智能加速器将推动药物研发、精准医疗、先进医学成像和持续健康监测[107] - 安全、可靠且注重隐私的人工智能系统将加强网络安全、关键基础设施保护和国家安全[107]