Nvidia-AI计算迎来重大变革，英伟达押注的“推理”是什么？

AI行业焦点从训练转向推理 - AI领域正经历重大变革，焦点从过去五年大语言模型的高成本、长周期训练，转向模型部署和商业化所需的推理计算 [2][3] - 根据Gartner数据，2024年全球推理基础设施资本支出预计将首次超过训练资本支出 [3] - 到2029年，企业在推理上的投入预计将达到720亿美元，是训练投入370亿美元的近两倍 [3] 芯片市场需求与竞争格局变化 - 科技公司购买的芯片类型将因焦点转向推理而发生重大变化 [4] - 专门为推理任务优化的芯片（如来自谷歌、Cerebras Systems、SambaNova的产品）能带来性能提升，相关制造商正以越来越快的速度签下价值数十亿美元的订单 [4] - 英伟达在2023年12月斥资200亿美元获得定制推理芯片公司Groq的技术授权并吸纳其人才，准备推出自己的推理专用处理器 [4] 推理计算的技术原理与需求特点 - 推理计算是让训练好的AI模型响应用户查询的过程，类比为餐厅厨师接单备餐 [5][6] - 推理包含预填充和解码两个阶段：预填充阶段解读用户查询，需要更强的处理能力；解码阶段生成响应，需要更大的内存来调动模型积累的全部知识 [7][8] - 推理过程按需进行，耗时以秒计，对延迟极其敏感，超过十秒用户可能失去耐心 [11] - 推理芯片必须配备更大容量的高带宽内存，且数据中心需邻近用户以降低延迟 [11] - 芯片创业公司如Ayar Labs越来越多地采用数据传输更快、所需冷却更少的光纤连接组件 [11] 推理芯片的关键性能与成本指标 - 推理的基本数据单位是词元，通常一个词元约相当于四分之三个英文单词 [9] - 公司（如会计软件、旅行预订服务、图像生成器提供商）高度关注“每瓦每秒生成的词元数”或“每美元每秒生成的词元数”这类成本指标 [10] - 降低推理成本成为关键，推理芯片高效输出结果的能力变得尤为重要 [10] 训练与推理芯片的核心区别 - 训练芯片：需在长时间内处理海量数据，要求强大的处理能力，数据中心需充足能源和冷却水；内存不足时可将部分任务分派给其他芯片或等待内存释放 [11] - 推理芯片：需应对瞬时、低延迟需求，强调大容量高带宽内存和靠近用户的数据中心部署 [11]