AI行业焦点从训练转向推理 - AI领域正经历重大变革,焦点从过去五年大语言模型的高成本、长周期训练,转向模型部署和商业化所需的推理计算 [2][3] - 根据Gartner数据,2024年全球推理基础设施资本支出预计将首次超过训练资本支出 [3] - 到2029年,企业在推理上的投入预计将达到720亿美元,是训练投入370亿美元的近两倍 [3] 芯片市场需求与竞争格局变化 - 科技公司购买的芯片类型将因焦点转向推理而发生重大变化 [4] - 专门为推理任务优化的芯片(如来自谷歌、Cerebras Systems、SambaNova的产品)能带来性能提升,相关制造商正以越来越快的速度签下价值数十亿美元的订单 [4] - 英伟达在2023年12月斥资200亿美元获得定制推理芯片公司Groq的技术授权并吸纳其人才,准备推出自己的推理专用处理器 [4] 推理计算的技术原理与需求特点 - 推理计算是让训练好的AI模型响应用户查询的过程,类比为餐厅厨师接单备餐 [5][6] - 推理包含预填充和解码两个阶段:预填充阶段解读用户查询,需要更强的处理能力;解码阶段生成响应,需要更大的内存来调动模型积累的全部知识 [7][8] - 推理过程按需进行,耗时以秒计,对延迟极其敏感,超过十秒用户可能失去耐心 [11] - 推理芯片必须配备更大容量的高带宽内存,且数据中心需邻近用户以降低延迟 [11] - 芯片创业公司如Ayar Labs越来越多地采用数据传输更快、所需冷却更少的光纤连接组件 [11] 推理芯片的关键性能与成本指标 - 推理的基本数据单位是词元,通常一个词元约相当于四分之三个英文单词 [9] - 公司(如会计软件、旅行预订服务、图像生成器提供商)高度关注“每瓦每秒生成的词元数”或“每美元每秒生成的词元数”这类成本指标 [10] - 降低推理成本成为关键,推理芯片高效输出结果的能力变得尤为重要 [10] 训练与推理芯片的核心区别 - 训练芯片:需在长时间内处理海量数据,要求强大的处理能力,数据中心需充足能源和冷却水;内存不足时可将部分任务分派给其他芯片或等待内存释放 [11] - 推理芯片:需应对瞬时、低延迟需求,强调大容量高带宽内存和靠近用户的数据中心部署 [11]
AI计算迎来重大变革,英伟达押注的“推理”是什么?