LLM Inference
搜索文档
一家AI芯片初创公司:不搞ASIC,用FPGA
半导体行业观察· 2026-02-26 09:30
公司核心产品与定位 - 总部位于西雅图的人工智能硬件初创公司ElastixAI正式亮相,由前苹果和Meta机器学习工程师创立 [2] - 公司推出了一款基于FPGA的推理平台,定位为GPU服务器基础设施的即插即用替代品 [2] - 与基于Nvidia GPU的部署相比,该平台在大型语言模型推理方面可降低高达50倍的总拥有成本和80%的功耗 [2] - 公司于2025年5月完成了由Fuse VC领投的1800万美元种子轮融资 [2] - 其Elastix Rack产品计划于2026年年中首次出货,目前仅面向部分企业合作伙伴和数据中心运营商开放 [2][12] 技术原理与架构优势 - 核心论点是GPU的设计初衷是处理计算密集型工作负载(如LLM训练),但在处理内存密集型工作负载(如LLM推理)时效率会降低,计算利用率大幅下降 [3] - 训练严重依赖计算,而推理严重依赖内存,这种不匹配导致推理过程中GPU的计算利用率很低 [3] - 硬件的灵活性不足加剧了问题,例如4位量化理论上可以使吞吐量翻倍,但在缺乏原生支持的硬件(如H100)上,软件内核只能利用其10%的潜力 [5] - 顶级加速器依赖于速度最快、价格最昂贵的内存,而ElastixAI专注于真正影响总体拥有成本的指标:每带宽成本和每容量成本 [5] - 通过利用机器学习定义的软件专用化,公司能够从运行在商用现成FPGA服务器上的低成本硬件中榨取最大性能,以远低于业界顶级内存的每GB成本提供高性能推理所需的内存带宽 [5] 选择FPGA而非定制芯片的原因 - FPGA相较于定制芯片的优势在于机器学习的发展速度远超芯片开发周期 [7] - 定制芯片从设计到生产需要三年多的时间,而机器学习领域的快速发展可能在短短几个月内就彻底改变进程 [7] - 以混合专家模型为例,许多公司基于现有技术开发芯片后,新算法出现导致不得不重新设计芯片 [7] - Transformer架构目前在结构上足够稳定,可以进行FPGA实现,而底层优化层仍在快速发展,锁定固定的芯片设计存在风险 [7] - FPGA可以重新配置以适应变化的需求,例如推理吞吐量需求从每秒20个词元增长到每秒200个词元 [7] - 通用性和效率之间存在根本性的权衡,更通用会降低效率,因为需要增加额外的硅片来覆盖不同的工作负载 [7] 性能、功耗与兼容性数据 - 根据采用的令牌速率,与英伟达B200相比,可以在成本方面实现10倍甚至50倍的性能提升 [9] - 在功耗方面,在相同吞吐量下,每个令牌的功耗降低了五倍 [9] - Elastix机架符合标准的17-19 kW机架功率范围,并采用空气冷却 [9] - 相比之下,Nvidia的GB200 NVL72需要120 kW至200 kW的功率以及大多数现有数据中心无法支持的专用液冷基础设施 [9] - 性能数据涵盖了整个数据中心部署的资本支出和运营支出,并通过与FPGA制造商和数据中心运营商的合作验证 [9] 市场策略与生态系统构建 - 集成是通过vLLM插件实现的,该插件替换了Nvidia CUDA后端,同时保持前端OpenAI兼容API不变,因此从GPU基础架构迁移的运营商无需修改其应用程序堆栈 [11] - 公司计划最终向机器学习研究人员开放其模型转换工具,旨在围绕其自身平台构建开发者良性循环,策略与Nvidia构建CUDA生态系统的方式类似 [11] - 创始团队背景强大,联合创始人Mohammad Rastegari曾是Xnor.ai的联合创始人,该公司于2020年被苹果以约2亿美元收购,后来领导了Meta的Llama 405B模型的推理优化工作 [7][11] - 联合创始人Saman Naderiparizi是首席技术官,Mahyar Najibi是首席战略官,曾为苹果智能团队做出贡献,并担任过Waymo的首席科学家 [2][11] - 公司董事会成员之一是Jon Gelsey,他曾担任Xnor.ai的首席执行官,也是Auth0的创始首席执行官,Auth0后来被Okta以65亿美元收购,目前担任ElastixAI的战略和市场营销主管 [11]
LLM Inference 和 LLM Serving 视角下的 MCP
AI前线· 2025-05-16 15:48
文章核心观点 - LLM Inference 和 LLM Serving 是 LLM 技术中两个密切相关但侧重点不同的概念,行业快速发展导致两者功能边界模糊 [1][3] - Model Context Protocol (MCP) 作为标准化协议连接 AI 模型与数据源/工具,同时涉及 LLM Inference 和 Serving 的功能范畴 [11][16] - MCP 未来可能将 LLM Inference 和 Serving 分离为 Backend Service 和 Frontend Service 以独立发展 [17] LLM Inference 和 LLM Serving 概念介绍 - LLM Inference 是计算密集型过程,依赖专用硬件(GPU/TPU),专注于模型执行和运行时状态 [4][5] - LLM Serving 面向用户端,解决模型服务的工程化问题(如扩缩容、多版本路由),典型框架包括 Kserve [7][10] - 两者并非包含关系,LLM Serving 需集成 LLM Inference 能力但功能范畴不同 [8] MCP 的技术定位 - MCP 是标准化协议,类似 USB-C 接口,连接 AI 模型与数据源/工具(如外部知识库、AI-Agent) [11][15] - MCP Server 承担类似 LLM Serving 的角色,但通过优化模型运行时行为也涉及 LLM Inference 领域 [12][16] - 当前架构难以明确归类为 Inference 或 Serving,属于两者的功能复合体 [16] MCP 的未来发展方向 - 需增强鉴权认证、负载均衡等基础设施能力,并明确划分 Inference 与 Serving 的功能边界 [17] - 可能将 LLM Inference 作为 Backend Service 专注模型优化,LLM Serving 作为 Frontend Service 聚焦用户体验 [17]