Workflow
又一颗芯片,要吊打英伟达
半导体行业观察·2025-07-29 09:14

公司概况 - Positron AI是一家专注于下一代人工智能芯片架构的初创公司,旨在通过创新的硬件设计挑战英伟达等行业巨头的市场地位[1] - 公司由首席技术官Thomas Sohmers和首席科学家Edward Kmett于2023年联合创立,前Lambda首席运营官Mitesh Agrawal担任CEO负责商业化拓展[3] - 成立18个月内仅用1250万美元种子资金就将第一代产品Atlas推向市场,并完成超额认购的5160万美元A轮融资,2024年总融资额超7500万美元[2][3] 技术优势 - 第一代产品Atlas基于Altera Agilex-7M FPGA设计,配备32GB HBM内存,实现90%内存带宽利用率(GPU仅30%),推理功耗比Nvidia DGX H200系统低66%[6][12] - 在运行Llama 3.1 8B模型时,Atlas以2000瓦功耗实现280 tokens/用户/秒,性能是8路Nvidia DGX H200系统的3倍(后者5900瓦仅180 tokens)[11][12] - 核心IP通过优化矩阵乘法阵列和内存互连密度,在Agilex FPGA上利用专用NoC路径,使内存带宽利用率达理论峰值的65-70%[13] 产品路线 - 当前4U尺寸的Atlas系统采用四块FPGA PCIe卡,支持零步骤部署HuggingFace模型,已获数百万美元订单并有20家潜在客户评估[8][12] - 第二代产品计划2026年推出,将采用定制ASIC芯片,台积电N4/N5工艺制造,单芯片支持2TB内存(非HBM技术),机架级系统总内存达16TB可运行16万亿参数模型[14][15] - ASIC设计采用LPDDR5X/6内存,成本仅为HBM的1/4,通过专属IP控制内存刷新以接近理论峰值性能[17][18] 市场定位 - 目标客户包括云服务提供商(CSP)和大规模网络服务企业,提供比GPU低50%的总体拥有成本(TCO)和完全脱离供应商锁定的解决方案[5][8] - 商业模式聚焦生成式AI推理场景,强调单位token成本最低化和长上下文支持能力,单系统可服务多用户高并发需求[2][5] - 差异化策略在于快速迭代:先用FPGA验证市场再转向ASIC,避免同类初创公司因过早投入ASIC导致的资金和时间风险[9] 行业影响 - 公司技术路径可能重塑AI硬件格局,其高内存带宽架构直接针对Transformer模型的内存瓶颈问题[1][6] - 若ASIC产品如期交付,将突破当前GPU在训练/推理场景的限制,支持单机多模型并行计算[15] - 行业竞争加剧背景下,Positron代表的新兴势力正推动从单纯算力竞赛向能效比优化的范式转变[18]