LPU
搜索文档
英伟达挑战者,估值490亿
36氪· 2025-10-09 08:08
公司融资与估值 - AI芯片初创公司Groq宣布完成一笔7.5亿美元(约合人民币50亿元)的最新融资,融资后估值为69亿美元(约合人民币490亿元)[3] - 本次融资额超过了7月间的传闻,当时报道称融资额约为6亿美元,估值接近60亿美元[3] - 在短短一年多的时间里,公司估值从2024年8月D轮融资时的28亿美元翻了一倍多[3] - 本轮融资由Disruptive领投,并获得了贝莱德、Neuberger Berman集团有限责任公司和德国电信资本的"重大投资",以及包括三星电子、思科、D1 Capital和Altimeter在内的现有投资者的出资[3] - 据PitchBook估计,Groq迄今已融资超过30亿美元[11] 行业发展与市场趋势 - 全球AI芯片市场正处于高速增长期,2023年市场规模为231.9亿美元,预计至2029年将以31.05%的复合年增长率攀升至1175亿美元[4] - 随着大语言模型从研发走向应用,AI产业重心正从训练阶段转向推理环节[4] - 英伟达2024财年第四季度数据中心GPU收入的40%来自推理处理[4] - 英伟达仍占据全球AI云端训练市场80%的市场份额[18] 公司技术与产品 - Groq以生产优化预训练模型的AI推理芯片而闻名,所开发的芯片被称为语言处理单元(LPU),与通常用于AI系统的图形处理单元(GPU)有着显著区别[7] - 公司致力于打破英伟达的垄断,其产品面向开发者和企业,提供云服务或本地硬件集群两种形式,能够以比其他同类产品低得多的成本维持AI性能[8] - Groq宣称LPU能实现每秒数百token的生成速度,远超常规GPU的推理速度,芯片更强调低延迟和稳定响应,适合对话、搜索、Agent等交互式AI应用,能效比高[15] - 公司不是通用GPU,而是专门为transformer类推理计算设计的芯片,优势在于极高的吞吐和极快的推理速度[15] 公司业务与战略 - Groq由一群前谷歌工程师于2016年创立,创始人乔纳森·罗斯在谷歌工作期间负责开发TPU芯片[7] - 公司提供云服务或本地硬件集群两种形式,可以运行热门模型的开放版本,例如Meta、DeepSeek、Qwen、Mistral、Google和OpenAI的模型[8] - 2024年2月,Groq推出了开发者平台GroqCloud,吸引开发者使用Groq API并租用其芯片的访问权限[8] - 一个月后收购了Definitive Intelligence,以完善其云平台[8] - 9月,公司宣布和中东石油巨头阿美公司的数字和技术子公司签署了一份谅解备忘录,宣称要"在沙特阿拉伯王国建立世界上最大的推理数据中心"[8] - 在商业模式上,Groq自建数据中心,将LPU组成服务器集群,提供云端推理算力租用服务,使得客户无需采购硬件即可尝试服务[9] 公司成长与用户基础 - Groq为超过200万名开发人员的AI应用程序提供支持,而一年前这一数字为35万,用户增长速度迅猛[14] - 公司从2017年获得1000万美元的种子资金开始,经过多轮融资,在2021年4月的C轮融资中筹集了3亿美元,估值超过10亿美元,正式跻身独角兽行列[11][12] - 2024年8月,在由贝莱德私募股权合伙人领投的D轮融资中,Groq筹集了6.4亿美元,公司估值达到28亿美元[13] 竞争格局与挑战 - Groq需要从零建立工具链和开发者社区,而英伟达的CUDA生态是其巨大护城河[16] - 公司当前优势主要体现在中小规模模型推理,大规模模型支持能力仍待验证[16] - Groq的性能数据部分来自于在较旧工艺节点(如14nm)实现的高效设计,如果想在大规模商业化中与英伟达抗衡,必须进入更先进的制程(如4nm),这需要更大资本投入和代工厂资源[16] - 企业对英伟达软硬一体化方案有一定的依赖度,迁移成本不低[16] - 专注大模型训练的Cerebras已提交IPO申请,计划融资10亿美元,估值达80亿美元,共同构成对英伟达的差异化包围[17]
英伟达挑战者,估值490亿
投中网· 2025-10-07 15:03
公司融资与估值 - Groq公司宣布完成7.5亿美元(约合人民币50亿元)的最新融资,融资后估值达到69亿美元(约合人民币490亿元)[3] - 公司在2024年8月曾以28亿美元的估值融资6.4亿美元,意味着在一年多的时间里其估值翻了一倍多[3] - 据PitchBook估计,Groq迄今已融资超过30亿美元[10] 行业市场趋势 - 全球AI芯片市场在2023年市场规模为231.9亿美元,预计至2029年将以31.05%的复合年增长率攀升至1175亿美元[4] - AI产业重心正从训练阶段转向推理环节,英伟达2024财年第四季度数据中心GPU收入的40%来自推理处理[4] - 英伟达仍占据全球AI云端训练市场80%的市场份额[16] 公司技术与产品 - Groq由前谷歌工程师于2016年创立,创始人乔纳森·罗斯曾负责开发谷歌的TPU芯片[6] - 公司开发的语言处理单元(LPU)是专为Transformer类推理计算设计的芯片,宣称能实现每秒数百token的生成速度,远超常规GPU[13] - 公司提供云服务或本地硬件集群两种形式,其产品能够以比其他同类产品低得多的成本维持AI性能[7] 商业模式与市场拓展 - Groq自建数据中心,将LPU组成服务器集群,提供云端推理算力租用服务,客户无需采购硬件即可尝试服务[8] - 2024年2月,公司推出开发者平台GroqCloud,吸引开发者使用其API并租用芯片访问权限[8] - 2024年9月,公司宣布与中东石油巨头阿美公司的子公司签署谅解备忘录,计划在沙特阿拉伯建立“世界上最大的推理数据中心”[8] 竞争格局与公司前景 - Groq的优势在于极高的吞吐和极快的推理速度,更强调低延迟和稳定响应,适合对话、搜索等交互式AI应用[13] - 公司面临的挑战是需要从零建立工具链和开发者社区以对抗英伟达的CUDA生态,且其大规模模型支持能力仍待验证[14] - 综合来看,Groq在细分市场可能胜出,但短期内仍然难以威胁英伟达的主导地位[15]
LPU推理引擎获资金认可! 正面硬刚英伟达的Groq估值猛增 一年内几乎翻三倍
智通财经网· 2025-09-18 11:49
融资与估值 - 公司完成新一轮7.5亿美元融资,估值达约69亿美元 [1] - 最新融资额与估值均高于7月传闻的60亿美元估值和约6亿美元融资额 [1] - 公司在2024年8月以28亿美元估值融资6.4亿美元,最新估值在一年内翻了两倍多 [1] - 公司今年迄今累计融资超过30亿美元,融资规模堪比Anthropic等AI超级独角兽 [1] - 新一轮融资由投资公司Disruptive领投,BlackRock、Neuberger Berman、Deutsche Telekom Capital Partners等参投,三星、思科等现有投资者也参与 [4][5] 公司定位与技术路线 - 公司是英伟达在AI芯片领域的主要竞争对手之一,市场规模可能仅次于博通与AMD [1] - 公司业务聚焦于向数据中心及企业平台销售AI芯片集群,与英伟达数据中心业务类似 [1] - 公司开发LPU(语言处理单元),是专为AI大模型推理场景定制的AI ASIC,而非通用GPU [1][2] - 技术路线与博通AI ASIC以及谷歌TPU属于同类,产品被归类为定制推理ASIC [1][2] - 公司致力于打破英伟达对AI算力基础设施的控制,英伟达当前市场份额高达90% [2] 产品与市场应用 - 产品面向开发者和企业,可作为云计算算力服务或本地部署的硬件集群提供 [2] - 本地硬件聚焦于AI服务器机架,配备集成硬件/软件节点的堆栈 [2] - 云端与本地硬件均可运行Meta、DeepSeek、Qwen、Mistral、Google和OpenAI等开发的AI模型 [2] - 公司目前为超过200万名开发者的AI应用提供算力支持,一年前该数字约为35万 [4] - LPU产品在成本显著低于核心替代方案的情况下,能保持或提升AI大模型推理运行效率 [2] 技术架构与性能优势 - LPU核心架构是自主开发的TSP(张量流式处理器),以静态、可预测的流式数据通路替代传统GPU范式 [5] - LPU芯片采用大容量片上SRAM(约220MB),具备超高片上带宽(官方示例达80TB/s) [5][6] - 在低/零批量LLM推理中,LPU相较AI GPU集群提供更低时延、更稳定吞吐与更高能效 [5] - 在batch很小(甚至batch=1)的LLM场景,LPU单位芯片的tokens/s更高,能满足交互式产品对低延迟的要求 [6] - LPU确定性执行带来平滑功耗曲线,推理每token能耗更低,等效推理功耗约为常见GPU的三分之一 [6] 行业竞争格局与发展趋势 - 创始人Jonathan Ross曾参与开发谷歌TPU芯片,谷歌TPU算力集群在数据中心规模仅次于英伟达 [3] - 谷歌最新Ironwood TPU(TPU v6)相比TPU v5p峰值FLOPS性能提升10倍,功效比提升5.6倍 [3] - 谷歌Ironwood的4.2 TFLOPS/瓦功效比略低于英伟达B200/300 GPU的4.5 TFLOPS/瓦,表明专用AI ASIC正快速缩小与领先AI GPU的性能差距 [4] - 对于AI大模型训练和超大批量吞吐,英伟达AI GPU生态仍全面占优,LPU优势主要在交互式/实时推理 [6][7] - 科技巨头愈发倾向采用“ASIC扛常态化、GPU扛探索峰值”的混合架构来最小化总拥有成本(TCO) [7]
GPU的替代者,LPU是什么?
半导体行业观察· 2025-08-03 11:17
核心观点 - Groq的LPU(语言处理单元)架构专为AI推理设计,消除了传统GPU在推理速度和精度之间的权衡,能够在保持高质量的同时实现极低延迟 [2] - 通过TruePoint数值技术、SRAM主存储器、静态调度等创新,LPU在运行1万亿参数模型时展现出显著性能优势 [3][4][6][7][9] - 该架构支持张量并行和流水线并行,使Moonshot AI的Kimi K2等大模型能实时生成令牌 [10] - 在MMLU等基准测试中,Groq解决方案在保持高准确率的同时,速度比BF16提升2-4倍 [3][15] 技术架构创新 数值处理 - TruePoint技术允许在无损精度的区域降低计算精度,以FP32执行矩阵运算,同时选择性量化输出,速度比BF16快2-4倍且无准确率损失 [3] - 采用100位中间累积存储,确保无论输入位宽如何都能实现无损累积 [3] 内存设计 - 使用数百兆片上SRAM作为主权重存储器(非缓存),相比DRAM/HBM将访问延迟从数百纳秒降至最低 [6] - 支持混合精度存储:FP32用于注意逻辑,块浮点用于MoE权重,FP8用于容错层激活 [5] 执行模型 - 编译器预先计算整个执行图至时钟周期级别,消除动态调度带来的延迟 [7][9] - 静态调度实现无尾延迟的张量并行和流水线并行,支持第N+1层在N层计算时即开始处理 [9] 性能优化 并行处理 - 张量并行将单层拆分到多个LPU芯片,使单次前向传递更快完成,适合实时应用 [10] - 推测解码技术通过草稿模型预测令牌,LPU架构能高效验证批次,支持每个流水线阶段处理2-4个token [11] 芯片互连 - RealScale互连协议消除时钟漂移,使数百个LPU对齐为单核心,编译器可精确预测数据到达时间 [12] 实际应用表现 - 在OpenBench框架测试中,运行Kimi-K2-Instruct模型时保持高准确率得分 [15] - 第一代14nm LPU已实现优异性能,近期使Kimi K2在72小时内性能提升40倍 [16]
芯片新贵,集体转向
半导体芯闻· 2025-05-12 18:08
行业趋势 - AI芯片行业正从大规模训练市场转向更现实的推理市场,Nvidia在训练芯片市场占据主导地位,而其他公司如Graphcore、英特尔Gaudi、SambaNova等转向推理市场 [1] - 训练芯片市场门槛高,需要重资本、重算力和成熟的软件生态,新晋企业难以生存,推理芯片成为更易规模化落地的选择 [1] - 推理市场对内存和网络的要求较低,适合初创公司切入,而Nvidia在训练市场的优势包括HBM内存和NVLink等网络技术 [21][22] Graphcore - Graphcore曾专注于训练芯片,其IPU处理器采用并行处理架构,适合处理稀疏数据,在化学材料和医疗领域表现突出 [2][4] - 2020年Graphcore估值达28亿美元,但其IPU系统在大型训练项目中难以挑战Nvidia,2021年微软终止合作后公司开始衰落 [4][5] - 2024年软银收购Graphcore后转向推理市场,优化Poplar SDK,推出轻量级推理方案,聚焦金融、医疗和政府场景 [6] 英特尔Gaudi - 英特尔2019年以20亿美元收购Habana Labs,Gaudi系列主打训练和推理,Gaudi2对比Nvidia A100吞吐量性能提高2倍 [7][9] - 英特尔内部存在Habana与GPU部门的竞争,官僚效率低下影响决策,Gaudi训练平台市场采用率低迷 [9][10] - 2023年Gaudi转向训练+推理并重,Gaudi3强调推理性能和成本优势,每美元推理吞吐量高于GPU近30%,但未能达到营收预期 [10][11] Groq - Groq创始人曾参与Google TPU设计,其LPU架构采用确定性设计,主打低延迟和高吞吐率,适合推理任务 [12][14] - 早期尝试训练市场失败后转向推理即服务,2024年展示Llama 2-70B模型每秒生成300+ Token,吸引金融、军事等延迟敏感行业 [15] - GroqCloud平台提供API接口,与LangChain等生态集成,定位为AI推理云服务提供商 [15] SambaNova - SambaNova采用RDU架构,曾重视训练市场,但2022年后转向推理即服务,推出SambaNova Suite企业AI系统 [16][18] - 2024年裁员15%并完全转向推理,聚焦政府、金融和医疗等私有化模型部署需求强烈的领域 [18][19] - 提供多语言文本分析、智能问答等推理服务,商业化路径逐渐清晰 [19] 技术对比 - Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink网络技术,初创公司难以竞争 [21][22] - 推理任务内存负担低,无需存储梯度和复杂网络通信,适合初创公司设计专用芯片 [21] - 未来AI芯片竞争将更注重成本、部署和可维护性,推理市场成为战略重点 [23]
芯片新贵,集体转向
半导体行业观察· 2025-05-10 10:53
AI芯片行业趋势 - AI芯片行业正从大规模训练市场转向更具现实落地潜力的推理市场,Nvidia在训练市场占据绝对主导地位,而其他公司如Graphcore、英特尔Gaudi等纷纷转向推理领域 [1] - 训练市场门槛极高,需要重资本、重算力和成熟的软件生态,新晋企业难以与Nvidia竞争,推理市场则更易规模化和商业化 [1][4] - 推理市场的优势在于内存和网络需求较低,适合初创企业切入,而Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink技术 [21][22] Graphcore转型 - Graphcore曾专注于训练芯片IPU,其Colosual MK2 GC200 IPU采用台积电7nm制程,性能接近Nvidia A100,2020年估值达28亿美元 [4] - IPU在稀疏数据处理(如分子研究)和医疗领域表现突出,微软曾用于新冠X光片识别,速度比传统芯片快10倍 [5] - 由于训练市场竞争失败,Graphcore被软银收购后转向推理市场,推出轻量级推理方案,聚焦金融、医疗和政府场景 [5][6] 英特尔Gaudi策略调整 - 英特尔2019年以20亿美元收购Habana Labs,Gaudi2采用7nm制程,吞吐量性能比Nvidia A100高2倍 [7] - 内部管理混乱导致Gaudi市场表现不佳,2023年转向"训练+推理并重",Gaudi3强调推理性价比,成本优势达30% [9][10] - 英特尔终止Falcon Shores开发,Gaudi3现面向企业私有化部署,如语义搜索和客服机器人 [10][11] Groq技术定位 - Groq创始人曾参与Google TPU开发,其LPU架构采用确定性设计,专注低延迟推理,适合大模型推理任务 [13] - 2024年展示Llama 2-70B模型推理速度达300 token/秒,吸引金融、军事等延迟敏感领域客户 [15] - Groq转型推理即服务(Inference-as-a-Service),通过GroqCloud平台提供API,与LangChain等生态集成 [16] SambaNova业务转向 - SambaNova的RDU芯片曾主打训练优势,但2022年后转向推理即服务,推出企业AI系统SambaNova Suite [17][19] - 聚焦金融、政府等私有化部署需求,提供合规化推理解决方案,与拉美金融机构和欧洲能源公司合作 [20][21] - 2024年裁员15%,完全放弃训练市场,专注推理商业化 [19] 技术对比与市场逻辑 - 训练芯片需复杂内存层级(HBM/DDR)和全互联网络,Nvidia凭借CUDA生态和硬件优化占据绝对优势 [21][22] - 推理芯片门槛较低,初创企业可通过垂直场景(如医疗、金融)或技术差异化(如Groq的低延迟)竞争 [23] - 行业进入"真实世界"阶段,竞争焦点从算力转向成本、部署和维护便利性 [23]
东吴证券晨会纪要-2025-03-13
东吴证券· 2025-03-13 08:50
好的,我将为您分析这份东吴证券晨会纪要,总结关键投资要点。报告覆盖了宏观策略、固收金工、电子、医药生物等多个领域。 报告行业投资评级 - 电子行业:推荐寒武纪、海光信息,建议关注中兴通讯、翱捷科技、芯原股份 [26] - 医药生物行业:建议关注诚益通、三博脑科、翔宇医疗、塞力医疗、岩山科技、爱朋医疗、麦澜德及非上市公司脑虎科技、阶梯医疗、博瑞康、BrainCo [27] - 个股评级:宝丰能源"买入" [9]、安徽合力"买入" [8]、普洛药业"买入" [10]、蓝思科技"买入" [12]、永兴股份首次覆盖"买入" [12]、拓斯达"增持" [30] 报告核心观点 - 宏观策略:美国经济数据喜忧参半,非农就业略不及预期但走弱幅度可控,缓解了对美国经济过度悲观预期。特朗普"紧财政"政策与欧元区"财政宽松"转向形成分化,对美股市场情绪造成冲击,美元、美股大跌 [1][14] - 固收金工:10年期国债收益率合理点位在2.0-2.2%,当前接近1.9%的10年期国债已具备配置价值。30年期国债收益率合理区间为2.2-2.7% [3][23] - 电子行业:ASIC在低精度领域具有功耗和能效优势,但在算力性能、显存带宽和容量上与GPGPU仍有差距。英伟达NVLink互连技术领先,大厂自研AI芯片需4.5-7万卡出货量可覆盖前期投入 [4][6] - 医药生物:国家医保局为脑机接口医疗服务价格单独立项,设立"侵入式脑机接口置入费"等项目,为脑机接口技术临床应用铺平收费路径 [7] - 个股观点:宝丰能源内蒙古项目第一条产线投产,烯烃产能将达520万吨/年;安徽合力设立泰国工厂规划年产叉车10000台;蓝思科技在机器人和AR领域取得进展,供应智元机器人核心零部件 [8][31][34] 宏观策略 - 海外周报:美国2月非农就业+15.1万(预期+16万),失业率升至4.1%。美元指数大跌3.51%至103.84,标普500和纳斯达克指数分别下跌3.1%和3.45% [14] - 宏观量化:2月国内挖机销量同比增长99.4%,指向项目开工进程提速。预计2月新增贷款1.0-1.2万亿,同比少增2500-4500亿元 [2][19] - 德国国债利率飙升30bps,创1990年以来最大单日涨幅,因德国提出激进扩张的财政政策 [2][20] 固收金工 - 10年期国债收益率从2月6日1.60%上行至3月11日1.89%,1年期国债收益率从1.21%上行至1.58% [23] - 央行在2月11日-3月12日期间通过逆回购和MLF回收流动性9861亿元 [23] - 10Y-1Y国债利差为31bp,央行合意的期限利差中枢约为60bp [23] 电子行业 - GPGPU在算力性能、显存带宽和容量上优于ASIC,英伟达NVLink互连能力领先 [4][26] - 大厂自研AI芯片的前期投入可通过4.5-7万卡出货量覆盖,训练端单一集群需求量已超10万卡 [6][26] - 英伟达FY2024数据中心40%收入来自推理业务,AI推理需求还有更大渗透空间 [6] - 博通发布业界首款5nm CMOS工艺的400GbE网卡芯片Thor 2;Marvell通过HBM重构与CPO集成突破AI芯片能效与带宽瓶颈 [6] 医药生物行业 - 全球首批第4例脑脊接口手术成功实施,通过脑与脊髓间搭建"神经桥"让瘫痪者重新行走 [7][27] - 国家医保局设立"侵入式脑机接口置入费"(4500-6000元/次)、"侵入式脑机接口取出费"(2000-3000元/次)和"非侵入式脑机接口适配费"(500-1000元/小时)等项目 [7] 推荐个股 - 宝丰能源:2024年营收329.8亿元(同比+13%),归母净利润63.4亿元(同比+12%)。内蒙古项目第一条100万吨/年产线已于2024年11月投产,第二条产线于2025年1月投产,第三条预计2025年3月底投产 [31] - 安徽合力:拟投资设立泰国工厂,规划年产叉车10000台,年产锂电池组10000套。公司出资3.2亿元持有75%股权 [32] - 普洛药业:2024年营收120.22亿元(同比+4.77%),归母净利润10.31亿元(同比-2.29%)。CDMO板块营收18.84亿元(-6.05%),报价项目1601个(+77%) [10][33] - 蓝思科技:为智元机器人核心供应商,2025年1月交付灵犀X1,供应关节模组/DCU/夹爪等核心零部件。与Rokid达成深度合作,提供AR眼镜整机组装和全产业链整合 [34][36] - 永兴股份:2024年归母净利润7.72亿元(同比+5.1%),垃圾焚烧单吨收入417元/吨居同业第一,单吨毛利190元/吨优于同业平均136元/吨 [37] - 拓斯达:2024Q1-Q3营收22.35亿元(同比-31.0%),归母净利润902万元(同比-93.0%)。加入华为全球具身智能产业创新中心,成为16家优选合作伙伴之一 [28][30]