Workflow
可重构数据流架构
icon
搜索文档
清微智能:以可重构架构为基,改写AI芯片新格局
新浪财经· 2026-01-12 15:25
行业核心观点 - AI芯片行业正经历技术路线的重大演变,从GPU主导转向GPU、ASIC和可重构数据流架构三大流派竞争的新格局 [4][14] - 可重构数据流架构(如LPU/RPU)凭借其灵活性、高效能和确定性,正从细分走向主流,成为头部企业和资本争相布局的核心方向 [4][6][16] - 行业预测显示,非GPU产品(ASIC和可重构)在中国AI加速卡市场的占比将从2025年上半年的约30%提升至2028年的接近50%,占据半壁江山 [19] 英伟达的战略行动与竞争压力 - 2025年圣诞节,英伟达以约200亿美元(约1400亿人民币)的价格,溢价近3倍收购了可重构数据流芯片公司Groq,收购金额约占其持有现金的三分之一 [2][13] - 收购Groq旨在获取其LPU(语言处理单元)技术,该技术采用软件定义硬件的可重构数据流架构,在处理大模型时能实现比GPU快5-18倍、能效比高10倍的突破 [2][13] - 此次收购的背景是竞争压力加剧,此前(2024年11月)Meta拟采用谷歌TPU的传闻导致英伟达市值一夜蒸发数千亿美元 [1][11] - 作为应对,英伟达发布了新一代芯片Rubin,其训练性能是Blackwell的3.5倍,AI软件运行性能提升5倍,推理成本降至前代的1/10 [1][11] 可重构数据流架构的技术优势与全球布局 - 可重构数据流架构(RPU/LPU)的核心是“软件定义硬件”,硬件资源可通过软件指令实时重组,兼具ASIC的高效能和GPU的灵活性 [4][15] - 该架构能实现Token“瞬时”且“准时”的吞吐,超越GPU和TPU的物理极限 [2][13] - 全球资本正不约而同押注该赛道:英特尔已与美国可重构AI芯片独角兽SambaNova签署收购意向书;中国的清微智能在2025年12月2日完成了超20亿元人民币的C轮融资 [3][14] - Groq由谷歌TPU之父创办,其LPU技术被称为“高阶TPU” [2][13] 2026年AI芯片三大技术流派格局 - **GPU派**:以英伟达、摩尔线程为代表,是当前霸主,但性能提升受制于半导体制程极限、HBM带宽提升困难以及“内存墙”、高功耗等问题 [4][15] - **ASIC派**:以谷歌TPU、寒武纪、百度昆仑芯为代表,是为特定算法深度定制的“特种兵路线”,能实现极致能效,但短板是算法迭代后硬件容易过时 [4][15] - **可重构数据流派**:以Groq的LPU、清微智能的RPU为代表,凭借灵活、高效、确定性的特点,成为多元化AI芯片生态的重要力量 [4][16] - 2026年格局定位:GPU在训练和通用计算保持核心地位;ASIC以极致能效比主攻特定模型推理,帮助云厂商降本增效;可重构数据流派则成为重要力量 [5][16] 中国可重构芯片领军企业——清微智能的发展 - **技术产品与性能**:量产的TX81芯片,一台搭载该芯片的AI训推一体服务器即可部署万亿参数大模型,其REX1032服务器单机支持大模型满血版推理,成本降低50%,能效比提升3倍 [5][16] - **项目落地与市场地位**:在新疆双河市部署了全疆首个基于可重构架构的绿色智算中心,算力卡订单总量已突破30000枚 [6][18];2025年上半年出货量已进入国内第一梯队,技术从“突破”进入“规模落地”阶段 [7][18] - **生态合作**:深度融入国产“众智FlagOS”开源生态,与寒武纪、昆仑芯、摩尔线程、华为昇腾、中科海光并列为国内唯六的“FlagOS卓越适配单位” [7][18] - **资本与战略地位**:获得国家集成电路产业投资基金(大基金二期)的独家新架构芯片企业投资;C轮融资引入京能集团、北创投、京国瑞等北京国资巨头 [9][19];与摩尔线程、昆仑芯、寒武纪共同被纳入北京AI芯片“四大金刚”矩阵,覆盖三大技术流派 [9][10][19] - **下一代技术**:瞄准3D可重构架构,力图将AI芯片有效带宽提升10倍,能效比提升数倍,实现对国际主流高端芯片的超越 [9][18]
AI算力竞赛白热化 清微智能可重构芯片开辟新赛道
新浪财经· 2026-01-11 20:04
行业技术趋势 - 英伟达发布新一代AI芯片Rubin,其训练性能是Blackwell的3.5倍,AI软件运行性能提升5倍,推理成本降至前代的1/10 [1] - AI芯片技术呈现三大流派竞争格局:GPU派(如英伟达)、ASIC派(如谷歌TPU)和可重构数据流派(如Groq的LPU)[6] - 可重构数据流架构(RPU/LPU)采用“软件定义硬件”设计,兼具ASIC的高效能与GPU的灵活性,能根据算法变化实时重组硬件资源 [6] - 在AI从训练转向推理的时代,可重构数据流架构因其灵活、高效和确定性,正从细分走向主流,成为头部企业争相布局的核心方向 [5][6][7] - 据IDC预测,到2028年,中国AI加速卡市场中非GPU产品(ASIC和可重构)的占比有望从2025年上半年的约30%提升至接近50% [13] 主要市场动态与竞争 - 谷歌TPU及可重构数据流架构的崛起,正在侵蚀英伟达的市场统治地位 [1] - 2025年圣诞节,英伟达以约200亿美元(约1400亿人民币)的现金收购了可重构数据流芯片公司Groq,收购溢价约为其三个月前69亿美元估值的3倍 [3] - Groq的LPU技术在处理大模型时能实现Token“瞬时”吞吐,性能比GPU快5-18倍,能效比高10倍,被称为“高阶TPU” [3] - 除英伟达外,英特尔也计划收购美国可重构AI芯片独角兽SambaNova,显示全球资本正押注可重构技术赛道 [5] - 中国芯片公司清微智能在2025年12月2日完成超20亿元人民币的C轮融资,其RPU技术与Groq的LPU同属可重构数据流路线 [5] 公司(清微智能)表现与战略 - 清微智能是可重构数据流(RPU)芯片的代表企业,其量产芯片TX81已应用于AI训推一体服务器,可支持万亿参数大模型部署 [7] - 搭载清微智能TX81芯片的REX1032训推一体服务器,单机支持DeepSeekR1/V3满血版推理,成本降低50%,能效比提升3倍 [7] - 公司已深度融入国产“众智FlagOS”开源生态,并与寒武纪、昆仑芯、摩尔线程、华为昇腾、中科海光共同成为国内唯六的“FlagOS卓越适配单位” [11] - 清微智能在全国多省市落地千卡级智算中心,算力卡订单总量已突破30000枚 [11] - 根据IDC数据,2025年上半年清微智能的出货量已进入国内第一梯队,标志着其技术已从“技术突破”跃升至“规模落地”阶段 [11] - 公司下一代芯片瞄准3D可重构架构,目标是将AI芯片有效带宽提升10倍,能效比提升数倍,以实现对国际高端AI芯片的超越 [11] - 清微智能获得了国家集成电路产业投资基金(大基金二期)的投资,是“大基金”唯一投资的新架构芯片企业,并在C轮融资中引入了京能集团、北创投、京国瑞等北京国资巨头 [12] - 公司已与摩尔线程、昆仑芯、寒武纪一同被纳入北京AI芯片矩阵的“四大金刚”,实现了对GPU、ASIC和可重构三大技术流派的全覆盖 [12][13] 具体应用与项目 - 在新疆双河市,基于清微智能可重构计算芯片部署的中树云智算中心已建成,这是全疆第一座基于该架构的绿色算力枢纽,服务于国家“东数西算”和“算力出海”战略 [8] - 清微智能发布的新一代超节点方案,凭借超越GPU和ASIC集群的高算力和高显存,成为可重构AI计算领域的“大国重器” [9]
英伟达1400亿“收购”,GPU拐点已现?
半导体行业观察· 2025-12-27 09:33
文章核心观点 - 英伟达以200亿美元现金收购Groq公司的技术授权,是其史上最大规模投资,旨在获取并整合被称为“高阶TPU”的可重构数据流架构(LPU),以应对AI推理市场日益增长的需求和非GPU架构的竞争压力 [1][3][17] - 以Groq LPU和谷歌TPU为代表的非GPU架构(包括ASIC和可重构数据流芯片)在AI推理环节展现出显著优势,包括更高的速度、能效比和更低的成本,正在动摇英伟达GPU在AI算力市场的绝对主导地位 [4][13][15] - AI算力芯片市场正从以训练为中心转向推理为重,技术路线呈现GPU与非GPU(ASIC/可重构数据流)两大流派并存的格局,非GPU架构的市场份额预计将显著提升 [4][18] 交易概述与战略意义 - 交易规模达200亿美元(约1400亿元人民币),相当于英伟达606亿美元现金及短期持有资本的三分之一,超出Groq此前估值的3倍 [1][17] - 交易性质为“非排他性授权协议”,英伟达获得Groq的知识产权许可并吸纳其核心团队(包括谷歌TPU缔造者Jonathan Ross),但未收购公司实体 [1][14] - 此次收购是英伟达为补齐非GPU赛道短板、巩固算力领域主导地位的关键布局,旨在将Groq的低延迟处理器整合到其AI工厂架构中,服务更广泛的AI推理和实时工作负载 [14][17] 非GPU架构技术优势(以Groq LPU为例) - **架构创新**:采用软件定义硬件的可重构数据流架构(LPU),消除内存带宽瓶颈,实现确定性执行和零延迟,被业界誉为“高阶TPU” [2][6] - **性能表现**:在处理大语言模型时,能实现每秒数百个Token的“瞬时”吐字;基于14nm工艺,无需外部HBM,通过动态调度让数百个核心同步工作,可实现40倍于传统方案的推理性能 [2][6] - **能效与成本**:能效比英伟达GPU最高可提升10倍;制造晶圆成本可能低于每片6000美元,远低于采用5nm工艺、成本近每片16000美元的英伟达H100芯片 [9][11] - **实际案例**:Groq的AI云算力系统在72小时内将月之暗面开源模型Kimi K2的性能提升40倍;运行开源模型Mixtral 8x7b时,吞吐量最高可达其他推理服务的4倍,价格却不到Mistral本身的三分之一 [7][11] 市场竞争格局变化 - **谷歌TPU的竞争**:谷歌第七代TPU Ironwood单芯片FP8稠密算力达4.6 petaFLOPS,略高于英伟达B200的4.5 petaFLOPS;一个集成9216颗芯片的Ironwood Pod,FP8峰值性能超42.5 exaFLOPS,在特定负载下性能相当于最接近竞品系统的118倍 [16] - **客户动向**:英伟达大客户Meta正考虑在其数据中心大规模采用谷歌TPU,此消息曾导致英伟达股价单日一度暴跌6%,市值蒸发数千亿美元 [15] - **市场份额预测**:花旗预测英伟达AI芯片市场份额将从90%逐步下滑至2028年的81% [16] - **其他玩家**:英特尔正就收购另一家可重构芯片设计公司SambaNova进行初步谈判,该公司估值达50亿美元 [18] 市场前景与数据预测 - **全球市场**:IDC预计2025年AI算力芯片市场规模将超过1285亿美元,同比增长47.1%;到2030年市场规模将达4138亿美元,其中非GPU架构芯片市场规模占比将超过21%,推理芯片占比将提升至65% [18] - **中国市场**:2024年中国加速服务器市场规模达221亿美元,同比增长134%,其中非GPU加速服务器占比已超过30%;IDC预测到2029年,中国非GPU服务器市场规模占比将接近50% [21]