GPNPU
搜索文档
中国推理芯片突围与成本革命:破“内存墙”、兼容CUDA
21世纪经济报道· 2026-02-04 17:09
行业趋势与共识 - 全球AI算力重心正从训练加速转向推理,未来五到十年推理芯片将主导AI演进方向 [1] - 行业核心需求从依赖GPU、CUDA生态构建的“绝对算力”,转向对高性价比推理芯片的迫切需求 [2] - 推理芯片的增长已超越训练芯片,Groq估值在2025年9月至2026年1月四个月内从70亿美元飙升至200亿美元,增长近3倍 [3] - 谷歌在2025年4月发布第七代TPU “Ironwood”,明确将其定位为面向推理时代的基石 [1] - 英伟达以200亿美元的代价,实质上整合了Groq最核心的资产,包括其创始团队、核心技术人员,并获得其IP的永久授权 [2] 公司战略与目标 - 云天励飞在2025年果断将芯片战略全面聚焦于云端大算力、大模型专用的推理芯片 [3] - 公司致力于通过底层架构创新,力争实现百万Tokens推理成本降低100倍以上的目标 [1] - 公司目标是每年将百万Token的推理成本降低100倍,到2030年实现“百亿Token仅需一分钱人民币”的成本水平 [3] - 未来五年,公司将全力打磨并推广DeepVerse 100、200、300系列芯片,覆盖互联网、通信运营商及各行业头部客户 [6] 技术架构与创新 - 公司正在打造专为大模型推理优化的新型处理器架构GPNPU,其核心公式为“GPNPU = GPGPU + NPU + 3D堆叠存储” [5] - GPNPU架构致力于解决可迁移、可部署、可持续降本三大工程难题 [5] - 在通用生态层面,GPNPU能够实现一行代码完成CUDA程序兼容,以降低迁移成本 [5] - 针对“内存墙”瓶颈,公司正深度研发3D堆叠存储及更前沿的互连技术,以提升带宽与能效 [5] - 在架构工程上,公司采用“算力积木”架构,通过Chiplet扩展与互连思路,实现算力按需扩展 [6] 市场机遇与竞争格局 - 在推理芯片领域,格局尚未成型,谷歌TPU v7、Groq等新兴架构刚刚崭露头角,这为中国企业提供了历史性窗口 [4] - 中国在AI应用场景丰富度与落地速度上全球领先,但在模型层与芯片层仍相对落后,意味着巨大的追赶与超越空间 [3] - 公司认为中国应在训练芯片领域持续追赶,在推理芯片领域依托丰富的应用场景、强大的基建能力及开源模型生态实现弯道超车 [5] 公司核心竞争力与保障 - 公司将核心竞争力总结为技术、产能、生态、市场、资本五大关键要素的协同共振 [6] - 公司是目前国内屈指可数手握充足国产产能保障的企业之一,为芯片大规模量产与交付提供了确定性 [6]
云天励飞董事长陈宁:AI推理时代已至 推理芯片崛起将是中国科技复兴巨大机遇
每日经济新闻· 2025-12-29 20:34
文章核心观点 - 人工智能产业正从以训练为主的阶段,进入以推理为主的“代理式人工智能”时代,这引发了算力范式的根本性转变 [1][2] - 推理芯片赛道的崛起打破了英伟达在训练时代的垄断格局,为中国AI芯片产业提供了实现“超车”的历史性机遇 [1][3] - 面对推理需求的爆炸性增长和成本挑战,需要通过新的芯片架构和工艺创新来降低总体拥有成本,以实现AI的规模化和产业化 [4][5] AI产业发展阶段 - **第一阶段(2012-2020年)**:“智能感知”时代,以小模型驱动特定场景解决方案为主,市场碎片化,难以规模化复制 [2] - **第二阶段(2020-2025年)**:AIGC时代,大模型展现强大内容生成能力,但行业仍在寻找盈利闭环 [2] - **第三阶段(2025年起)**:“代理式人工智能”时代,智能体将大模型、操作系统与硬件深度融合,能独立完成复杂任务,引发真正产业革命,其核心特征是应用爆发,所需算力从训练为主转向推理为主 [2] 推理芯片成为关键赛道 - 推理追求大规模商业化,必须讲求市场经济和极高的性价比,这与训练追求极致性能不同 [2] - 市场规律证明了推理芯片赛道的不可替代性,谷歌在TPU战略中明确“训推分离”,博通为Meta、OpenAI定制推理芯片,都证明了该赛道的崛起 [3] - 在训练赛道上,中国企业因先进制程受限和CUDA生态壁垒,追赶英伟达差距较大,但在全球刚起步的推理芯片赛道上,游戏规则不同,为中国提供了“超车”机遇 [3] - 推理更接近应用场景,需要提供高性价比产品,这正是中国产业所擅长的,其崛起将是中国科技复兴的巨大机遇 [3] 推理需求与成本挑战 - 以豆包大模型为例,其日均Token处理量已达50万亿且增速惊人 [5] - 即便Token处理量以50万亿为基准不再增长,面向大规模在线推理的资本开支与运营开支也已非常可观 [5] - 若Token规模短期继续上行,明年上半年可能触及100万亿,在单位能效无显著改善的情况下,电力与散热等基础设施压力可能出现“千倍级”跃迁 [5] - 为支撑AI规模化、产业化,需要在较短周期内把“百万Token”的推理综合成本降低到“一分钱”级别,这需要通过架构革命和工艺创新实现 [5] 新芯片架构解决方案 - 传统GPGPU架构面临瓶颈,因为推理任务中Prefill和Decode两个阶段对算力和带宽的需求不同 [4] - 云天励飞提出了新的GPNPU芯片架构,旨在融合三大核心能力 [4] - 三大核心能力包括:1) 顶层结合GPGPU的SIMT编程范式,具有通用灵活的调度架构,以便利兼容CUDA生态;2) 结合指令集微架构设计能力,优化GPGPU中的矩阵类计算硬件;3) 基于国产工艺和全国产产业链融合先进封装技术,打破内存瓶颈,降低成本 [4] - GPNPU的目标是在计算算力、存储带宽、存储容量三者间实现更优配比,满足未来多元化异构推理算力需求,并通过提升硬件利用率、实现高能效低功耗等技术,全方位降低用户的总体拥有成本 [4]
云天励飞董事长陈宁:AI推理时代已至 推理芯片崛起将是中国科技复兴巨大机遇
每日经济新闻· 2025-12-29 20:33
人工智能产业发展阶段 - 人工智能产业发展可划分为三个阶段:2012至2020年为“智能感知”时代,以小模型驱动特定场景解决方案为主,市场碎片化[4];2020至2025年为AIGC时代,大模型展现强大内容生成能力,行业寻找盈利闭环[4];2025年进入第三个阶段“代理式人工智能(Agentic AI)时代”,其核心特征是大模型、操作系统与硬件深度融合的智能体(Agent)引发应用爆发[4] 算力范式革命与产业机遇 - 2025年被视为AI应用爆发元年,应用爆发背后是百倍增长的推理算力需求与高昂成本之间的矛盾[1] - 算力范式正从以训练为主转向以推理为主,这是根本性转折,训练追求极致性能,而推理大规模商业化必须追求极高的性价比[5] - 推理芯片赛道的崛起打破了英伟达凭借CUDA生态和GPGPU在训练时代建立的垄断格局,谷歌TPU战略明确“训推分离”,博通为Meta、OpenAI定制推理芯片,证明了该赛道的独立性与巨大潜力[6] - 推理芯片是中国实现“超车”的关键机遇,全球刚刚起步,游戏规则不同,中国在应用、数据、能源、系统集成方面有优势,更擅长为用户提供高性价比产品[3][6] 推理芯片的技术挑战与架构创新 - 推理任务的计算范式发生根本变化,尤其是Prefill(预填充)和Decode(解码)两个阶段对算力和带宽需求不同,传统GPGPU架构面临瓶颈[7] - 云天励飞提出了新的GPNPU芯片架构,旨在融合三大核心能力:顶层结合GPGPU的SIMT编程范式以兼容CUDA生态;结合指令集微架构设计优化矩阵计算硬件;基于国产工艺和先进封装技术打破内存瓶颈并降低成本[7] - GPNPU目标是在计算算力、存储带宽、存储容量三者间实现更优配比,通过提升单位硅芯片面积的计算性能、降低模型迁移成本、提升硬件利用率以及实现高能效低功耗,全方位降低用户的总体拥有成本[7] 推理需求的规模与成本目标 - 以豆包大模型为例,其日均Token处理量已达50万亿且增速惊人,即便以此为基础不再增长,大规模在线推理的资本与运营开支也非常可观[8] - 若Token规模短期继续上行,明年上半年可能触及100万亿,在单位能效无显著改善的情况下,电力与散热等基础设施压力可能出现“千倍级”跃迁[8] - 为支撑AI规模化、产业化,需在较短周期内把“百万Token”的推理综合成本降低到“一分钱”级别,这需要通过架构革命和工艺创新实现[8]