文章核心观点 - 人工智能产业正从以训练为主的阶段,进入以推理为主的“代理式人工智能”时代,这引发了算力范式的根本性转变 [1][2] - 推理芯片赛道的崛起打破了英伟达在训练时代的垄断格局,为中国AI芯片产业提供了实现“超车”的历史性机遇 [1][3] - 面对推理需求的爆炸性增长和成本挑战,需要通过新的芯片架构和工艺创新来降低总体拥有成本,以实现AI的规模化和产业化 [4][5] AI产业发展阶段 - 第一阶段(2012-2020年):“智能感知”时代,以小模型驱动特定场景解决方案为主,市场碎片化,难以规模化复制 [2] - 第二阶段(2020-2025年):AIGC时代,大模型展现强大内容生成能力,但行业仍在寻找盈利闭环 [2] - 第三阶段(2025年起):“代理式人工智能”时代,智能体将大模型、操作系统与硬件深度融合,能独立完成复杂任务,引发真正产业革命,其核心特征是应用爆发,所需算力从训练为主转向推理为主 [2] 推理芯片成为关键赛道 - 推理追求大规模商业化,必须讲求市场经济和极高的性价比,这与训练追求极致性能不同 [2] - 市场规律证明了推理芯片赛道的不可替代性,谷歌在TPU战略中明确“训推分离”,博通为Meta、OpenAI定制推理芯片,都证明了该赛道的崛起 [3] - 在训练赛道上,中国企业因先进制程受限和CUDA生态壁垒,追赶英伟达差距较大,但在全球刚起步的推理芯片赛道上,游戏规则不同,为中国提供了“超车”机遇 [3] - 推理更接近应用场景,需要提供高性价比产品,这正是中国产业所擅长的,其崛起将是中国科技复兴的巨大机遇 [3] 推理需求与成本挑战 - 以豆包大模型为例,其日均Token处理量已达50万亿且增速惊人 [5] - 即便Token处理量以50万亿为基准不再增长,面向大规模在线推理的资本开支与运营开支也已非常可观 [5] - 若Token规模短期继续上行,明年上半年可能触及100万亿,在单位能效无显著改善的情况下,电力与散热等基础设施压力可能出现“千倍级”跃迁 [5] - 为支撑AI规模化、产业化,需要在较短周期内把“百万Token”的推理综合成本降低到“一分钱”级别,这需要通过架构革命和工艺创新实现 [5] 新芯片架构解决方案 - 传统GPGPU架构面临瓶颈,因为推理任务中Prefill和Decode两个阶段对算力和带宽的需求不同 [4] - 云天励飞提出了新的GPNPU芯片架构,旨在融合三大核心能力 [4] - 三大核心能力包括:1) 顶层结合GPGPU的SIMT编程范式,具有通用灵活的调度架构,以便利兼容CUDA生态;2) 结合指令集微架构设计能力,优化GPGPU中的矩阵类计算硬件;3) 基于国产工艺和全国产产业链融合先进封装技术,打破内存瓶颈,降低成本 [4] - GPNPU的目标是在计算算力、存储带宽、存储容量三者间实现更优配比,满足未来多元化异构推理算力需求,并通过提升硬件利用率、实现高能效低功耗等技术,全方位降低用户的总体拥有成本 [4]
云天励飞董事长陈宁:AI推理时代已至 推理芯片崛起将是中国科技复兴巨大机遇