文章核心观点 - 全球AI产业竞争正从云端算力竞赛,向终端设备的端侧AI蔓延,一场决定未来格局的端侧竞速已拉开帷幕 [3][4] - 计算范式正经历从通用计算到AI计算的史诗级演进,端侧即将成为人工智能发展的新战场,并复制云端从CPU主导转向AI芯片主导的变革逻辑 [5][11][18] - 端侧AI的发展由模型压缩技术与端侧算力芯片的“共生进化”驱动,未来端侧算力将形成以独立NPU为主的新范式,并重构生活与工作的智能体验 [22][32][40] - 端侧AI的崛起是技术发展的必然,未来五年将推动终端设备经历深刻的大模型洗礼,开启“人人可用、万物智能”的时代 [48][49] 计算范式演进与算力格局变迁 - 计算技术发展由范式转换驱动:1945年冯・诺依曼“存储程序”理论奠定通用计算基础,2006年英伟达CUDA架构开启加速计算时代,其并行计算能力较CPU提升100倍以上 [6][7][8] - 2020年生成式AI突破催生“认知级计算”需求,大模型对并行处理和海量数据吞吐的极致需求加速了云端AI芯片发展,并催生“云端训练-端侧部署”协同生态 [9] - 云端算力已完成从CPU为主到GPU为核心的历史性转变:2019年TOP500超算近90%算力完全依赖CPU,到2025年这一数字已急剧下降到不足15%,六年时间完成了Intel和英伟达算力霸主地位的交接 [10] 端侧AI成为发展新战场 - 云端模型部署的高延迟和高成本难以适配端侧场景,模型蒸馏技术将千亿级模型压缩至百亿甚至十亿级,使其能部署在AI PC、AI手机等端边侧场景 [12] - 全球及中国端侧AI市场将高速增长:预计2029年全球端侧AI市场规模将增至1.2万亿元,复合年增长率达39.6%;中国端侧AI市场2029年将达3077亿元,复合年增长率达39.9% [12] - 政策支持与市场需求共振:中国“十五五”规划等政策提出实施“人工智能+”行动,锚定2030年智能终端普及率超90%、产业规模突破10万亿元的目标,为端侧AI规模化爆发注入动能 [13] - 中国已形成全球最完整的端侧AI产业链:上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商;中游有Deepseek、阿里、讯飞等算法模型企业;下游有荣耀、联想、小米等终端厂商 [13] 端侧AI发展的底层逻辑 - 云端大模型已出现“杀手级应用”(如ChatGPT周活8亿),而端侧大模型的Killer App尚在探索中,其发展受限于端侧芯片性能与模型压缩能力 [16] - 端侧计算架构将复制云端以AI算力芯片为主导的变革,因为AI化体验的用户诉求不可逆,且数据传输存在物理上限 [18][21] - 数据传输存在物理瓶颈:按较保守的25 Mbps/用户和2023年997 Tbps海底光缆总带宽计算,理论最大同时4K流用户约4000万,远不能支撑ChatGPT或微信的用户体量,完全由服务器端计算不现实 [21] 模型与算力的共生进化 - 模型“瘦身”技术加速落地:华为CBQ量化算法将模型压缩至原体积1/7,性能保留99%;阿里逆向蒸馏技术使2B模型性能反超7B模型8.8% [23] - 端侧算力需求激增:多模态大模型(如Qwen3 VL 8B需几十TOPS算力)及智能体的发展,推动算力需求大幅攀升甚至指数级增长 [24] - 端侧算力供给大幅跃迁:前大模型时代端侧芯片通常只有几TOPS算力,AI PC出现后芯片算力达几十TOPS;国产芯片如瑞芯微RK182X NPU算力20TOPS,后摩智能M50算力可达160TOPS [25] 当前端侧算力格局 - 端侧算力以“SOC+NPU协同发展”为主要格局 [26] - 端侧SOC芯片:以ARM CPU为核心,集成轻量级NPU,主打性价比与通用性,适配1-10亿参数的端侧小模型,应用于智能音箱、智能门锁等对AI性能要求较低的场景,例如瑞芯微RK3588(6TOPS NPU) [27] - 端侧NPU:分为集成式(iNPU)和独立式(dNPU),为追求极致AI性能,独立NPU成为主流,可适配30-1000亿参数的模型 [28][29][30] - 主要NPU产品示例:华为Atlas 200I A2(最高20TOPS Int8算力,功耗25瓦);算能BM1684X(单芯片32TOPS);瑞芯微RK1820/1828(最高20TOPS Int8算力);后摩智能M50(存算一体架构,单芯片算力160TOPS,功耗10W) [30][31] 未来端侧算力新范式 - 端侧将形成“ARM+NPU”镜像云端“X86+GPGPU”的大趋势,dNPU(或称GPNPU)将成为端侧AI计算主导力量 [32][33][36] - 端侧将根据算力需求形成分层市场:低算力场景(<10TOPS)以SOC集成iNPU为主;中算力场景(10-50TOPS)以独立dNPU为主;高算力场景(>50TOPS)则必须采用dNPU方案 [35] - 独立NPU(dNPU)相比集成方案具备四大优势:适配操作系统和硬件多样化、组合成本最优化、开发迭代灵活性、性能极致化 [37][38][39] - 独立NPU开发周期(适配端侧AI模型3-6个月迭代)远短于SOC研发周期(一般需18-24个月),能更敏捷地响应AI功能升级需求 [38] 端侧AI的场景革命与形态演进 - 端侧AI正从简单的连接功能,逐步走向与环境、用户的深度融合,其形态沿清晰路径进化 [40][42] - 初级形态(联网节点):算力不足1TOPS,仅可通过手机简单控制 [42] - 二级形态(交互入口):算力一般在5TOPS以内,重度依赖云端识别,反馈速度慢 [42] - 三级形态(推理节点):具备多模态感知与单场景决策能力,算力达百TOPS级,交互延迟压至毫秒级,数据处理完全本地化 [42] - 四级形态(自主智能体):能跨设备、跨场景自主规划并持续学习,算力500TOPS以上,超80%的数据在端侧处理 [43] - 端侧AI已迈入第三级形态,对计算芯片的算力、功耗与成本平衡提出极高要求 [44] 突破算力瓶颈的新型计算架构 - 为突破传统冯诺依曼架构在功耗下的算力限制(1W功耗下仅几TOPS),多种新型计算架构涌现,包括光子计算、量子计算、可重构数据流、Chiplet技术及存算一体技术 [44][45] - 存算一体技术通过融合计算与存储单元,大幅提升计算效率,是更适合端侧AI且能商业量产的新型架构方案之一 [46] - 国内外厂商积极布局存算一体:美国D-Matrix首款芯片Corsair已量产,公司估值达20亿美元;Encharge AI面向端侧的芯片算力高达200TOPS;国内知存科技深耕小算力场景,后摩智能主攻大算力端侧AI场景,其产品已导入联想AI PC、讯飞智能语音设备等 [46]
大模型战火烧到端侧:一场重构产业格局的算力革命
36氪·2025-12-04 21:54