国泰海通|电子:AI手机的离线推理速度取决于内存带宽瓶颈的突破
行业技术瓶颈 - 当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM堆叠后内存带宽呈现数量级提升,技术方案产业趋势明确 [1][2] - 以高通骁龙8GEN3为例,NPU算力约45 TOPs,内存带宽约67 GB/s,运行7B大模型时计算能力限制约3215 tokens/s,内存带宽限制仅4.8 tokens/s,实际推理速度受内存限制更显著 [2] - 小米手机实测Qwen3-8B-MNN模型显示Decode速度为7.04 tokens/s,用户无感体验需达40-50 tokens/s,凸显当前内存带宽不足 [2] 技术解决方案 - 3D DRAM+NPU合封方案可将内存带宽提升至800 GB/s,高通骁龙8GEN3的内存限制瓶颈将从4.8 tokens/s跃升至57 tokens/s [3] - 兆易创新、青耘科技、光羽芯成等中国大陆企业及中国台湾华邦电、高通等国际厂商均布局3D DRAM+NPU技术路线 [3] 产业发展阶段 - 当前硬件发展领先于模型,未来模型爆发将依赖硬件红利,硬件需通过数年稳定性测试才能支持亿级商用 [3] - 手机AI商用爆发窗口预计在2025年底至2026年,具备成熟硬件与模型的企业将获得至少一年红利期 [3] - 高通等手机AP厂商需主动适配AI大模型硬件策略,以避免被端侧GPU技术颠覆的风险 [3]