Workflow
“像把大象塞进冰箱一样困难”,端侧大模型是噱头还是未来?
36氪·2025-10-14 16:30

端侧大模型的定义与范畴 - 端侧大模型指将大模型的推理过程直接部署在终端设备上,而非依赖云端数据中心 [2] - 端侧设备范围广泛,包括算力较弱的IoT设备、算力中等的智能手机、机器人和PC等 [2] - 大模型没有统一标准,通常指基于decoder-only的Transformer架构、参数规模超过百兆的自回归模型,能处理多种任务并适应不同下游任务 [2] 端侧部署的核心优势 - 隐私保护:模型可利用端上产生的所有数据(如录音、文本、屏幕点击),避免敏感数据上传云端 [3] - 低延迟与高可用性:端侧推理摆脱网络依赖,避免云端服务的网络往返延迟和批量调度时延,整体延迟显著降低 [3][6] - 成本优势:将计算分摊到用户终端,可减少企业维护超大GPU集群的成本 [3][6] 端侧部署面临的技术挑战 - 内存限制:终端设备内存配置多为8~12GB,需通过极致量化与压缩(如4bit甚至更低)来适配有限内存 [4][5][7] - 精度对齐:端侧必须将FP32模型高精度压缩,不同厂商对量化算法的支持差异带来精度对齐难题 [5] - 开发适配成本高:端侧部署几乎需从零开始开发高性能算子,构建推理能力,开发成本远高于云端 [5] - 模型部署与下发:APP安装包尺寸限制大,即便量化后模型仍可能达几百兆,内存压力显著 [11] 业界解决方案与技术进展 - 华为CANN工具链提供NPU友好的低比特量化算法,显著降低模型内存占用,使大模型能运行于手机等终端 [6][9] - 工具链支持Ascend C自定义算子开发,实现一次开发多端部署,并已适配业界主流开源模型(如通义、千问、LLaMA、ChatGLM) [6][9] - 采用量化策略如PTQ、QAT,针对2比特量化选用更小block size(如64或32)并引入二级量化来压缩scale,减少模型体积和加载内存 [16][17] - 利用模型稀疏性与存储分层结合,将频繁激活的参数常驻内存,不常用参数按需加载,以扩大端侧可运行模型规模 [12][13] - 针对Prefill阶段算力瓶颈,采用prompt缓存、混合低比特量化等技术;针对Decode阶段带宽瓶颈,采用更低比特量化、MoE、投机推理等方案 [14][15] 典型应用场景与商业化路径 - 隐私要求高的场景:如数字世界的Computer Use Agent(GUI Agent、Function Code Agent)、物理世界的具身智能(无人机、机器人) [21][26] - 实时性要求高的场景:如语音助手、流式识别、实时翻译、相机算法优化、离线ASR等 [6][21] - 商业模式上,终端侧运行已基本成熟,华为、vivo、荣耀、苹果等厂商新旗舰手机均具备端侧大模型能力 [21] - 更易取得商业化成果的路径是将大模型与具体应用场景结合,如应用开发、智能Agent、无人机或其他深度垂直领域 [29][30] 未来发展趋势与端云协同 - 未来3-5年,端云协同将成为必然趋势,端侧作为"神经末梢"负责部分token计算和隐私数据采集,云端作为"大脑"完成复杂推理决策 [23][24] - 端侧将更贴近生产力场景,处理与用户本地数据相关的个性化任务;云端则致力于拓展人类知识边界的复杂任务 [24][25] - 端的形态将不限于手机,扩展到车机、机器人、智能眼镜等设备,成为智能入口和重要计算节点 [25][26] - 操作系统需重新定义资源管理以适配大模型,如KV cache的管理、NPU的灵活调度机制等 [10][24]