动态剪枝

搜索文档
端侧大模型20250801
2025-08-05 11:18
行业与公司 **行业**:端侧AI大模型发展(手机、PC、边缘设备等硬件载体)[1][2][3] **涉及公司**: - **海外**:Meta(LAMA系列)、微软(Phi-3系列)、谷歌(Gemini/Gamma)、苹果(A18芯片)、高通(骁龙8G3/8G4芯片)[1][3][15][16][17] - **国内**:腾讯(混元模型)、阿里(通义千问)、字节(豆包)、DeepSeek(征流技术)[22][23][25][26][27] --- 核心观点与论据 **1 端侧AI的驱动因素** - **硬件升级**:芯片NPU算力提升(如苹果A18、高通骁龙8G4支持7B至100亿参数模型运行,算力达35-50 TPS)[1][3][13] - **架构优化**:MOE(混合专家)和分组查询注意力技术降低内存占用(如微软Phi-3.5仅调用1-2个专家而非全部16个)[5][6][7][20] - **知识密度提升**:模型量化(高精度浮点数转低精度整数)、动态剪枝(适配数据集剪枝冗余参数)[8][9][11][12] **2 国内外技术路径对比** - **海外领先**:Meta LAMA系列为端侧模型底座,微软Phi-3.5擅长多语言任务,谷歌Gamma基于Gemini优化部署安卓设备[15][16][20][21] - **国内跟随与细分突破**: - 腾讯混元13B支持快慢思考模式(算力自适应),阿里通义千问205在演讲稿生成媲美人类[25][26] - DeepSeek通过征流技术压缩模型(小模型性能接近大模型)[10][22] **3 应用场景与商业化** - **硬件载体**:AI手机(Pixel集成Gamma)、AI PC(微软Windows平台)、AI眼镜(Meta)[17] - **国内落地**:字节豆包支持浏览器自动化(订酒店、票据识别),腾讯小程序为入口场景[27] --- 其他重要内容 - **隐私与协同**:端云协同弥补端侧算力限制,同时保障数据隐私[13] - **性能对比**:谷歌Gamma 7B模型评测优于LAMA2同参数模型[21] - **开源影响**:Meta LAMA免费开源推动行业标准建立[15][18] (注:原文未提及具体财务数据或百分比变化,故未引用)