Workflow
高通骁龙8 Elite(第四代)
icon
搜索文档
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
量子位· 2025-07-03 17:00
多模态大模型在移动端的部署挑战与解决方案 - 当前端侧多模态大模型(MLLM)面临纯语言任务性能下降超10%的问题,尤其在MATH、AlignBench和MT-Bench测试中表现明显 [4] - 手机NPU平台尚不支持MoE架构部署,包括联发科天玑9400和高通骁龙8 Elite在内的旗舰SoC均存在此限制 [7] - vivo AI研究院联合学术团队提出GenieBlue方案,通过冻结原始LLM参数并引入复制Transformer层+LoRA模块解决上述问题 [2] GenieBlue核心技术突破 - 采用不共享基座的推理策略,在骁龙8 Elite芯片上实现流畅运行,完全保留原始纯语言性能 [3] - 通过1/4层复制Transformer+LoRA模块设计,多模态性能达到全量微调的96%以上 [18] - 相比CogVLM-Skip方法,GenieBlue-Skip在多模态任务平均表现提升1-2个百分点 [23] 训练数据与模型结构优化 - 实验显示增加200万纯文本数据对多模态能力无显著影响,但能部分恢复客观NLP任务性能 [11][12] - 全量微调导致纯文本任务性能下降22-36%,而LoRA和CogVLM方法可保持90%以上原始能力 [17] - 在BlueLM-3B模型上,GenieBlue-Skip结构实现98.99%多模态性能保留率 [23] 部署效果验证 - 在MMBench等9项多模态测试中,GenieBlue(3.2B)表现优于InternVL2-8B(8B) [32] - 采用不共基座部署策略实现100%原始语言能力保留,显著优于Qwen2.5VL-3B的92.98% [34] - 在骁龙8 Elite平台实现30token/s推理速度,模型加载时间仅增加15% [35]