Workflow
MiniCPM4.0
icon
搜索文档
苹果虽迟但到,端侧AI加速爆发,AI新势力抢先圈地突围
36氪· 2025-06-12 07:56
苹果WWDC与端侧AI生态 - 苹果在WWDC宣布向所有App开放权限 允许开发者直接访问设备端大语言模型 推出Foundation Models框架[1] - Foundation框架让开发者无需支付云端API调用费用 用户无需承担额外成本 打破"成本-隐私-延迟"三角制约[6] - 苹果智能正加速融入系统各功能 端侧AI生态覆盖智能手机、笔记本、汽车等多类终端场景[1][6] 面壁智能MiniCPM4技术突破 - MiniCPM4推出0.5B和8B两种参数规模 0.5B模型性能超Qwen-3-0.6B及1B参数的Llama3.2/Gemma3[1][10] - 8B模型以22%训练开销比肩Qwen-3-8B 0.5B模型以2.7%训练开销实现性能翻倍[10] - 采用原生QAT技术实现INT4量化 推理速度达600 Tokens/秒 长文本场景缓存空间仅需1/4[10] 端侧模型技术革新 - 首创原生注意力稀疏模型InfLLMv2 稀疏度降至5% 计算量仅为传统1/10[14][16] - 自研CPM.cu推理框架实现5倍加速 ArkInfer解决多平台适配问题[16][18][20] - 128K长文本场景下实现5-220倍加速 量化版模型瘦身90%[10][13] 端侧AI行业趋势 - 端侧部署已成行业趋势 但面临推理速度、功耗控制、上下文理解等挑战[5][7][8] - 设备硬件受限导致模型需压缩规模 影响长序列建模能力[9] - 行业需突破"增量困境" 技术创新成核心驱动力[5][24] 产业影响与未来展望 - 端侧基模决定上层应用天花板 当前水平类比19世纪蒸汽机[22][23] - MiniCPM4开源下载量破1000万 参数/数据/框架全面开放[27] - 端侧智能将推动AI普惠落地 开启人机协同新时代[28][29]
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 17:31
模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]