模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营·2025-06-10 17:31