长文本推理 5 倍提速！面壁MiniCPM4 端侧模型发布，0.5B模型效果秒杀同级

模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布包含8B和0 5B两种参数规模其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制根据任务特征自动切换注意力模式长文本启用稀疏注意力降低计算复杂度短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子提出高效LogSumExp估计算法相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升集成高效稀疏注意力算子投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制实现90%验证成本降低处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]