Workflow
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技·2025-06-10 17:37

新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...