Workflow
面壁小钢炮MiniCPM4.0
icon
搜索文档
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...
面壁小钢炮4.0原生稀疏模型发布:最高220倍提速,开启端侧长文本时代
IPO早知道· 2025-06-10 10:39
首个系统级上下文稀疏化高效创新模型。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息,面壁智能于日前举行的 2025智源大会 上发布了 新一代「面壁小钢炮」 MiniCPM4.0端侧模型发布 。 一款 8B稀疏闪电版,带来端侧性能创新式大跃升;一款0.5B实力演 绎以小博大,适配广泛终端场景。 值得一提的是, 第四代小钢炮推出了首个原生稀疏模型, 5%的极高稀疏度加持系统级创新技术的 大爆发,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来 ; 220倍极限加速,一 半参数翻倍性能的表现, 则继续 带来端侧基模最极致表现。 具体来讲, 面对此前端侧模型长文本「龟速推理」业界难题, MiniCPM 4-8B「闪电稀疏版」, 采用了新一代上下文稀疏高效架构 ,相较于同等参数规模端侧模型实现了长文本推理速度 5倍常规 加速以及最高220倍加速(显存受限极限场景下测出),真正让端侧模型长文本推理实现了「快如闪 电」的质变。此外,注意力机制上实现了高效双频换挡,长文本用稀疏,短文本用稠密,切换快如 流。 同时, MiniCPM 4.0推出端侧性能 ...