Workflow
InfLLM v2
icon
搜索文档
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 16:03
端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型,实现行业首个系统级上下文稀疏语言模型创新,稀疏度达5%,开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本,8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍,极限场景下最高220倍加速[5] - 在128K长文本场景下,8B版本仅需Qwen3-8B 1/4的缓存存储空间,大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B,超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理,性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制",根据任务自动切换稀疏/稠密注意力模式,实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层,稀疏度从行业40%-50%降至5%,计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升,BitCPM量化算法实现4-bit量化,模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略,验证成本下降90%,处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配,支持多种开源框架部署[18] - 与DeepSeek形成技术互补,面壁专注端侧稀疏化方案,DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律",认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新,可能重塑应用生态[19]