InfLLM v2 - 财报，业绩电话会，研报，新闻 - Reportify

InfLLM v2

搜索文档

开启端侧长文本时代！面壁全新架构，让小钢炮最快提升220倍

机器之心· 2025-06-09 16:03

端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型，实现行业首个系统级上下文稀疏语言模型创新，稀疏度达5%，开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本，8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍，极限场景下最高220倍加速[5] - 在128K长文本场景下，8B版本仅需Qwen3-8B 1/4的缓存存储空间，大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B，超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理，性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制"，根据任务自动切换稀疏/稠密注意力模式，实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层，稀疏度从行业40%-50%降至5%，计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升，BitCPM量化算法实现4-bit量化，模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略，验证成本下降90%，处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配，支持多种开源框架部署[18] - 与DeepSeek形成技术互补，面壁专注端侧稀疏化方案，DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律"，认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新，可能重塑应用生态[19]

大模型技术

大模型技术