Workflow
Llama 3.2
icon
搜索文档
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
模型性能与架构创新 - 面壁智能发布第四代"面壁小钢炮"MiniCPM4 0端侧模型 包含8B和0 5B两种参数规模 实现同级最佳性能 [2] - MiniCPM4 0-8B模型在MMLU CEval MATH500 HumanEval等基准测试中以22%训练开销达到Qwen-3-8B性能 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B以2 7%训练开销实现Qwen-3-0 6B和Llama3 2两倍性能 推理速度达600Token/s [2] - 采用InfLLMv2稀疏注意力架构 将行业普遍40%-50%稀疏度降至5% 注意力层计算量减少90% [4] 速度与效率突破 - 相比Qwen-3-8B Llama-3-8B等同参数模型 实现长文本推理5倍常规加速及220倍极限加速 [3] - 在128K长文本场景下 缓存存储空间仅为Qwen3-8B的25% [4] - 通过优化Transformer架构内存问题 显著降低长序列数据处理的内存占用 [3] 应用与市场表现 - 基于8B版本开发出MCP Client和MiniCPM4-Surve两款特定能力模型 后者可媲美Deep Research工具 [5] - MiniCPM系列全平台累计下载量突破1000万次 [5] 技术差异化 - InfLLMv2架构解决NSA方案在短文本推理慢的短板 同时提升文本相关性精准度 [4] - 联合创始人刘知远强调加速成果源于模型架构 数据治理 软硬件结合的全栈创新 [3]
Meta and Booz Allen partner on 'Space Llama' AI program with Nvidia and HPE
CNBC· 2025-04-25 22:35
合作项目启动 - Meta与Booz Allen Hamilton联合推出开源AI模型"Space Llama",旨在支持国际空间站国家实验室低轨道宇航员的科研工作 [1] - 该项目基于Booz Allen Hamilton 8月在空间站部署的首个大型语言模型基础,此次升级整合了Meta优化后的Llama 3.2版本 [3] 技术架构 - 系统采用HPE太空级计算机Spaceborne Computer-2与Nvidia GPU提供算力支持 [3] - Llama 3.2模型经过专门调优以适应太空环境下的科研需求 [3] 战略愿景 - Meta高管提出开源AI模型将推动太空探索创新,帮助宇航员解决复杂科学问题并开辟全新研究路径 [2] - 该合作标志着AI技术在太空应用场景的快速迭代,从首次部署到技术栈升级间隔不足一年 [3]