Llama 3.2 - 财报，业绩电话会，研报，新闻

Llama 3.2

搜索文档

长文本推理 5 倍提速！面壁MiniCPM4 端侧模型发布，0.5B模型效果秒杀同级

AI前线· 2025-06-12 14:07

模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布包含8B和0 5B两种参数规模其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制根据任务特征自动切换注意力模式长文本启用稀疏注意力降低计算复杂度短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子提出高效LogSumExp估计算法相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升集成高效稀疏注意力算子投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制实现90%验证成本降低处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]

端侧模型

稀疏注意力架构

Artificial Intelligence

Artificial Intelligence

面壁MiniCPM4端侧模型

Qwen-3-8B

Gemma-3-12B

面壁小钢炮4.0发布：性能比肩 Qwen-3-8B，极限220倍提速

新浪科技· 2025-06-10 17:37

模型性能与架构创新 - 面壁智能发布第四代"面壁小钢炮"MiniCPM4 0端侧模型包含8B和0 5B两种参数规模实现同级最佳性能 [2] - MiniCPM4 0-8B模型在MMLU CEval MATH500 HumanEval等基准测试中以22%训练开销达到Qwen-3-8B性能超越Gemma-3-12B [2] - MiniCPM4 0-0 5B以2 7%训练开销实现Qwen-3-0 6B和Llama3 2两倍性能推理速度达600Token/s [2] - 采用InfLLMv2稀疏注意力架构将行业普遍40%-50%稀疏度降至5% 注意力层计算量减少90% [4] 速度与效率突破 - 相比Qwen-3-8B Llama-3-8B等同参数模型实现长文本推理5倍常规加速及220倍极限加速 [3] - 在128K长文本场景下缓存存储空间仅为Qwen3-8B的25% [4] - 通过优化Transformer架构内存问题显著降低长序列数据处理的内存占用 [3] 应用与市场表现 - 基于8B版本开发出MCP Client和MiniCPM4-Surve两款特定能力模型后者可媲美Deep Research工具 [5] - MiniCPM系列全平台累计下载量突破1000万次 [5] 技术差异化 - InfLLMv2架构解决NSA方案在短文本推理慢的短板同时提升文本相关性精准度 [4] - 联合创始人刘知远强调加速成果源于模型架构数据治理软硬件结合的全栈创新 [3]

Meta and Booz Allen partner on 'Space Llama' AI program with Nvidia and HPE

CNBC· 2025-04-25 22:35

合作项目启动 - Meta与Booz Allen Hamilton联合推出开源AI模型"Space Llama"，旨在支持国际空间站国家实验室低轨道宇航员的科研工作 [1] - 该项目基于Booz Allen Hamilton 8月在空间站部署的首个大型语言模型基础，此次升级整合了Meta优化后的Llama 3.2版本 [3] 技术架构 - 系统采用HPE太空级计算机Spaceborne Computer-2与Nvidia GPU提供算力支持 [3] - Llama 3.2模型经过专门调优以适应太空环境下的科研需求 [3] 战略愿景 - Meta高管提出开源AI模型将推动太空探索创新，帮助宇航员解决复杂科学问题并开辟全新研究路径 [2] - 该合作标志着AI技术在太空应用场景的快速迭代，从首次部署到技术栈升级间隔不足一年 [3]

Artificial Intelligence

Space exploration

Artificial Intelligence

Space Llama

Llama 3.2

Spaceborne Computer - 2

Artificial Intelligence

Space exploration

Artificial Intelligence

Space Llama

Llama 3.2

Spaceborne Computer - 2