Llama 3.2

搜索文档
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...
Meta and Booz Allen partner on 'Space Llama' AI program with Nvidia and HPE
CNBC· 2025-04-25 22:35
合作项目启动 - Meta与Booz Allen Hamilton联合推出开源AI模型"Space Llama",旨在支持国际空间站国家实验室低轨道宇航员的科研工作 [1] - 该项目基于Booz Allen Hamilton 8月在空间站部署的首个大型语言模型基础,此次升级整合了Meta优化后的Llama 3.2版本 [3] 技术架构 - 系统采用HPE太空级计算机Spaceborne Computer-2与Nvidia GPU提供算力支持 [3] - Llama 3.2模型经过专门调优以适应太空环境下的科研需求 [3] 战略愿景 - Meta高管提出开源AI模型将推动太空探索创新,帮助宇航员解决复杂科学问题并开辟全新研究路径 [2] - 该合作标志着AI技术在太空应用场景的快速迭代,从首次部署到技术栈升级间隔不足一年 [3]
7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分
量子位· 2025-03-07 15:12
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 见识过32B的QwQ追平671的DeepSeek R1后—— 刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事? 新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。 使Deepseek-R1蒸馏的Qwen2.5 7B模型在 麻省理工学院积分大赛 ( MIT Integration Bee )上达到90分超越o1。 注意,不是积分制的比赛哦,是只做 微积分中积分题 的比赛,MIT的数学高手每年都会挑战一次,题目像这样: $\lambda(0)$-$\frac{1}{2}$\(\lambda(0)\ LADDER论文来自小型独立研究团体 Tufa Labs ,论文已上传到arXiv。 在推理时间强化学习 LADDER,全称Learning through Autonomous Difficulty-Driven Example Recursion,即"通过自主难度驱动的样本递归进行学习"。 这个名字听起来有点拗口,但核心其实很容易理解:就是让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自 ...