MiniCPM4
搜索文档
第二代InfLLM开源,同尺寸快三倍,零参数,可训练稀疏注意力
36氪· 2025-10-09 20:12
InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,仅需少量长文本数据即可训练,且性能接近传统稠密模型。通过动态切换短长文本处 理模式,显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」,预填充与解码双阶段加速,释放长上下文的真正生产力。 长序列高效处理已成为大模型应用的关键。 传统稠密注意力在序列变长时计算开销极速增长,直接限制了产品可用性与成本可控性。 为解决这一痛点,清华 、OpenBMB 和哈工大提出 InfLLM-V2:一种零额外参数、训练高效的原生稀疏注意力框架。 InfLLM在短文本场景保持原生高效率,在长文本场景则切换为稀疏模式,带来端到端的显著加速。 该方法仅用5B的长文本词元,即可完成稀疏注意力的训练(而DeepSeek-V3.2-Exp训练了近 1T 词元的数据,才完成稀疏注意力的训练)。 具体而言,InfLLM-V2相比于稠密注意力机制可以实现4倍的速度提升,在长文本理解任务上保持98.1%的稠密模型性能,在深思考任务上保持99.7%的稠 密模型性能。 InfLLM有三个核心优势 1. 低成本训练:仅需5B长文本数据即可完成稀疏注意力能力的训练,训练成本低,适配周期短。 ...
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]