第二代InfLLM开源,同尺寸快三倍,零参数,可训练稀疏注意力
36氪·2025-10-09 20:12

核心技术特点 - InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,通过动态切换短长文本处理模式,显著提升长上下文任务的效率与质量 [1] - 该方法仅需5B的长文本词元即可完成稀疏注意力的训练,而DeepSeek-V3.2-Exp训练了近1T词元的数据 [1] - 核心优势包括低成本训练、短到长无缝切换效率双优、以及硬件友好的高效算子实现 [2] - 采用零额外参数、长短无缝切换的可训练稀疏路径,仅用一套共享键值缓存,与稠密注意力在参数与计算方式上完全对齐 [6] 性能表现 - 相比于稠密注意力机制可以实现4倍的速度提升,在长文本理解任务上保持98.1%的稠密模型性能,在深思考任务上保持99.7%的稠密模型性能 [1] - 在128K长文本中,InfLLM-V2可实现4-9倍算子加速比,端到端评测中在prefill与decode分别实现约2.1×与2.3×加速 [13] - 在RULER、LongBench与LongPPL等长文本理解评测中,InfLLM-V2实现了与稠密注意力模型完全可比的性能 [9] - 在数学、代码深思考任务中,InfLLM-V2能够实现与稠密注意力可比的性能,而NSA方法对模型效果有较大损害 [11] 产品应用与对比 - 基于InfLLM-V2架构发布了首个开源的原生稀疏注意力模型MiniCPM4和混合思考版本MiniCPM4.1 [17] - MiniCPM4.1在LiveCodeBench、AIME等代码、数学推理测试中,推理速度比Qwen3-8B等同尺寸开源模型快3倍以上 [17] - 在众多深思考任务上取得综合平均分同尺寸模型第一,在AIME24达到80.83分,AIME25达到72.08分 [18] - 与传统NSA方法相比,InfLLM-V2解决了三套独立KV缓存与三种注意力分支的设计问题,训练更稳定 [6]