3700 次预训练寻找 “线性注意力” 非共识，MiniMax-01 开发者讲述 4 年探索

线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索，当时被视为"看起来很美好的泡泡"，但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer，但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构，在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性，长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性，涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时，线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向，2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高，未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识，部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发，视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型，预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01，但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题，通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决，测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案，以快速验证效果 [48]