线性注意力模型
搜索文档
国产类脑大模型适配国产沐曦GPU!长序列推理提速超百倍,仅用2%数据匹敌主流模型
量子位· 2025-09-11 18:19
核心技术思路 - 提出“基于内生复杂性”的通用智能实现路径,旨在通过融合神经元内部丰富动力学特性来构建高效模型,区别于现有“基于外生复杂性”(简单神经元+大规模网络)的技术路径[7][9] - 核心创新在于借鉴大脑信息处理机制,使用具有复杂内生动态的脉冲神经元构建模型,理论上存在用小规模复杂神经元网络代替大规模简单神经元网络的可能性[5][6] - 团队在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,揭示现有线性注意力机制是树突计算的特殊简化形式,为性能提升提供了清晰路径[13] 模型架构与性能 - SpikingBrain-1.0包含7B和76B两个版本:7B为层间混合纯线性模型,76B为层内混合的混合线性MoE模型,分别具有线性及近线性复杂度[10][14] - 7B模型在极低训练数据量(约150B token,为主流模型的2%)下实现与主流开源Transformer模型相媲美的性能,在MMLU基准上达到65.84分[18][19] - 76B模型仅激活12B参数,在MMLU基准上达到73.58分,性能接近或优于Llama2-70B、Mixtral-8*7B等先进Transformer模型[20] 效率优势与基准测试 - 在GPU上处理1M长度序列时,TTFT速度相比主流大模型提升26.5倍,4M长度下保守估计速度提升超过100倍[2][21] - 序列长度从256k扩展到4M时,推理时间开销几乎恒定(1015ms至1073ms),而Qwen baseline在1M长度时已达27929ms且难以评测4M长度[21][22] - 在手机CPU端,压缩至1B的模型在64k-128k-256k长度下较Llama3.2的1B模型Decoding速度分别提升4.04倍-7.52倍-15.39倍[23] 技术创新点 - 构建自适应阈值神经元模型模拟生物神经元脉冲发放过程,通过虚拟时间步策略实现“电位-脉冲”转换,将整数脉冲计数重新展开为稀疏脉冲序列[12] - 动态阈值脉冲化信息编码方案可将模型中计算量占比90%以上的稠密连续值矩阵乘法替换为支持事件驱动的脉冲化算子,实现高性能与低能耗兼顾[12] - 结合网络层面MoE架构与神经元层面稀疏事件驱动计算,提供微观-宏观层面的稀疏化方案,体现按需计算的高效算力分配[13] 国产化与生态建设 - 适配了面向沐曦MetaX国产GPU集群的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,实现百卡规模数周稳定训练[2][13][26] - 7B模型在国产算力集群上进行8k长度训练时,MFU达到23.4%,TGS per GPU达到1558 tokens/s,展示了构建国产自主可控新型非Transformer大模型架构生态的可行性[26][28] - 团队开源了SpikingBrain-1.0-7B模型并提供76B模型的网络试用端口,支持数百人并发请求,积极推动类脑研究生态构建[27][29]