线性注意力模型

搜索文档
国产类脑大模型适配国产沐曦GPU!长序列推理提速超百倍,仅用2%数据匹敌主流模型
量子位· 2025-09-11 18:19
SpikingBrain团队 投稿 量子位 | 公众号 QbitAI 超长序列推理时的巨大开销如何降低? 中国科学院自动化所李国齐、徐波团队 发布的 类脑脉冲大模型SpikingBrain (瞬悉)-1.0 提出了新思路。 SpikingBrain借鉴大脑信息处理机制,具有线性/近线性复杂度,在超长序列上具有显著速度优势。 在GPU上1M长度下TTFT 速度相比主流大模型提升26.5x,4M长度下保守估计速度提升超过100x;在手机CPU端64k-128k-256k长度下较 Llama3.2的同规模模型Decoding速度提升4.04x-7.52x-15.39x。 SpikingBrain适配了面向 沐曦MetaX国产GPU集群 的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,表明了构建国 产自主可控的新型非Transformer大模型架构生态的可行性。 SpikingBrain-1.0就是这一思路下的初步尝试。 大模型时代的新视角 人脑是目前唯一已知的通用智能系统,包含约1000亿神经元和约1000万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部 结构,但功耗仅20W左 ...