「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息，实现流式处理，而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer，即使后者使用更多计算资源，表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优，类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块，本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下，计算量仍随token增加而增长，无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token，在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合，实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长，包括RWKV、xLSTM等变体，共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力，预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习，而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担，当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案，存在改进空间以更好利用FLOP资源[87][88]