Workflow
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
机器之心·2025-07-12 12:50

技术突破 - 研究提出分层网络H-Net,通过动态分块机制取代传统tokenization,实现端到端序列建模[3][13] - H-Net采用分层架构:精细处理→压缩抽象→还原输出,主网络可适配Transformer或状态空间模型(SSM)[14][16][17] - 动态分块(DC)机制包含路由模块和平滑模块,通过相似度评分预测边界并优化学习能力[18][19] 性能表现 - 单层字节级H-Net在同等计算资源下已超越BPE token的Transformer模型,多级分层可媲美两倍规模的token模型[8] - 在中文/代码/DNA序列等复杂模态中,H-Net数据效率较基线提升近4倍,中文准确率从0.599提升至0.663[10][36][39] - H-Net(2-stage)在HellaSwag测试中鲁棒性得分达42.8,显著高于BPE Transformer的22.2[33][34] 模型对比 - 各向同性模型(MambaByte/LlamaByte)性能远逊于分层模型,MambaByte优于LlamaByte[28] - SpaceByte++验证外部网络使用Mamba的有效性,但性能仍低于H-Net(space)[29] - H-Net(space)在10亿参数规模下达到与BPE Transformer相当的困惑度,动态分块分辨率达4.5-5字节/块[22][23] 架构创新 - 引入投影层/归一化层优化信号传播,根据层维度和批次大小调整参数提升稳定性[20] - 动态分块模块自动学习有意义的边界,无需外部监督或启发式规则[18][23] - 训练数据显示H-Net仅需3.6倍数据量即可达到各向同性模型同等性能[39]