推翻「预测下一个token」范式！微信AI新研究：把token压缩成连续向量更具性价比

研究背景与核心创新 - 微信AI与清华大学联合提出名为CALM的新范式，旨在解决大模型逐token生成效率低下的问题[1][3] - 核心创新点在于将模型从预测下一个token转变为预测下一个连续向量，通过提升每个预测单元的语义带宽来缩短序列长度[1][10][11] - 该方法本质是持续提升每个预测单元的语义带宽，将K个词元压缩成一个连续向量，使生成步骤减少至原来的1/K[4][10][11] 技术原理与框架设计 - 研究团队设计高保真自编码器，能将K个token压缩为连续向量，并以超过99.9%的准确率重构原始token[14][15] - CALM采用无似然语言建模框架，使用能量损失训练模型，通过距离和多样性约束判断向量质量，避免依赖概率计算[19][22][25] - 引入Energy Transformer专为连续向量高效单步生成设计，无需迭代，仅需1步计算即可输出连续向量[24][25] 评估方法与实验效果 - 提出BrierLM新型评估指标替代困惑度，实验证明BrierLM值与困惑度高度相关，能保证模型能力公平比较[27][28][30] - CALM-M模型在参数量371M时，性能与281M参数的Transformer-S相当，但训练FLOPs减少44%，推理FLOPs减少34%[33] - 模型规模越大CALM优势越明显，CALM-XL在1.82B参数时保持高效，且随着语义带宽K增加，性能-效率比更优[34] 性能优势与应用潜力 - 该方法在平衡性能和计算成本时实现更高性价比，被网友认为接近大脑处理上下文的方式[7][33] - 通过将序列长度从T缩短至T/K显著提升模型效率，但压缩token数K过多可能导致性能下降，需搭配更大模型[14][36]