推翻「预测下一个token」范式!微信AI新研究:把token压缩成连续向量更具性价比
量子位·2025-11-06 12:04

研究背景与核心创新 - 微信AI与清华大学联合提出名为CALM的新范式,旨在解决大模型逐token生成效率低下的问题[1][3] - 核心创新点在于将模型从预测下一个token转变为预测下一个连续向量,通过提升每个预测单元的语义带宽来缩短序列长度[1][10][11] - 该方法本质是持续提升每个预测单元的语义带宽,将K个词元压缩成一个连续向量,使生成步骤减少至原来的1/K[4][10][11] 技术原理与框架设计 - 研究团队设计高保真自编码器,能将K个token压缩为连续向量,并以超过99.9%的准确率重构原始token[14][15] - CALM采用无似然语言建模框架,使用能量损失训练模型,通过距离和多样性约束判断向量质量,避免依赖概率计算[19][22][25] - 引入Energy Transformer专为连续向量高效单步生成设计,无需迭代,仅需1步计算即可输出连续向量[24][25] 评估方法与实验效果 - 提出BrierLM新型评估指标替代困惑度,实验证明BrierLM值与困惑度高度相关,能保证模型能力公平比较[27][28][30] - CALM-M模型在参数量371M时,性能与281M参数的Transformer-S相当,但训练FLOPs减少44%,推理FLOPs减少34%[33] - 模型规模越大CALM优势越明显,CALM-XL在1.82B参数时保持高效,且随着语义带宽K增加,性能-效率比更优[34] 性能优势与应用潜力 - 该方法在平衡性能和计算成本时实现更高性价比,被网友认为接近大脑处理上下文的方式[7][33] - 通过将序列长度从T缩短至T/K显著提升模型效率,但压缩token数K过多可能导致性能下降,需搭配更大模型[14][36]

推翻「预测下一个token」范式!微信AI新研究:把token压缩成连续向量更具性价比 - Reportify