Workflow
离散词元
icon
搜索文档
微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变
机器之心· 2025-11-07 14:02
文章核心观点 - 腾讯微信AI与清华大学联合提出连续自回归语言模型(CALM),通过将语言建模为连续向量而非离散词元,将生成步骤减少K倍,显著改善性能与计算成本之间的权衡 [3] - CALM框架通过高保真自编码器将K个词元压缩为连续向量并以超过99.9%的准确率重构,为构建超高效语言模型提供了新范式 [3] - 该方法在实验中展现出显著效率提升,例如371M参数的CALM-M模型性能与281M Transformer基线相当,但训练FLOPs减少44%,推理FLOPs减少34% [37][38] 当前LLM效率瓶颈分析 - 大型语言模型效率受限于逐个词元生成的顺序过程,导致高昂计算成本和响应延迟 [2][3] - 离散词元信息密度极低,以32K词表为例,每个词元仅承载15比特信息量,构成效率直接瓶颈 [10] - 离散表示本质为单步生成的信息吞吐量设置上限,若通过扩大词表提升语义承载能力,将导致词表规模指数级增长,计算上几乎不可行 [10] CALM技术框架与创新 - 核心思想是将语言建模基础任务从预测离散词元转向预测连续向量,基于高保真度自编码器实现离散与连续向量间的双向映射 [11][16] - 自编码器将K=4个词元压缩为128维向量,能承受标准差σ≈0.3的高斯噪声同时保持超过99.9%重建准确率 [16][21] - 采用基于能量分数的训练目标,该评分规则通过样本间距离评估生成分布质量,驱动多样性和准确性平衡 [25][26] - 引入BrierLM作为无似然场景下的评估指标,与交叉熵损失呈现高度线性相关(Pearson相关系数-0.966) [32] 实验效果与效率提升 - CALM建立更优的性能-计算前沿,CALM-M模型(371M参数)BrierLM指标为5.72,优于Transformer-S基线(281M参数,BrierLM 6.05)[38] - 语义带宽K作为全新scale维度,当K从1增加到4时,计算成本几乎成比例下降而性能仅有轻微回落 [39] - 能量分数方法在生成头对比中达到最高性能,且支持单步高质量生成,优于扩散模型和流匹配模型 [41][46] 未来研究方向与行业影响 - 关键研究方向包括设计更懂语义的自编码器、探索更强大的端到端架构与训练目标、研究轻量高效采样算法 [43] - 需要建立包含语义带宽K的全新缩放定律,为模型效率优化提供理论指导 [44] - 从离散到连续的范式转移要求重新改造现有算法生态,适配强化学习、知识蒸馏等技术至无似然框架 [45]