Workflow
多Token熵解码(MED)
icon
搜索文档
扩散语言模型新发现:其计算潜力正在被浪费?
机器之心· 2025-10-30 16:52
掩码扩散语言模型的技术特点 - 掩码扩散语言模型通过随机遮蔽序列中的位置并学习填充这些位置进行训练,与自回归语言模型不同 [1] - 该模型支持任意顺序解码和多token并行解码,在数独等逻辑谜题上表现显著提升 [1] - 模型提供了对所有掩码位置条件分布的访问权限,具备填充能力 [6] MDLM在推理任务中的性能表现 - 在数学和编码任务中,任意顺序算法的性能往往不如或仅相似于从左到右采样 [1] - 标准的多token解码会显著降低性能,即使仅并行解码两个token也会导致主流基准任务性能显著下降 [1] - 并行解码2个token使GSM8K准确率从76.95%降至62.31%,MATH500从33.4%降至19.6%,HumanEval从16.46%降至4.87% [4] 推理即填充框架的创新应用 - 提出"推理即填充"框架,通过预构造包含推理位置与答案位置的显式推理模板 [6] - 该方法允许在输出序列中预填用户指定的token,显式区分推理token与答案token [17][18] - 通过衡量答案区块的熵值实现提前退出机制,在GSM8K上减少24%函数调用且准确率无下降 [8][20] 多Token熵解码的技术突破 - 提出自适应多token解码器MED,仅在附加位置条件熵低于设定阈值时进行并行解码 [10] - MED方法能实现2-3倍函数调用减少,显著降低推理计算量,同时保持性能几乎不变 [11] - 在HumanEval上实现2.2倍速度提升且准确率不变,在GSM8K上实现1.5倍速度提升且无性能损失 [26] 后训练能力的显著提升 - MDLM框架下对后验分布进行便捷采样的能力可生成高质量事后推理轨迹用于模型微调 [8] - 在GSM8K测试集上,使用后验数据微调的模型准确率从51.2%提升至66.1%,提升14.9个百分点 [32] - 测量答案块的对数概率有助于过滤低质量推理链,与最终答案正确性的相关性优于70亿参数预训练奖励模型 [36] 模型性能比较数据 - LLaDA模型在GSM8K上的基准准确率为76.95%,Dream模型为75.73% [4] - 使用MED方法后,LLaDA在GSM8K上准确率保持78.01%,函数调用从128.0次减少至84.8次 [30] - Dream模型在HumanEval上基准准确率为51.82%,使用MED后保持48.17%,函数调用从128.0次减少至60.4次 [30]