Workflow
多token预测
icon
搜索文档
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
机器之心· 2025-07-24 12:08
语言模型技术突破 - 语言模型近年来的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性[2] - 自回归训练框架中每个token都作为前文上下文的预测目标 无需显式标注 具有明显训练优势[3][4] - 自回归推理阶段存在顺序执行瓶颈 计算开销大 与人类表达方式存在差异[5] 多token预测创新 - 苹果研究人员开发新框架 使自回归大模型能执行多token预测 实现5.35倍代码数学任务加速和2.5倍一般任务加速[7] - 该方法通过对现有模型进行LoRA微调实现 具有开创性意义[8] - 技术突破可能大幅降低AI运行成本 使轻量设备运行强大实时助手成为可能[9] 研究方法与架构 - 研究引入特殊mask token 扩展输入序列 通过NTP和MTP两种预测模式工作[29][30] - 采用门控LoRA模块 仅更新LoRA参数与采样器头参数 保持原始解码器权重冻结[34] - 采样器MLP头结合模型潜在表示与已生成token信息 确保连贯多token输出[22][32] 实验验证结果 - 在Tulu3-8B模型上验证 编程和数学任务加速效果最显著 分别达5.35倍和5.22倍[46][47] - 知识问答领域平均加速2.38倍 对话任务加速2.52倍 安全领域最高达3.72倍[47] - 门控LoRA能保持NTP token生成质量稳定 标准LoRA则导致质量下降[39][40] 技术影响与展望 - 多token预测技术处于完全自回归与完全扩散生成之间 兼具效率与质量潜力[53] - 未来可探索预训练阶段引入该方法 或结合扩散生成方法进一步优化[53] - 该框架为推理优化带来颠覆性变革可能 显著提升大模型实用性和普及度[9][10]