Workflow
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
机器之心·2025-05-21 12:00

核心观点 - 大语言模型(LLM)的生成范式正从传统的顺序生成转向异步并行生成,通过识别语义独立的内容块实现提速 [2][4] - MIT与谷歌团队提出PASTA框架,首次从策略学习角度探索异步生成,通过标记语言和双阶段训练实现质量与速度的Pareto优化 [5][6][14][20] - PASTA在AlpacaEval基准测试中实现1.21-1.93倍几何平均提速,质量变化范围为+2.2%至-7.1% [4][21] 异步生成技术 - 传统自回归解码按顺序生成内容,而异步生成通过并行处理独立内容块提升效率 [2][4] - PASTA-LANG标记语言包含三种核心标记:<promise/>声明异步任务、<async>包裹异步内容、<sync/>同步线程 [7][8][10] - 案例显示异步生成可将坐标提取与长度公式计算并行处理,最终组合结果 [12] 训练方法 - 双阶段训练流程:监督微调阶段用Gemini 1.5 Flash标注100K条SlimOrca数据,对Gemma 7B微调 [16] - 偏好优化阶段采样多种标注方案,基于理论加速比和Gemini 1.5 Pro评估质量构建拒绝采样数据集,采用BoNBoN算法优化 [16] 推理系统设计 - 采用交错式KV缓存布局,所有线程共享连续内存池,动态交错存储不同线程的token [18] - 通过注意力掩码控制确保子线程仅访问相关内容,位置编码调整使线程将交错内容视为逻辑连续序列 [19][25] 实验结果 - 在AlpacaEval 805项任务评估中,PASTA形成质量-速度Pareto前沿:最快模型接近2倍提速,最保守模型保持质量同时显著加速 [21][23] - 偏好优化过程显示性能持续提升,Pareto前沿向右上方推进,证明方法具备计算资源可扩展性 [23] 行业影响 - 突破自回归解码效率极限,为实时大模型应用提供加速方案 [25] - 标记语言设计简单且可扩展,开启学习驱动生成优化的新范式 [13][25]