超长文本生成

搜索文档
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 12:25
大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题,制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型(如LLaMA、Qwen)采用自回归生成方式,每次仅生成1个Token,导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈:模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架,专为100K Token级任务设计,加速比达3倍以上[1][7] - 核心技术:多Token并行草拟(每次生成γ个候选)、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用,重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试,100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著:100K时加速比从2.1×提升至3.1×,接受率维持70-90%[23] - Distinct-n指标达0.43-0.69,较未优化前(0.12)显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型,无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文(ICML 2025)、GitHub代码库及技术博客[8]