超长文本生成 - 财报，业绩电话会，研报，新闻 - Reportify

超长文本生成

搜索文档

ICML 2025｜如何凭「自动补全」实现100K生成3×加速？

机器之心· 2025-05-18 12:25

大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题，制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型（如LLaMA、Qwen）采用自回归生成方式，每次仅生成1个Token，导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈：模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架，专为100K Token级任务设计，加速比达3倍以上[1][7] - 核心技术：多Token并行草拟（每次生成γ个候选）、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用，重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试，100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著：100K时加速比从2.1×提升至3.1×，接受率维持70-90%[23] - Distinct-n指标达0.43-0.69，较未优化前（0.12）显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型，无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文（ICML 2025）、GitHub代码库及技术博客[8]

大模型推理加速

超长文本生成

Artificial Intelligence

大模型推理加速

超长文本生成

Artificial Intelligence