Workflow
Token预算感知
icon
搜索文档
ACL 2025 | 基于Token预算感知的大模型高效推理技术
机器之心· 2025-06-05 10:00
大型语言模型推理优化技术 - 研究团队提出TALE框架,通过引入Token预算约束机制,在保证推理准确率的同时显著压缩输出长度并降低计算开销 [1][2] - 当前主流模型如GPT-4o、Yi系列存在中间推理过程冗长问题,导致Token数量成倍增长并增加计算经济成本 [6] - 资源受限场景(教育/金融/代码理解)中需平衡准确率与资源效率,Token弹性现象显示简单压缩预算会导致成本反弹 [6][7] TALE技术实现路径 - TALE-EP采用零样本提示工程,模型自我估计合理Token预算并动态控制生成,平均节省60%推理开销且保持准确率 [12] - TALE-PT通过监督微调或偏好优化内化预算感知能力,降低40%以上Token使用量并优于传统思维链推理 [15] - 实验数据显示GSM8K数据集上TALE-PT-SFT准确率达78.57%同时输出Token降至139.63,较原始CoT的241.51显著优化 [13][16] 行业应用与影响 - Qwen3和Claude 3.7等最新大模型已引入类似预算控制机制优化推理效率 [17] - 该方法在数学推理数据集表现优异,GSM8K-Zero场景下TALE-PT-DPO保持78.41%准确率且Token用量压缩至113.41 [16] - 技术框架可拓展至多模态场景,推动大模型在边缘端部署的实用化落地 [17][19]