Workflow
Deep Think with Confidence (DeepConf)
icon
搜索文档
Z Tech|9月9日线上对话Meta FAIR研究科学家:利用Confidence动态过滤,告别低效推理
Z Potentials· 2025-09-06 12:40
DeepConf方法技术特点 - 通过利用大型语言模型内部置信度信号动态过滤低质量推理轨迹 实现推理效率和性能双重提升 [1] - 无需额外模型训练或超参数调优 可无缝集成现有服务框架 [8] - 分为离线和在线两种操作模式 在线模式相比全并行推理最多减少84.7%生成Token [8][10] 性能表现数据 - 离线模式下DeepConf@512在GPT-OSS-120B模型上实现99.9%准确率 远超传统多数投票的97.0% [10] - 在线模式下在保持准确率提升的同时显著降低计算开销 [10] - 在包括AIME2025在内的多个推理基准测试中均表现优异 [10] 相关技术研究背景 - 研究覆盖低秩梯度/权重结构、张量分解、Quantized GaLore等内存优化方法 [6] - GaLore利用梯度低秩结构显著节省内存和计算资源 相关成果发表于ICML 2024 [12] - Mini-Sequence Transformers针对长序列训练进行中间内存优化 成果发表于NeurIPS 2024 [12] 研究人员背景 - Jiawei Zhao是Meta FAIR研究科学家 拥有加州理工学院博士学位 专注于LLM和深度学习优化方法 [5] - Yichao Fu是加州大学圣地亚哥分校博士生 聚焦LLM推理优化与系统优化 [8] - 研究人员曾开发"Efficient LLM Scheduling by Learning to Rank"发表于NeurIPS 2024 [8]