Workflow
Deep Thinking Ratio
icon
搜索文档
不是所有token都平等,谷歌提出真·深度思考:思维链长≠深度推理
36氪· 2026-02-25 20:23
行业研究:大模型推理效率评估新范式 - 谷歌研究团队提出全新评估标准“深度思考比率”,用于衡量大语言模型的真实推理质量,该标准与推理准确率的相关系数高达0.82,显著优于传统以生成长度为指标的方法[6][8][9] - 研究发现,模型生成的token可分为“功能性词汇”和“深度思考词”,前者在模型浅层网络即被确定,后者在深层网络中预测分布持续变化,体现真正的思考过程[6][10] - 基于“深度思考比率”开发的Think@n策略,能在推理初期通过短前缀快速筛选高质量样本,将计算资源集中在深度思考上,从而大幅降低算力消耗[2][12] 技术突破:模型推理性能与成本优化 - Think@n策略在多个主流模型上测试,实现了准确率不降甚至略升的同时,将算力成本削减近一半,例如GPT-OSS-120B-medium在AIME 2025数据集上准确率从92.7%提升至94.7%,推理token消耗从355.6k降至181.9k[12] - 该策略在Qwen3-4B-Thinking等模型上也取得显著效果,在多个数据集上实现约50%的成本削减,例如在AIME 25数据集上,token消耗从1073.1k降至537.5k[13] - 研究颠覆了“思维链越长推理越好”的旧有认知,实验数据显示token长度与准确率的平均相关系数为-0.54,呈负相关,表明单纯增加推理步骤可能导致模型逻辑跑偏[3][5] 研究影响与团队背景 - 此项研究由谷歌团队主导,第一作者为弗吉尼亚大学计算机博士Wei-Lin Chen,共同一作为谷歌研究工程师Liqian Peng,指导作者为弗吉尼亚大学助理教授孟瑜[13][15][17] - 研究在AIME2024/2025、HMMT 2025、GPQA-Diamond四个推理数据集上,对GPT-OSS、DeepSeek-R1、Qwen3等8个模型变体进行了测试验证[3] - 该成果为大模型推理效率的评估和优化提供了新方向,强调“深度思考”而非“水字数”,有助于推动行业更高效地利用计算资源[19]