Deep Thinking Ratio - 财报，业绩电话会，研报，新闻

Deep Thinking Ratio

搜索文档

36氪· 2026-02-25 20:23

行业研究：大模型推理效率评估新范式 - 谷歌研究团队提出全新评估标准“深度思考比率”，用于衡量大语言模型的真实推理质量，该标准与推理准确率的相关系数高达0.82，显著优于传统以生成长度为指标的方法[6][8][9] - 研究发现，模型生成的token可分为“功能性词汇”和“深度思考词”，前者在模型浅层网络即被确定，后者在深层网络中预测分布持续变化，体现真正的思考过程[6][10] - 基于“深度思考比率”开发的Think@n策略，能在推理初期通过短前缀快速筛选高质量样本，将计算资源集中在深度思考上，从而大幅降低算力消耗[2][12] 技术突破：模型推理性能与成本优化 - Think@n策略在多个主流模型上测试，实现了准确率不降甚至略升的同时，将算力成本削减近一半，例如GPT-OSS-120B-medium在AIME 2025数据集上准确率从92.7%提升至94.7%，推理token消耗从355.6k降至181.9k[12] - 该策略在Qwen3-4B-Thinking等模型上也取得显著效果，在多个数据集上实现约50%的成本削减，例如在AIME 25数据集上，token消耗从1073.1k降至537.5k[13] - 研究颠覆了“思维链越长推理越好”的旧有认知，实验数据显示token长度与准确率的平均相关系数为-0.54，呈负相关，表明单纯增加推理步骤可能导致模型逻辑跑偏[3][5] 研究影响与团队背景 - 此项研究由谷歌团队主导，第一作者为弗吉尼亚大学计算机博士Wei-Lin Chen，共同一作为谷歌研究工程师Liqian Peng，指导作者为弗吉尼亚大学助理教授孟瑜[13][15][17] - 研究在AIME2024/2025、HMMT 2025、GPQA-Diamond四个推理数据集上，对GPT-OSS、DeepSeek-R1、Qwen3等8个模型变体进行了测试验证[3] - 该成果为大模型推理效率的评估和优化提供了新方向，强调“深度思考”而非“水字数”，有助于推动行业更高效地利用计算资源[19]

Artificial Intelligence

Artificial Intelligence