Test-Time Scaling - 财报，业绩电话会，研报，新闻

Test-Time Scaling

搜索文档

复旦北大联合美团LongCat提出TDAR：用“粗思考，细求证”破解Block Diffusion的速度精度悖论

机器之心· 2026-03-12 17:30

行业背景与技术挑战 - 测试时扩展已成为提升模型推理能力的关键路径，块扩散语言模型因其独特的并行解码能力，被视为超越传统自回归模型推理效率的有力竞争者 [2] - 现有块扩散语言模型在长链推理中面临效率与效果的两难博弈：大块解码速度快但复杂推理易出错，小块解码准确但速度慢，同时固定置信度解码策略无法适应推理链中“难易交替”的动态特性 [2] 核心解决方案：TDAR框架 - 复旦大学NLP实验室、北京大学知识计算实验室与美团LongCat Team联合提出新框架TDAR，通过“粗思考，细求证”范式与有界自适应置信度解码，旨在打破速度与精度的零和博弈 [2] - 框架包含两大核心创新：有界自适应置信度解码算法，以及TCCF范式 [6] BACD解码算法详解 - BACD算法利用已生成token的平均置信度作为信号，动态调整当前去噪阈值，并设有上下限边界保护机制，上限在模型自信时激进加速，下限在模型不确定时强制保守，使模型能根据步骤难易调整速度 [9] - 与主流动态置信度解码相比，BACD在获得持续效率增益的同时，能维持更稳定的性能表现，有效避免了低阈值下的“模型崩溃”和“重复生成”问题 [19][20] TCCF范式详解 - TCCF范式根据推理阶段的功能分配不同计算粒度：在“粗思考”阶段使用大块进行快速探索性推理，在“细求证”阶段使用小块进行精细验证、纠错和总结 [11][15] - 该范式被证明具有普适性增益，在不同解码算法下引入TCCF都能带来一致且显著的性能提升，特别是在BACD算法中有效提升了不同阈值下的性能下限 [27] 实验性能结果 - 在Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench共6个主流推理基准上评估，TDAR-8B-Thinking在8B规模块扩散模型中取得最佳性能，平均性能超越前SOTA模型TraDo-8B达3.4个百分点，解码速度从1.27 TPF提升至2.97 TPF [13] - 结合BACD算法后，速度进一步提升至3.37 TPF且性能再涨1.6个百分点；叠加TCCF范式后，在AIME24复杂数学任务上准确率从36.3%提升至42.9%，同时维持3.04 TPF的高速度 [13][16] - 具体在AIME24基准上，TDAR-8B-Thinking的TPF达到4.47，平均性能为34.6 [14] 技术深度分析 - 块大小是影响模型性能与效率的关键变量，随着块增大，推理速度线性增长但生成质量会衰退，权衡分析确定B=16为8B模型的最佳平衡点，TDAR通过渐进式块大小扩展策略在此设置下兼顾速度与推理能力 [23] - BACD与动态置信度解码等方法在不同阈值下的效率-准确率对比显示，BACD在获得效率增益的同时能更好地维持性能 [24] 结论与行业影响 - TDAR的提出标志着块扩散语言模型在复杂推理任务上迈出重要一步，使大块大小不再是禁区，能够兼顾质量与速度 [31] - 该框架不仅为块扩散语言模型的测试时扩展提供了高效解决方案，也为未来并行推理模型的设计提供了新思路 [32] 研究团队与资源 - 研究团队成员来自美团LongCat后训练团队，包括复旦大学、北京大学的硕士生及美团的研究员 [33][34] - 相关论文、代码及模型已公开，论文发布于arXiv，代码开源在GitHub，模型发布于Hugging Face平台 [3]

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

AI前线· 2025-11-11 14:42

文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型，该模型被定位为“模型即Agent”，在多项关键基准测试中表现优异，甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计，通过KDA注意力机制、原生INT4量化等系统性工程优化，实现了在推理、编码、搜索和写作等任务上的能力跃迁，标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中，Kimi K2 Thinking得分44.9，高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中，Kimi K2 Thinking得分60.2，显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中，Kimi K2 Thinking达到99.1%，与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口，输入定价为每百万tokens 0.60美元，输出定价为每百万tokens 2.50美元，具备成本优势[12] - 模型可稳定完成200-300次连续工具调用，远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制，采用“增量更新+门控”方式，解决了MoE模型长上下文一致性差和KV缓存大的问题，相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练，模型在几乎不损失精度的前提下，推理速度提升约两倍，显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%，结合MoE架构，共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本，公司澄清并非官方数据，强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距，但解释这是为追求思维深度所做的权衡，并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈，表示已在减少语言啰嗦重复方面取得进展，并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%，展现出“智能体级”开发能力，能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中，模型具备“边搜索边推理”的能力，能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色，能将零散灵感组织成结构清晰的长篇文本，并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”，为开源阵营提供了对抗闭源巨头的底气[27]