大模型推理优化 - 财报，业绩电话会，研报，新闻

大模型推理优化

搜索文档

2026-03-30 13:15

关键要点总结一、涉及的公司与行业 * **公司**：Google（技术发布方）[1] * **行业**：AI大模型、存储/内存（特别是HBM、DRAM）、AI推理基础设施、向量数据库、RAG/Agent应用开发[1][4][7] 二、技术核心：TurboQuant (亦称 TokenQuant/TurboCache) * **定位与目标**：一项旨在提升大模型推理经济性和可部署性的**推理基础设施压缩技术**，核心是解决高维向量（如KV Cache和embedding）的低比特量化压缩问题，同时保持其几何结构保真度[2] * **核心创新**：并非单一技术突破，而是谷歌现有技术栈（QGR、PolarQuant）的演进与结合，采用**两阶段框架**（最优标量量化 + QGR内积修正）[3] * **关键特性**：成功兼顾了**在线处理、无需训练/校准、硬件友好（GPU/TPU）及理论最优**这四大特性，打破了量化领域的“不可能三角”[2][3][16] * **性能表现**： * **KV Cache压缩**：在3.5比特下实现接近无损，2.5比特下仅轻微退化，性能**全面领先SnapKV 15%以上**[1][6] * **向量检索**：效率较传统PQ/OPQ技术提升数万倍，例如处理1,536维向量时，耗时仅**1.3毫秒**，而PQ需**239秒**[1][6] 三、对AI推理与应用的影响 * **降低推理成本**：显著降低KV Cache的显存占用，使处理**长上下文（1M-4M窗口）的成本**降至与当前处理128K上下文相当，推动长上下文普及化[1][7] * **提升应用能力**： * **RAG/Agent系统**：受益于其保几何结构和无偏估计内积的特性，可支持构建和使用**百万甚至千万级别知识库**，提升B端应用吞吐量与效果[1][7][8] * **开源模型生态**：大幅降低KV Cache对显存的消耗，显著**降低开源模型的部署门槛**（例如，过去需8张H200运行的长上下文模型，未来可能用8张H100实现相近能力）[1][8] * **优化计算效率**：压缩过程**不会带来额外计算开销**，反而能通过更快的估计算法、减少内存带宽需求及无需解压缩等优势，加速Attention计算本身[17][18] 四、对存储/内存市场的影响 * **总体影响中性偏利好**：技术虽降低单任务显存占用，但通过提升效率、驱动总调用量与模型能力边界扩张，**不会削减AI基础设施的总体需求**，反而可能间接促进整体市场规模扩大[1][4][12] * **HBM需求依然稳固**：HBM等高带宽内存的**根本需求未变**，市场对其需求依然旺盛[1][4][20] * **结构性影响**：技术改变了推理侧对存储需求的形态结构，更强调**HBM、DRAM、SSD及网络化KV Cache的协同**，而非单纯依赖某一种存储[19] * **存储价格展望**：未来2-3个季度，**HBM价格将维持高位或上涨**，服务器DRAM价格高位但上涨斜率放缓，消费级NAND产品价格可能偏弱[15] 五、技术落地与竞争格局 * **落地时间表**： * 预计**1个季度内**进入实验性集成[1] * **半年至8个月**随大模型版本迭代实现规模化应用，成为推理优化组合拳的核心组件[1][19] * **商业化现状**：目前除Google自用外，**尚无独立客户大规模采购案例**，仅有vLLM等推理框架进行实验性集成[13] * **竞争格局**： * 市场存在多种KV Cache优化技术路径，包括**量化压缩（英伟达FP8、vLLM INT4/INT8）、分层卸载（Deepseek）、分页管理（vLLM PagedAttention）**等[14][20] * TurboQuant的**独特性**在于成功将实时性、无需再训练和理论最优三者结合，并能同时覆盖推理和向量检索两大场景，性能领先同类技术（如KVQuant、KiVi）**10%至15%**[14] 六、其他重要细节 * **技术原理**：通过随机旋转统一分布、最优标量量化及QGR纠偏等技术，在最坏输入情况下用最少比特保持高维向量几何关系[5] * **压缩效果量化**：以131K上下文为例，量化至2.5-3.5比特时KV Cache占用仅**190MB**，而全精度（BF16）模式消耗约**40-60GB**，降幅显著[11] * **超长上下文影响**：对于万亿参数模型，上下文从200K扩展至1M时，全精度KV Cache占用可从**90-100GB**激增至**约500GB**，而该技术能有效控制此成本[11] * **工程实现挑战**：技术原理公开，但达到Google展示的工程化水平仍有难度，且需与现有推理优化方案（如压缩、分层、调度）融合，形成组合拳[18][20]

【投融资动态】趋境科技Pre-A轮融资，投资方为国际国方、哈勃投资等

搜狐财经· 2026-02-08 19:21

公司融资与背景 - 北京趋境科技有限责任公司完成了Pre-A轮融资，具体融资额未披露[1] - 参与本轮投资的机构包括国际国方、哈勃投资、华控技术转移和尚势资本[1] - 公司成立于2023年底，创始团队均来自清华大学[1] 公司业务与技术 - 公司专注于大模型推理优化方向[1] - 公司致力于降低大模型的使用成本[1] - 公司目标是让勇于创新的团队能平等获得顶尖的AI生产力[1] - 创始团队在AI、体系结构、系统软件等相关技术系统和软件领域拥有多年学术与产业实践经验[1]

无需训练、只优化解码策略，DTS框架让大模型推理准确率提升6%，推理长度缩短23%

机器之心· 2025-11-21 10:04

文章核心观点 - 提出一种名为DTS（Decoding Tree Sketching）的新型即插即用模型推理框架，旨在解决大型推理模型存在的“越长越错”和“无尽重复”问题 [2] - 该方法通过高不确定度分支推理和最先完成路径早停两大策略，以近似找到最短且正确的推理路径，无需额外训练即可提升模型性能 [2][8] - 在AIME2024/2025基准测试中，DTS显著提升了模型准确率，同时降低了平均推理长度和无尽重复率 [4][9] 技术背景与问题 - 背景是推理大模型存在的“过度思考”问题：CoT/多步推理虽提升能力，但易导致推理链越长越偏离正确答案或陷入自我重复，正确率反而下降 [7][8] - 现有解决方案多依赖成本高昂的额外训练或激进的剪枝策略，落地成本高或稳定性不佳 [8] DTS方法原理 - 核心洞见基于实证：推理链长度与正确率呈显著负相关，多次解码中最短的推理链往往最正确 [9][11] - 将推理过程视为解码树，目标是在稀疏化的树上搜索从根节点到最浅层叶子节点的路径，避免指数级复杂度 [12][13] - 关键技术一：高熵处产生分支，仅在模型不确定时（下一个token分布的熵H(v) ≥ τ）取Top-K候选并行解码，确定时则单分支前进 [16][18] - 关键技术二：最先完成即早停，任何分支一旦生成终止符（<e>）立即返回，将“短即优”的统计规律写入停止准则 [17][18] 实验结果 - 在AIME2024/2025上，DTS使DeepSeek-R1-Distill-Qwen-7B/1.5B模型的准确率平均提升6%，平均推理长度下降约23%，无尽重复率平均减少10% [4] - 具体到AIME24，选择最短推理链的准确率达76.67%，而选择最长链的准确率仅为10.00%，总体平均准确率为51.03% [13] - 有效抑制模型“无尽复读”，将陷入循环的比例平均降低5%至20% [9][21] 核心贡献与影响 - 提出全新推理优化范式，将推理质量问题转化为解码搜索问题，无需训练，即插即用 [26][30] - 揭示了推理链长度与准确率的可量化统计规律，为未来推理模型优化指明方向 [27][30] - 展示了一种轻量化的推理优化路线，未来有望与多步推理、不确定性估计等方向结合，为高效可靠推理开辟新路径 [27]

大模型推理优化

稀疏化解码树

DTS（Decoding Tree Sketching）

大模型推理优化

稀疏化解码树

DTS（Decoding Tree Sketching）

英伟达帮你省钱，让大模型推理「短而精」，速度快5倍

机器之心· 2025-11-04 12:22

文章核心观点 - 英伟达研究院提出的DLER强化学习训练方法能够显著优化大模型推理过程，在保持准确率的同时大幅减少推理长度和提升效率，代表了推理模型未来的重要发展方向[4][7][14] 大模型推理面临的挑战 - 当前OpenAI o系列、DeepSeek-R1、Qwen等推理模型通过长链思维提升准确性，但导致推理链过长、Token消耗爆炸、响应速度骤降[2] - 长链思维带来的冗长问题是实现AGI路径上亟待解决的瓶颈[3] DLER方法的技术突破 - DLER方法的关键在于采用正确的强化学习优化方法，而非设计复杂的长度惩罚机制[4] - 该方法解决了引入长度惩罚后出现的奖励信号方差增大、熵塌缩、训练信号过度稀疏等强化学习训练问题[7][8] - 通过优势归一化、高熵探索、动态采样和截断惩罚等具体技术手段稳定训练信号并提升效率[8] DLER方法的性能表现 - 新模型产生的推理长度减少70%以上，同时准确率完全保持[7] - 在AIME-24数学基准上，DLER-Qwen-R1-7B模型平均仅用3230个Tokens就达到55.6%的准确率[7] - 在同等推理时间内，DLER模型能并行生成几十条简明推理，最终准确率比DeepSeek-R1高出近50%[10] 行业影响与未来方向 - 研究揭示推理效率提升不取决于惩罚设计的复杂度，而取决于优化算法的选择，颠覆了此前认为强化学习长度惩罚必然降低准确率的观点[15] - DLER方法不仅适用于小模型，在大模型上通过权重选择性合并技术同样有效，能恢复全部准确率并保持近一半的长度压缩[12] - 该方法让模型实现更聪明、更高效的思考方式，以更少Tokens和更短时间达到更高准确率，将成为推理模型实际部署的关键技术之一[14]