Workflow
推理效率
icon
搜索文档
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位· 2025-06-03 14:21
核心观点 - 大模型在推理任务中普遍存在过度思考现象,导致效率降低和错误累积 [1][2] - 研究团队提出Self-Braking Tuning(SBT)方法,通过内部机制让模型自主判断何时终止推理 [3][4][10] - SBT框架包含刹车信号机制、多任务微调等设计,无需外部干预即可实现高效推理 [5][6][7] - 该方法显著减少冗余推理步骤(如Llama-3.1-8B模型token生成量减少62.8%),同时保持94.1%准确率 [40][41] 技术原理 过度推理识别 - 构建基础方案与进化方案两阶段评估体系,量化推理冗余程度 [17][18] - 采用推理效率比(步骤优化率)和过度推理标记比(特定词汇频率)双指标交叉验证 [19][20][21] 数据构建策略 - SBT-E:统一截断策略,保留基础方案+1个进化方案并掩码冗余内容 [25][26] - SBT-D:动态调整策略,根据过度推理分数阈值逐步掩码超长推理 [28][29] 制动机制设计 - 掩码训练:冗余部分不计入损失函数,引导模型聚焦关键步骤 [33][34][35] - 自然语言提示:通过语义信号(如"Wait")辅助模型主动停止推理 [36][37] 实验效果 - 在AIME、AMC等数学推理测试中实现"少思考不失准确"的效果 [38][39] - 方法具有跨模型架构通用性,验证了冗余推理可剔除的理论假设 [41][42] 资源链接 - 论文与项目主页提供技术细节和开源代码 [42][43]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 12:22
核心观点 - 提出两种专为推理优化的注意力机制GTA和GLA,在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%;GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][11] - 通过优化注意力机制的内存使用和计算逻辑,提升大语言模型的推理效率和硬件资源利用率,尤其在长上下文场景中优势突出[5][8] 技术贡献 GTA(分组绑定注意力机制) - 将不同查询头的键和值状态进行组合与重用,减少内存传输次数[15] - 多头注意力的头分为若干组,每组内的头共享相同的Key和Value参数,仅查询参数独立[15] - 相比GQA,通过参数绑定实现更彻底的KV重复利用,KV缓存减少约50%[16][28] GLA(分组潜在注意力机制) - 通过共享联合潜在表示减少每个设备需要加载的KV缓存量,减少内存访问量[19] - 增加每字节内存加载的计算量,减少对内存带宽的依赖,保持并行可扩展性[18] - 解码速度比FlashMLA快2倍,随着序列长度从1K增加到64K,优势更明显[30] 实验验证 模型性能 - 在四种规模模型(183M/433M/876M/1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA相当[22][23] - 下游任务(Winogrande/SciQ等7个基准)整体表现差距不大,但GTA和GLA可保持或提高从中型到XL尺寸的性能[24][25] 效率指标 - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[28] - GLA在64个并发请求的输出吞吐量上均优于MLA,处理长上下文时吞吐量更高[31][34] - MLA计算瓶颈达610 TFLOPS/s,GLA尚未饱和(360 TFLOPS/s),资源利用率更高[29] 行业影响 - 研究团队来自普林斯顿大学,核心作者Tri Dao曾提出Mamba架构和FlashAttention系列工作,在优化Transformer领域具有权威性[46][48][49] - 成果已应用于DeepSeek Coder V2 Base(236B)模型,验证了GLA在处理长上下文时的吞吐量优势[34] - 该研究是迈向推理"理想"架构的第一步,未来可能进一步推动大模型推理效率的提升[50]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
机器之心· 2025-05-06 16:04
机器之心报道 编辑:+0、刘欣 在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效 率,并采用对企业友好的开放许可方式。 该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。 这一系列模型可不简单,不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在 Hugging Face 上公开,遵循 NVIDIA Open Model License 和 Llama 社区许可,可商业使用。 Llama-Nemotron 系列模型是首批支持动态推理切换的开源模型,用户在推理时可在标准聊天模式和推理模式之间自由切换,极大地提升了交互的灵活性。 研究主要是利用推理类和非推理类这两类基准测试对 Llama-Nemotron 系列模型进行 ...