大语言模型推理
搜索文档
ICLR 2026 | 别再让大模型“想太多”了!最新研究揭示 LLM 推理效率的关键瓶颈
机器之心· 2026-03-10 18:35
文章核心观点 - 大语言模型在推理部署中存在“过度思考”与“思考不足”并存的问题,其根源在于“推理失衡”,即计算资源的分配与问题各阶段的实际难度不匹配 [2][7] - 研究提出了一种名为BAM的理论模型,主张基于“认知不确定性”来动态分配推理算力,将资源集中在关键步骤,而非均匀或盲目地延长整个推理过程 [9][14][17] - 基于BAM理论,研究团队开发了无需训练、仅在推理阶段运行的“Plan-and-Budget”框架,该框架通过先规划再分配的策略,在多种任务和模型上实现了同时提升准确率与计算效率的目标 [19][38][41] 核心洞察:推理失衡 - 系统分析发现,主流推理模型普遍存在“推理失衡”现象,模型常在非关键步骤上反复思考,却在决定成败的关键步骤上一带而过 [7] - 这种失衡与模型推理过程中“不确定性的动态变化”密切相关,推理效率的关键不在于总token数,而在于token被用在了哪一步 [8] 理论突破:BAM模型 - BAM模型的核心思想是用“认知不确定性”来指导算力分配,该不确定性刻画了“在某一步,多想一点是否真的能让模型理解得更清楚” [14] - 理论模型借鉴神经网络缩放定律,描述了token数量与不确定性降低之间的关系,表明存在明显的边际收益递减,前几个token价值高,后面的token收益递减 [14][15] - 在总推理预算有限的前提下,BAM推导出的最优分配原则是:将更多预算分配给那些初始不确定性高、但能通过思考有效消除的步骤 [16] 落地框架:Plan-and-Budget - Plan-and-Budget框架包含两个步骤:先规划,将复杂问题拆解为结构化子问题以明确思考方向;再分配,采用前置衰减等策略为不同子问题分配token [20][21][23] - 该框架无需任何训练或微调,其分配策略在实践中近似实现了BAM的最优分配原则,旨在把算力用在最关键的地方 [19][28] 实验结果 - 在TravelPlanner任务中,Plan-and-Budget在简单、中等、困难三种难度问题上都取得了最高的通过率,而全局限制token的方法在所有难度上都降低了通过率,尤其在中等和困难问题上性能下降明显 [30][32][33] - Plan-and-Budget的提升并非靠多用算力换来,其在通过率更高的同时,平均token使用量反而更低 [35][44] - 为综合衡量准确与高效,论文提出了E³指标,该指标奖励用更少token得到更好答案的方法,Plan-and-Budget在该指标下表现突出 [36][37] - 综合多种推理任务和模型规模,Plan-and-Budget带来了稳定的收益,例如最高实现+70%的准确率提升,最高-39%的token使用量减少,E³指标最高提升193.8% [38][45] 意义与展望 - 这项研究传递了一个关键信号:推理效果的关键不在于算力多少,而在于算力是否被合理使用 [41] - 研究提出了一种新的推理范式:从追求“推理长度”转向追求“推理价值”,从“算得更多”转向“算得更聪明” [42] - “按需推理”的思想有望成为未来高效、可控智能系统的重要基础,特别是在对成本、时延和稳定性要求严格的真实部署场景中 [42]
DeepSeek发布下一代技术,北大实习生立功
36氪· 2026-02-27 17:09
文章核心观点 - DeepSeek发布名为DualPath的全新推理系统方案,旨在解决大语言模型在智能体应用场景下因多轮、短追加交互导致的KV缓存存储I/O瓶颈 [1] - 该方案通过引入从存储直通解码引擎的双路径加载机制,聚合所有存储网卡带宽,重新分配网络负载,基本消除了KV缓存的I/O开销 [1][5] - 在真实测试中,该系统将离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,并在1152张GPU上验证了近线性扩展能力 [1][17] 技术背景与问题 - **智能体I/O瓶颈凸显**:随着智能体应用普及,多轮推理导致上下文跨轮累积到极长长度,由于KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素 [3] - **传统设计成本高昂**:现有系统采用预填充-解码分离和外部KV缓存存储架构,但预填充引擎存储网卡带宽持续饱和,解码引擎带宽大量闲置,这种不平衡暴露了根本性低效,单纯增加预填充端带宽成本高昂 [3] DualPath解决方案架构 - **核心洞察**:打破“KV缓存加载必须以预填充为中心”的传统设计,增加存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎 [5] - **三大核心组件**: - **推理引擎**:作为基础执行单元,每个引擎管理一个GPU,明确区分为预填充引擎和解码引擎 [6] - **流量管理器**:内嵌于每个引擎,统筹所有数据移动,采用以计算网卡为中心的流量管理策略,确保KV缓存流量不干扰延迟敏感的模型集体通信 [6] - **请求调度器**:作为中央决策单元,接收客户端请求并智能分发,动态决策每条请求采用传统路径还是新型路径,实现双路径间的流量均衡与全局负载优化 [7] 实现细节与挑战应对 - **具体实现**:在每个引擎预留DRAM作为缓冲区,数据传输采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠 [9] - **系统无新增瓶颈验证**:通过建立流量模型进行系统性分析,在典型配置及可行的预填充/解码节点比例区间内,计算网卡、PCIe以及DRAM均不会成为瓶颈 [9][10] - **落地面临的三大挑战及对策**: - **细粒度数据传输**:通过分层流式执行解决 [11] - **流量隔离**:采用以计算网卡为中心的流量管理机制,利用硬件QoS能力进行优先级隔离,例如在InfiniBand中将模型推理通信映射到高优先级虚拟通道,KV传输映射到低优先级通道 [11][12] - **动态负载均衡**:采用两级自适应调度机制,在引擎间和引擎内实现负载均衡,避免资源过载 [12] 性能评估结果 - **吞吐量显著提升**:在DeepSeek V3.2 660B模型上,DualPath相较于内部基线推理框架最高实现1.87倍加速,性能接近假设零I/O开销的理论上限 [13] - **在线服务表现优异**:在智能体请求到达速率上显著优于基线,在DS27B和DS660B模型上分别达到1.67倍和2.25倍提升 [15] - **负载均衡改善**:调度算法将存储网卡负载均衡指标从1.53优化至1.18,并将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡 [17] - **大规模可扩展性验证**:离线推理从2P4D扩展到48P96D实现近线性扩展,任务完成时间基本保持一致;在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍 [1][17][18] 行业影响与未来方向 - **行业影响**:该方案为业界处理大规模智能体推理任务提供了新的思路,是解决KV缓存I/O压力的一个值得关注的方向 [19] - **未来方向**:研究团队指出,下一步需要研究更自适应和更灵活的并行度和预填充/解码比例配置方法,例如模拟器或在线调整机制 [19]
下一个HBM:HBF,能行吗?
半导体行业观察· 2026-02-20 11:46
文章核心观点 - HBF技术旨在通过堆叠NAND闪存来提供HBM级别的带宽和16倍的容量,以解决AI内存瓶颈,但其商业化面临显著的技术与经济挑战,实际应用场景可能非常有限[2][3] - SK海力士提出的H³混合架构虽然仿真结果优异,但其性能依赖于“只读工作负载”等理想化假设,且无法从根本上克服NAND闪存的物理延迟限制[3][10][13] - 尽管HBF面临障碍,但其开发反映了存储器行业从商品化业务向提供高价值平台解决方案的战略转型[28][29] HBF技术提出的背景与目标 - AI工作负载的瓶颈已从计算性能转向内存容量和带宽,HBM3带宽达819GB/s但单GPU容量有限(如B200为192GB),无法满足大型模型(如Llama 3.1 405B的405GB权重)及大规模键值缓存(KV Cache,如100万token需540GB,1000万token需5.4TB)的需求[5][6] - HBF的目标是将NAND闪存与类似HBM的TSV技术堆叠,在相同带宽(8TB/s)下提供HBM 16倍的容量(约3TB),同时利用成本约为HBM五分之一的NAND来提升经济效益[6] H³混合架构的构成与核心假设 - H³架构采用混合设计,HBM直接连接GPU,HBF通过HBM基片以菊花链方式连接,两者共享统一地址空间,GPU将其均视为主内存[8] - 架构包含一个40MB的SRAM延迟隐藏缓冲区(LHB)来缓解NAND闪存的访问延迟,设计将只读数据(模型权重、预计算KV缓存)存储在HBF中,动态生成的KV缓存则保存在HBM中[8] - 性能基于几个关键假设:LLM推理数据大部分是只读的;访问模式是确定性和顺序性的;40MB SRAM缓冲区能达到高命中率(隐含要求80%以上);HBF的访问延迟可以被隐藏;系统总成本仍具经济性[9][10] - 仿真结果显示,在100万token场景下吞吐量提升1.25倍,在1000万token场景下吞吐量提升6.14倍,单位功耗吞吐量最高可达纯HBM系统的2.69倍[10] HBF与H³架构面临的技术挑战与局限性 - **只读工作负载假设的局限性**:实际生产环境中,模型权重可能因微调(如LoRA)、版本控制、量化切换而频繁更新;预计算KV缓存仅适用于缓存增强生成(CAG)等特定场景,通用对话服务需为每个请求生成新缓存,且缓存管理涉及写入操作,与HBF只读特性冲突[11] - **NAND闪存的物理极限**:NAND单元(25-100微秒)与DRAM单元(10-20纳秒)存在1-2个数量级的延迟差距,40MB SRAM缓冲区无法根本解决此问题,一旦缓存未命中,延迟差距将完全暴露[13] - **系统复杂性与成本挑战**:HBF系统除NAND芯片外,还需集成昂贵的40MB SRAM缓存、用于FTL的DRAM、复杂控制器及异质TSV堆叠,这大幅增加了工艺复杂性、良率风险、封装测试难度及总成本,削弱了“廉价NAND”的初始承诺[15][16] - **开发与生态障碍**:HBF作为全新架构,需要大量研发投入进行标准化、软件生态构建和客户验证,早期生产良率可能较低,且需对PyTorch、TensorFlow等AI框架进行软件层优化以高效利用SRAM缓冲区[17] 替代技术解决方案与市场动态 - **HBM4演进**:预计2026年量产,带宽将提升至每立方体1.5TB/s,容量达每块32-48GB,单GPU容量有望达到384GB,从而缩小HBF的容量优势,且其延迟、可靠性和生态系统已得到验证[23] - **CXL内存**:基于PCIe标准支持内存池化,可实现TB级容量扩展,CXL 3.0带宽达256GB/s(x16通道),英特尔、AMD、英伟达均支持,已成为行业标准解决方案[24] - **软件优化**:FlashAttention-3、分组查询注意力(GQA)、量化技术(如FP8、INT4)以及vLLM、TensorRT-LLM等推理引擎能有效降低内存带宽需求和占用,可能缓解对硬件扩容的迫切性[25] - **行业战略分化**:三星专注于HBM4和HBM-PIM;美光扩大HBM3e和CXL产品线;英伟达采用基于HBM3e和NVLink的扩展策略;AMD和英特尔专注于CXL生态系统,表明业界正通过不同技术路径解决内存扩展问题[26] HBF技术的战略意义与行业影响 - HBF代表了存储器行业从标准化商品供应商向提供系统级平台解决方案的战略转型,使公司能在架构层面与客户协作,扩展软件栈影响力,并通过技术差异化和知识产权积累提高门槛[28] - 即使HBF未能在主流市场取代HBM,其开发过程积累的异构堆叠技术、NAND作为存储器的专业知识以及与加速器供应商的系统级协作经验,对公司的长期平台战略至关重要[29] - SK海力士与闪迪的合作是探索存储技术融合和平台化的战略举措,超越了单一产品的成功模式[29] 对HBF未来前景的评估 - HBF很可能不会成为HBM的通用替代品,而是针对高度专业化工作负载(如CAG)或对功耗容量平衡有极高要求的边缘AI设备等利基市场的补充解决方案[31] - 技术始于美好愿景,但需克服物理限制、复杂性爆炸、脆弱假设、可靠性问题及市场接受度等多重现实壁垒才能走向市场[30]
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex
量子位· 2026-01-06 12:20
核心事件 - OpenAI研究副总裁Jerry Tworek于2026年1月6日宣布离职,他在公司任职近七年,是构建o1、GPT-4、ChatGPT及首个AI编程模型Codex的关键人物 [1][21][24] - 离职原因是为了探索一些在OpenAI难以开展的研究领域,并未公布具体去向 [1][24][28] 人物背景与职业经历 - Jerry Tworek拥有华沙大学数学专业硕士学位,具备强理论与数理功底 [9] - 职业生涯早期在阿姆斯特丹从事了五年量化研究,专注于期货市场的量化交易策略,并由此开始研究强化学习 [11][12] - 于2019年加入OpenAI担任研究科学家,当时公司规模尚小,以非营利研究实验室为主 [12] - 早期参与了机器人项目“用机器人手解决魔方”,并在NeurIPS 2019深度强化学习研讨会展示 [13] - 是最早一批参与“大规模预训练+算力扩展”路线的研究者之一,并在GPT-3发布后开始研究评估和训练GPT-3以解决推理和逻辑问题 [14] 在OpenAI的主要贡献与角色演变 - 2019至2022年间,专注于神经程序综合与大模型推理研究,涉及Codex、Copilot等代码大模型,并利用强化学习提升复杂任务的推理与决策能力 [16] - 在DeepMind发布Chinchilla模型之前,就已发现了后来被称为“Chinchilla Scaling Law”的现象 [26] - 是GPT-4的首席研究员,并领导了第一个推理模型o1的研究开发 [18] - 对外被介绍为GPT-5推理机制和长思考能力的核心负责人,并在多个访谈中系统讲解相关技术 [18][19] - 2022年起担任Research Lead,负责团队研究如何让大语言模型使用工具、解决STEM领域困难问题,包括插件和Code Interpreter等 [16] - 2025年升任OpenAI研究副总裁 [20] - 自称组建并壮大了“世界上最强的机器学习团队” [28] 技术理念与影响 - 长期强调对“推理”而不仅仅是“模式匹配式生成”的重视,倾向于将大模型视为可以通过训练“学会思考过程”的系统 [14] - 其工作推动了大语言模型编程革命,并建立了一个新的缩放训练和推理计算范式,即现在通常所称的“推理模型” [25][26] 离职反响与公司文化观察 - 其离职推文获得了大量OpenAI在职人员的积极回应与祝福 [4][6] - 有观察指出,OpenAI员工离职时发表“小作文”可能是一种企业文化或不成文规定 [33][34]
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
36氪· 2025-10-31 16:28
研究核心观点 - 香港科技大学联合阶跃及快手等团队提出名为ROVER的新方法,通过评估完全随机策略的价值来寻找最优推理路径,颠覆了传统强化学习依赖策略迭代的范式[1] - ROVER方法以极简主义思路实现高质量与高多样性兼备的推理生成,在多项数学推理基准上显著超越现有方法[2] - 该方法无需维护独立的价值网络或基模型计算KL散度,相比传统方法更加轻量[5] 技术优势与性能表现 - 在AIME24、AIME25及HMMT25等高难度任务上,ROVER相比传统方法大幅提高pass@1指标(提升+8.2)和pass@256指标(提升+16.8)[5] - 在Qwen3-8B-Base模型上,ROVER的pass@1在AIME24达到30.6,比最佳基线DAPO高19.1分;在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升106%[15] - 策略多样性比基线平均提升+17.6%,在AIME24上发现更多独特解题路径[17] - 在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳,展现强泛化能力[16][17] 算法创新与实现 - ROVER将大语言模型推理任务建模为有限时域马尔可夫决策过程,具备确定性状态转移、树状结构和二元稀疏奖励等关键特性[7][10] - 算法流程分为三步:Q值估计通过广义贝尔曼方程计算均匀随机策略下的状态-动作对值[11];策略构建引入基于Q值的softmax采样平衡最优性与多样性[12];训练目标将Q函数内化于LLM参数,实现自监督式参数化[13] - 采用组内奖励中心化技术降低方差,并将中心化奖励广播到生成的全序列token,实现细粒度信用分配[13] 行业影响与案例展示 - 在具体案例中,ROVER展现出更强的策略发现能力,如在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略[20][22] - 该方法证明在结构化任务中,简化而非复杂化是推进性能的关键,为AI行业提供了新的方法论反思[23] - 论文、代码及模型均已开源,便于行业进一步研究与应用[2][3]
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
机器之心· 2025-10-31 12:11
研究团队与背景 - 论文第一作者为香港科技大学博士生何浩然,研究方向包括强化学习和基础模型,共同第一作者为该校一年级博士生叶语霄,通讯作者为香港科技大学助理教授潘玲 [2] 传统方法的局限性 - 在大语言模型数学推理任务中,主流强化学习方法如PPO、GRPO依赖策略梯度更新,面临训练不稳定、多样性丧失和调参复杂等问题 [2][11] - 传统方法需要维护独立的价值网络和基模型以计算KL散度,导致计算开销高昂 [9][16] - 基于奖励最大化的传统方法会使模型过度追求单次推理正确率,牺牲策略探索能力,导致pass@k性能饱和 [16] ROVER方法的核心创新 - ROVER方法通过对完全随机策略进行价值评估来找到最优推理路径,跳过了传统强化学习的策略迭代循环 [3][11] - 该方法证明在有限时域、树形状态空间和二元奖励的马尔可夫决策过程中,均匀随机策略的Q值可直接指向最优策略 [12][14] - 算法流程极简,仅包含Q值估计、策略构建和训练目标三个步骤,无需维护额外价值网络 [19][23] 性能提升表现 - 在AIME24任务上,ROVER在Qwen3-8B模型上的pass@1达到30.6,比最佳基线DAPO高出19.1分 [26] - 在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升幅度达106% [26] - 在pass@256指标上,ROVER比传统方法提高16.8,展现持续探索能力 [9] 多样性优势 - ROVER训练的策略多样性比基线平均提升17.6%,在AIME24上发现更多独特解题路径 [29] - 在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略 [31] - 多样性提升使ROVER在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳 [30] 方法论意义 - ROVER的提出是对方法论的反思,表明在某些结构化任务中,简化而非复杂化才是推进性能的关键 [38] - 该方法以"极简主义"实现高质量与高多样性兼备的推理生成,诠释了简化设计的重要性 [4][38]
深度拆解,硬核解构,揭开vLLM推理系统实现高效吞吐的秘籍
机器之心· 2025-10-26 12:03
文章核心观点 - vLLM是一套针对大语言模型推理优化的高性能开源推理框架,通过创新的显存管理、并行调度和KV缓存技术,在保持模型准确性的同时大幅提升吞吐量与响应速度[1] - 该博客文章对vLLM的架构、代码和原理进行了深入分析,涵盖了从基础推理流程到高级功能、扩展能力和分布式系统部署的完整技术栈[3][4][6] - 文章采用倒金字塔结构写作方式,从宏观层面入手逐步深入细节,帮助读者建立对整个系统的清晰整体认知而不被繁琐技术细节淹没[6] LLM引擎核心架构 - LLM引擎是vLLM的核心构建模块,单独使用时能够实现高吞吐量推理但仅限于离线场景[7][8] - 引擎构造函数包含多个子组件:vLLM配置、处理器、引擎核心客户端、输出处理器、模型执行器、结构化输出管理器和调度器[14][15] - 调度器内部包含策略设置、等待队列与运行队列以及KV缓存管理器,其中KV缓存管理器维护一个可用KV缓存块的池子,数量可达几十万甚至更多[16] - 模型执行器在构造过程中会创建Worker对象并执行三个关键步骤:初始化设备、加载模型和初始化KV缓存[19][20][21] 推理流程与调度机制 - Generate函数处理每个提示词时创建唯一请求ID并记录到达时间,通过输入预处理器进行分词后打包成EngineCoreRequest传递到引擎核心[24][25][29] - 每个推理步骤包含三个阶段:调度阶段选择本步骤要执行的请求,前向传播阶段运行模型并采样新token,后处理阶段进行去分词和停止条件检查[32][33][34][35] - 推理引擎主要处理两类工作负载:Prefill请求对所有提示token执行一次前向传播通常是计算受限的,Decode请求仅对最新生成的一个token执行前向传播是内存带宽受限的[38] - V1调度器可以在同一个step中混合处理prefill与decode请求,优先处理decode请求,调度器会计算需要生成的新token数并调用KV-cache管理器的allocate_slots函数[39][40][41][42] 高级功能特性 - 分块预填充将预填充步骤拆分为更小块执行,避免长提示词请求独占计算资源,通过设置long_prefill_token_threshold正整数启用[57] - 前缀缓存避免重复计算多个提示词开头部分共享的token,当提示词长度超过一个KV-cache块(默认16个token)时可显著加快预填充请求速度[62][70][73] - 引导式解码在每一步解码时通过基于语法的有限状态机对logits进行约束,确保只有符合语法规则的token被采样,支持正规文法和上下文无关文法[93][94][97] - 推测解码通过引入较小草稿模型快速生成k个候选token,然后使用大模型进行验证,在统计上等价于标准自回归解码但潜在更快[106][107][112] 系统扩展与分布式部署 - 从UniProcExecutor扩展到MultiProcExecutor支持多GPU进程,通过张量并行将模型分片到同一节点多张GPU上,节点内带宽显著高于节点间带宽[141][143][149] - 分布式系统部署示例使用两台8×H100节点,一台以headless模式运行引擎,另一台作为API服务器,通过数据并行在多个节点上复制模型[153][156] - API服务节点实例化AsyncLLM对象创建DPLBAsyncMPClient,通过FastAPI应用暴露OpenAI兼容接口,整个堆栈通过Uvicorn对外提供服务[172][175] - 完整请求生命周期从终端发送请求到API服务器,经过负载均衡选择引擎,执行推理步骤后将结果返回,复杂分布式系统对用户透明[177][183] 性能测量与基准测试 - 推理系统性能有两个互相制约的指标:延迟从请求提交到返回token的时间对交互式应用重要,吞吐量系统每秒能够生成或处理的token/请求数量对离线工作负载关键[185][186][189] - 常见推理性能指标包括TTFT从请求提交到接收第一个输出token的时间,ITL两个连续token之间的时间,TPOT请求中所有输出token的平均ITL,以及端到端延迟[190] - vLLM提供CLI工具vllm bench {serve,latency,throughput}进行基准测试,latency脚本使用短输入并生成128个输出token,throughput脚本一次性提交固定prompt集测量吞吐量[196][197] - 延迟和吞吐量存在竞争关系,当批大小B较小时每个token的间隔延迟下降,当B增大时间隔延迟上升但吞吐量提高直到达到峰值性能[192][193]
告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升
机器之心· 2025-09-02 14:32
核心技术:SRCA框架及其优势 - 华为诺亚方舟实验室联合香港中文大学等机构提出逐步推理检查点分析框架,旨在解决现有测试时扩展方法存在的路径同质化和中间结果利用不足两大缺陷[2] - SRCA框架包含三大核心组件:检查点注入、答案聚类搜索和检查点候选增强,通过在推理步骤间引入“检查点”并集成新策略来提升模型推理能力[8][13] - 实验结果显示,SRCA框架加持的1B参数小模型在MATH500数据集上达到65.2%准确率,首次超越参数量70倍的70B大模型[25] 核心组件:检查点注入 - 检查点注入是SRCA的基础技术,核心思路是强制模型在每一步推理后暂停并输出阶段性答案,通过检测步骤结束符和插入特定提示语来实现[10][11] - 该方法收集的中间答案可代表模型当前的思考过程,并通过合理的KV Cache管理将推理状态回滚以避免重复计算,降低开销[12] 核心组件:答案聚类搜索 - 答案聚类搜索算法旨在防止“思路扎堆”,鼓励不同解法,它基于检查点答案对推理路径进行分组[14] - ACS采用双层筛选机制:先在组内按PRM总分择优,再在组间采用轮询调度方式从每组抽取最优路径,以保证解题路径的多样性[17] - 该策略仅需16次采样即可达到其他TTS方法128次采样的精度,在同等硬件条件下推理效率提升达8倍[25] 核心组件:检查点候选增强 - 检查点候选增强策略旨在抢救“半成品好答案”,通过收集所有中间检查点答案来辅助最终决策,即使路径未完成,其高质量中间答案也可参与最终投票[19][20] - CCA成功从中间步骤拯救了19.07%的正确答案,通过复用高质量中间结果构建了强大的错误容忍机制[25] - 具体示例显示,模型最终推理答案为9,但CCA通过识别第5步的检查点答案27并给予其最高分0.7192,从而修正了错误答案[21] 性能与效率提升 - SRCA相较于现有TTS方法在多个数学数据集上推理准确性均有提升,例如在OlympiadBench上也有优异表现[2] - 通过设置合理阈值,当候选池中出现超过阈值的检查点答案时可提前停止推理,平均节省27%的推理步骤,且准确率仅轻微下降0.58%[25]
大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
机器之心· 2025-08-16 13:02
大语言模型(LLM)推理机制 - LLM中的推理定义为在输出最终答案前生成一系列中间token,其核心在于通过中间token增强模型能力而无需扩展模型规模 [6][15] - Transformer模型通过生成中间token可解决布尔电路理论框架下的复杂问题,逻辑电路规模决定解决能力上限(逻辑门数量可达数万亿) [17] - 标准贪婪解码会抑制推理能力输出,需采用链式推理解码(生成多候选答案并筛选高置信度结果)或提示工程(如"逐步思考"指令)触发推理 [22][23][27] 推理优化方法演进 - 监督微调(SFT)依赖人工标注问题与解决方案数据,但泛化能力有限,需依赖数据规模扩展 [29][33][36] - 自我提升方法利用模型生成解决方案数据(Reject Sampling),通过迭代优化降低人工标注成本,如STaR论文提出的自举推理框架 [39][40] - 强化学习微调(RL finetuning)成为当前最优方法,直接优化生成质量指标,谷歌、OpenAI等多团队独立验证其有效性 [42][43][49] 关键技术突破方向 - 多响应聚合策略显著提升推理准确率,通过边缘化方法选择高频答案(如生成10个响应取众数) [60] - 检索增强推理结合外部知识库,解决模型固有知识盲区(如坐标计算需先检索距离公式) [62][63] - 模型组合技术并行运行多个模型对比输出,类似AlphaGo的集成学习思路 [62] 行业应用与未来趋势 - Gemini 2.0展示符号推理能力,通过乘法分解解决数字组合问题(如2025=45×45),体现类人推理过程 [51] - 工业界更关注实际性能而非学术争论,检索与推理结合已应用于代码生成、写作等复杂任务 [62][65] - 未来研究将聚焦非确定性答案任务(如创意生成),推动基准测试向真实场景迁移 [66][68] 学术资源与课程 - 斯坦福CS25课程汇聚Geoffrey Hinton等顶尖学者,YouTube播放量达数百万,涵盖GPT到机器人应用前沿 [9][10] - Denny Zhou论文引用超83,000次,主导语言建模大会(CoLM 2024),研究涵盖链式思考提示与自一致性算法 [8]
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]