强化学习
搜索文档
首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈
机器之心· 2026-02-10 16:52
随着大语言模型(LLM)的发展,业界共识已从单纯的「预训练扩大参数」转向挖掘测试时扩展(Test-Time Scaling)的潜力。 论文标题: TTCS: Test-Time Curriculum Synthesis for Self-Evolving 论文链接:https://arxiv.org/abs/2601.22628 项目代码:https://github.com/XMUDeepLIT/TTCS HuggingFace 主页:https://huggingface.co/papers/2601.22628 在 DeepSeek-R1 和 OpenAI o1 引领的「后训练(Post-Training)」与「测试时扩展」(Test-Time Scaling)」时代,如何利用测试时的算力进行有效训练成为焦点。 然而,面对极难的测试题,现有的测试时训练(Test-Time Training, TTT)往往因伪标签噪声大而陷入「瞎猜」的困境。 厦门大学 DeepLIT 课题组 提出了一种全新的测试时课程合成框架 —— TTCS (Test-Time Curriculum Synthesis) 。该框架不依 ...
强化学习,正在决定智能驾驶的上限
36氪· 2026-02-10 12:45
文章核心观点 - 智能驾驶行业正从概念验证阶段进入工程化落地阶段 技术路径的博弈结果取决于技术范式、工程约束与现实场景的融合[1] - 行业共识是强化学习正从“技术选项”变为“必选项” 被认为是决定智能驾驶能力上限的底层能力[7][9] - 智能驾驶的训练体系正从依赖模仿学习转向结合强化学习 模仿学习确保安全基础 强化学习实现策略进化与能力提升[21][25] - 强化学习的有效应用高度依赖精心设计的奖励函数和高质量的世界模型 这两者是提升系统“含模量”和智能水平的关键[30][41][49][60] 技术路径演进 - 行业早期依赖模仿学习 通过让AI学习人类驾驶数据来快速获得稳定、安全的驾驶能力 但上限受限于数据质量且难以应对未知场景[11][14][16] - 强化学习通过试错和最大化长期奖励进行学习 能让AI超越人类经验 应对复杂博弈和极端长尾场景 是能力进阶的路径[17][19][20] - 端到端模型为强化学习铺平了道路 它将感知、理解、控制打包 让AI能完整接管驾驶任务 两者常组合使用[19] - 当前主流训练范式是结合两者:先用模仿学习将模型拉到“能安全跑”的水平 再用强化学习进行精修和策略提升[24][25] 强化学习的核心机制:奖励函数 - 奖励函数是将“开得好”具象化为机器可理解分数的关键 它定义了AI的驾驶风格与水平[30][31] - 行业普遍围绕五个核心指标设计奖励函数:安全、合规、舒适、效率、稳定性 其中安全是红线指标且权重最高[32][33][36] - 奖励设计需在矛盾目标间找到精妙平衡 例如安全与效率 并通过提供多种驾驶模式来满足用户个性化需求[32][34] - 奖励函数设计是“代码的艺术” 需避免AI“刷分” 通过过程密集拆解和分层控制来引导正确行为 并可能引入人类反馈偏好[37][38][39][41] 强化学习的进阶:世界模型 - 强化学习在智能驾驶中的工程应用可分为三层:调参型、策略型、以及基于世界模型的强化学习[43] - 世界模型是一个高度拟真的虚拟现实系统 它为强化学习提供了可信的“试错”环境 能大幅提升其训练效果和上限[48][49][53] - 世界模型让AI具备长时推演能力 可以训练长期最优策略 而不仅仅是当前最优解[50] - 世界模型与强化学习结合能形成进化飞轮:真实道路数据、世界模型造场景、强化学习练策略、实车验证 形成高速迭代循环[51][52] 行业竞争格局与关键变量 - 头部企业如理想、小鹏、Momenta等都在将资源向强化学习路线倾斜[5] - 华为、文远知行、英伟达等头部玩家正将世界建模与强化学习深度耦合 以构建更强大的智能系统[54] - 竞争维度正在变化:在高质量世界模型与生成式仿真加持下 合成数据能力提升 原始数据的边际价值下降 对世界规律的建模能力变得更为稀缺[56][57][58] - 系统“含模量”成为关键指标 即系统能力有多少是模型自我演化而来 世界模型与强化学习的耦合旨在提升“含模量”[60][61][62]
训练加速1.8倍,推理开销降78%,精准筛选题目高效加速RL训练
36氪· 2026-02-09 18:39
行业技术背景与挑战 - 以DeepSeek R1为代表,基于强化学习(RLVR)微调显著提升大语言模型推理能力,但强化微调成本高昂 [1] - 高昂成本主要源于训练过程中的“低效”,大量算力浪费在无法提供有效学习信号的题目上 [1] - 现有主流“挑题”策略存在明显缺陷:“题海战术”(Uniform Sampling)导致大量算力浪费;“先测后学”(Dynamic Sampling, DS)依赖大模型“自测”,推理成本依然高昂 [2] MoPPS框架核心创新 - 清华大学THU-IDM团队与慕尼黑大学CompVis团队合作,提出全新框架:基于模型预测的提示选择(Model Predictive Prompt Selection, MoPPS) [2] - 核心解决思路是无需昂贵的大模型评估,动态预测题目难度并精准挑选训练数据,以更高效提升模型推理能力 [5] - 将每道题目建模为“老虎机”,每个题目有一个未知的“获胜概率”(即模型在当前参数下答对的成功率) [7] - 采用轻量化的贝叶斯难度预测,为每个题目配备Beta分布来估计其成功率,并通过二值反馈递归更新,计算量极低 [8] - 引入时间衰减因子以适应模型能力动态变化的环境 [9] - 使用Thompson Sampling进行主动问题筛选,从候选集中挑选最接近目标难度(成功率约0.5)的“黄金题”,平衡探索与利用 [10] 性能与效率优势 - 与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [15] - 相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且训练效果更好 [16] - 在R1-Distill-Owen-1.5B模型上,MoPPS在多项基准测试中的平均性能达到51.83,与DS(Oracle)的52.00相当,但仅使用737k Rollouts,远低于DS的2933k [17] - 在R1-Distill-Qwen-7B模型上,MoPPS平均性能达62.20,与DS的62.42相当,但仅使用287k Rollouts,远低于DS的1147k [17] - MoPPS预测的题目难度与真实难度之间具有极高的相关性(Spearman Rank Correlation),证明了其预测的有效性和可靠性 [19] 方法适用性与行业影响 - MoPPS作为“数据筛选器”即插即用,可兼容PPO、GRPO、Reinforce++等多种强化学习算法 [20] - 在PPO (k=1)算法下,MoPPS在CD-34和CD-4基准上的性能分别为69.12和40.11,显著优于Uniform采样的62.33和32.65 [23] - 支持不同采样策略并可引入先验信息,默认采用Top-B采样,也可扩展为阈值采样,并能结合先验知识加速前期训练 [24] - 该工作已被KDD 2026接收,受到包括阿里千问、腾讯混元、蚂蚁等业界的关注,以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用 [4] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,其核心贡献在于提出了一种全新的“先预测,再优化”范式 [26]
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
量子位· 2026-02-09 17:50
文章核心观点 - 清华大学与慕尼黑大学团队提出的MoPPS框架,通过一种轻量化的“先预测,再优化”范式,能够在不依赖昂贵大模型自评估的情况下,动态预测并筛选出难度最合适的训练题目,从而显著降低大语言模型强化学习微调的成本并大幅提升训练效率 [3][6][15][31] 大模型强化微调面临的效率挑战 - 以DeepSeek R1为代表,基于强化学习微调能提升模型推理能力,但训练过程成本高昂,主要源于“低效”学习,即大量算力被浪费在过于简单或过于困难、无法提供有效学习信号的题目上 [1] - 传统“题海战术”从题库中随机抽题训练,会导致梯度坍缩,资源被白白浪费 [2] - 传统“先测后学”策略依赖大模型对候选题目集进行“自测”来筛选,虽然能提升效率,但“自测”本身需要大量LLM推理,成本依然高昂 [2][8] MoPPS框架的核心机制 - MoPPS将每一道训练题目建模为一个“老虎机”臂,其核心目标是估计并优先选择成功率接近0.5的中等难度题目 [9][11] - 采用极低开销的轻量化贝叶斯模型进行难度预测:为每个题目维护一个Beta分布,通过模型训练产生的“成功/失败”二值反馈直接递归更新分布参数,计算量极低 [10][11][12] - 引入时间衰减因子,使难度估计能适应模型能力变化的动态环境 [11] - 使用Thompson Sampling策略进行主动题目筛选,平衡对已知最优题目的利用和对潜在有价值新题的探索 [11][14][20] MoPPS框架的性能优势 - **大幅降低算力成本**:与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [18] - **显著提升训练效率**:相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且最终训练效果更好 [21] - **难度预测精准可靠**:MoPPS预测的题目难度与真实难度之间具有极高的相关性,证明了其预测的有效性 [25][29] 实验数据与效果验证 - 在AIME24、AMC23、MATH500等多个数学推理基准测试中,基于Qwen-1.5B模型,MoPPS方法取得了32.92、66.72、84.82的分数,性能优于Uniform采样和HIR方法,与需要大量额外计算的DS方法相当甚至更优,且仅使用了737k Rollouts [22] - 基于Qwen-7B模型,MoPPS方法在多个基准上取得48.54至91.04的分数,性能接近DS方法,但Rollouts仅为287k,远低于DS方法的1147k [22] - MoPPS框架具有良好的兼容性,可作为即插即用的“数据筛选器”,适配PPO、GRPO、Reinforce++等多种强化学习算法,并均能带来性能提升 [26][27] 方法适用性与行业影响 - MoPPS框架支持不同的题目筛选策略,并能结合先验知识以加速前期训练 [28][31] - 该工作已被KDD 2026接收,并受到阿里千问、腾讯混元、蚂蚁等业界公司,以及多位知名学者的关注和引用 [5] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,未来有希望应用于更大规模的大模型强化学习后训练 [31]
一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?
36氪· 2026-02-06 18:15
行业动态:2026年初大模型集中发布潮 - 2026年开年,大模型行业迎来密集发布,Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash接连推出 [1] - OpenAI和Anthropic几乎同时推出小版本迭代GPT-5.3-Codex和Claude Opus 4.6 [2] - 多家中国公司计划在春节前后发布新一代模型,包括智谱的GLM-5、MiniMax的M2.2、字节跳动的Doubao 2.0等模型矩阵,以及可能更新的DeepSeek V3系列 [4][5] - 中美头部玩家几乎同时推进大版本迭代,竞争焦点从参数规模转向定义2026年的AI [7] 技术升级方向:新一代模型的三大重点 - **推理能力普及化**:推理正成为下一代基础模型的默认能力,例如GLM-5强调复杂任务的一致性完成能力,Step 3.5 Flash在196B参数规模下实现秒回应并采用MTP-3技术,Gemini 3.5也强化了深度推理模式 [9][10][13] - **长上下文系统化**:长上下文从“指标”变为“系统能力”,更注重真实工作场景应用,如腾讯混元推出CL-bench基准测试,DeepSeek V4论文提出“Engram条件记忆”机制,在计算量较MoE减少18%的情况下于32768个token任务中反超同参数量MoE模型 [14][16] - **Agent核心化**:Agent正在重新定义基础模型,成为AI系统的核心,强调在较少人工干预下完成完整任务的能力,例如Step 3.5 Flash“为Agent而生”,Claude 5被曝强化多Agent协作的“蜂群模式” [17][19] 竞争格局与市场影响 - 2026年春节前后成为模型集中发布“同步窗口”,原因包括DeepSeek去年春节的成功示范、技术周期成熟以及上市融资等竞争节奏 [20] - 行业可能进入“连续发布”阶段,从春节前持续到3月初,但单一模型难以长期吸引注意力,对模型和营销是巨大考验 [21] - 模型发布后将迅速经历真实场景横向对比,差距会在极短时间内形成共识,胜负关键取决于发布后能否被快速广泛使用并形成入口与调用习惯 [22][25][26] - 本轮更新可能带来代际跃迁,涉及训练方式、推理模式与模型定位的同步变化,使模型从“功能组件”变为“系统底座”,影响未来一年的全球大模型格局 [23][24]
每日投行/机构观点梳理(2026-02-05)
金十数据· 2026-02-05 20:26
贵金属市场 - 路透调查显示,黄金有望在2026年再创新高,预期中值为每盎司4746.50美元,较去年10月预估的4275美元显著上升,一年前的预期仅为2700美元 [1] - 推动金价上涨的主要因素包括地缘政治风险、央行持续购金、对美联储独立性的担忧、美国债务上升、贸易不确定性以及“去美元化”趋势,这些因素预计在2026年继续支撑黄金 [1] - 白银价格预期同样被上调,目前预计2026年白银均价为每盎司79.50美元,而去年10月调查中对2026年的预期仅为50美元 [1] - 受美元走强影响,黄金和白银在亚洲交易时段双双下跌,强势美元成为贵金属走势的阻力 [2] 全球股市与区域配置 - 瑞银预计今年年底全球股市将上涨约10%,美国市场依然是投资者股票配置的核心组成部分,且后续仍有上行潜力 [3] - 瑞银看好中国、日本和欧洲市场,认为战略自主的推进、区域财政扩张和结构性改革有望在各地催生受益者 [3] - 中国政府对本土人工智能模型和芯片制造的明确支持,将为中国科技股进一步上涨奠定基础 [3] - 低利率环境下国内投资者追逐收益,医疗保健企业“走出去”、新消费模式兴起及电网现代化等结构性利好,有望惠及金融、医疗保健、消费、材料和电力设备等行业 [3] 外汇市场动态 - 日元兑美元跌至接近两周低点,市场对首相高市早苗在周日提前举行的选举中巩固执政地位的信心增强,这对日元构成压力 [4] - 三井住友日兴证券策略师认为,即便当局可能干预,日元仍可能进一步走软,市场共识是美元/日元汇率存在上行偏好 [5] - 高盛警告称,日本财政风险仍明显偏向上行,支出方面的担忧正在对日本国债和日元构成压力,除非日本央行转向更快的加息步伐 [5] - 法兴银行表示,欧元在2026年下半年可能转而对美元走弱,因为近期欧元升值的幅度已超过利差所能解释的水平 [6] - 西太平洋银行首席经济学家表示,澳洲联储可能被迫在3月份连续第二次加息,尽管核心预测仍是5月加息,但如果数据表现出更强势头,连续加息就可能发生 [6] 美国货币政策与金融市场 - 中信证券研报称,当前美国金融市场环境不具备缩表的条件,考虑到1月美国资金市场流动性压力才明显缓解,当前准备金占GDP比重仍为10%左右,美联储持有资产占GDP比重为20%左右,已接近疫情前2018年的水平 [6] 人工智能与科技发展 - 中金指出,回顾2025年,全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破 [7] - 银河证券认为,AI带来的收益主要体现在两条路径:平台端带动时长、转化与商业化效率提升;内容与工具端提升生产效率并降本,建议关注港股互联网、AI应用及产业链相关、内容端 [9] 医药行业 - 中泰证券战略看好原料药板块,小核酸、多肽、ADC毒素等创新药热门赛道带来产业链催化不断,在早期临床进展积极、早期市场导入顺利的催化下再度加强 [7] - 重点看好技术、产能领先,业务确定性强的联化科技、奥锐特、九洲药业、诺泰生物、天宇股份、美诺华等,板块多数公司当前处在存量业务见底,增量业务有望发力的拐点区间 [7] 汽车行业 - 中信证券指出,2026年开年,汽车行业受存储、动力电池、上游资源品等原材料超预期涨价影响,一季度利润率面临压力 [8] - 存储涨价因AI超级周期挤占需求,持续时间可能贯穿全年,对智能汽车成本影响刚性、但幅度大概率小于1% [8] - 电池由碳酸锂涨价也面临成本提升,测算2026年全年平均单车成本提升约3000元,不过由于碳酸锂价格传导有缓冲,且主机厂对带电量具有主动调节性,该影响并非刚性 [8] - 铜铝涨价由上游资源品价格异动影响,单车平均增加成本约2000元,久期难以判断,套期保值可部分对冲影响 [8] - 建议关注成本转嫁能力强、产品结构优、全球化布局领先的整车企业 [8] 日本政治与市场 - 中金研报称,日本众议院选举将于2月8日举行,此次选举是选择执政党及首相的关键政治选举 [9] - 目前日本主流媒体的舆论调查显示自民党获得席位或较选举前大幅增加,存在单独过半数的可能性,在此情景下,各类日本资产的价格波动方向或发生日股大幅上升、日债利率上行、日元贬值的走势 [9]
强化学习远不是最优,CMU刚刚提出最大似然强化学习
机器之心· 2026-02-05 15:52
文章核心观点 - 一项来自CMU、清华大学、浙江大学等机构的研究指出,当前广泛使用的强化学习(RL)并未真正优化最大似然目标,而只是在优化其一阶近似,这导致了模型性能提升后期困难 [2][6][7] - 研究团队提出了最大似然强化学习(MaxRL),通过引入一族以计算量为索引的目标函数,使训练目标能逐步逼近真正的最大似然优化,从而在性能和计算效率上显著超越现有强化学习方法 [2][9][22] 传统强化学习的局限与理论新发现 - 在代码生成、数学推理、多步决策等任务中,业界已形成共识:只要反馈是二值的、过程是不可微的,就使用强化学习 [5] - 严格的理论分析显示,基于期望奖励的强化学习只是在优化最大似然目标的一阶近似,并未真正最大化模型生成正确答案的概率 [2][6][7] - 这一理论偏差解释了强化学习在训练后期性能提升越加困难的现象 [8] 最大似然强化学习(MaxRL)的理论框架 - 研究将基于正确性反馈的强化学习形式化为一个潜变量生成的最大似然问题 [9] - 提出了一族以计算量为索引的目标函数,通过对pass@k事件进行Maclaurin展开,在期望回报与精确最大似然之间实现连续插值 [9][11] - 当截断级别T=1时,目标函数还原为标准强化学习;当T→∞时,还原为最大似然;中间的T值则在两者之间插值 [15] - 最大似然目标的梯度可以等价表示为仅对成功轨迹的梯度进行平均,这为构造简洁的梯度估计器提供了直接途径 [18][19] - MaxRL提供了一个原则性框架,通过增加计算量来换取对最大似然目标更高保真度的近似 [16][20] MaxRL的实验性能与效率优势 - 在多个模型规模和多类任务上的系统评估显示,MaxRL在性能与计算效率的权衡上稳定优于现有强化学习方法 [22] - 在相同训练步数下,MaxRL性能提升明显更快,并且随着rollout数的增加持续受益 [24] - 相较于使用GRPO训练的模型,MaxRL测试时的scaling效率最高可提升20倍 [24] - 在迷宫任务中,随着训练rollouts增加,MaxRL能持续降低−log(Pass@k),而GRPO与RLOO的改进幅度则明显更早趋于平缓 [25] - 对于GRPO与RLOO,性能曲线在早期下降后迅速变平,说明额外采样主要用于降低噪声;而MaxRL在不同k值下均保持持续下降,推动模型不断逼近更接近最大似然的优化目标 [26] - 在更大规模设置下,MaxRL的优势依然保持稳定,未出现收益递减过快或优势消失的现象 [29] - 即使在反馈存在噪声或验证信号并非完全可靠的设置下,MaxRL仍然能够保持相对稳定的性能优势 [30]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]
致敬Kimi K2:基于slime的全流程INT4量化感知RL训练
机器之心· 2026-02-03 18:35
受 Kimi K2 团队启发,SGLang RL 团队成功落地了 INT4 量化感知训练(QAT) 流程方案。通过 "训练端伪量化 + 推理端真实量化(W4A16)" 的方案 组合,我们实现了媲美 BF16 全精度训练的稳定性与训推一致性,同时 INT4 极致压缩也将 1TB 级超大模型的采样任务容纳于单机 H200 (141G) 显存 内,消除了跨机通信瓶颈,显著提高了 Rollout 效率,为社区提供了兼顾高性能与低成本的开源参考。 近期,SGLang RL 团队在强化学习的训练稳定性,训练效率与适用场景方面取得了重要进展,具体包括: 在此基础上,我们更进一步,在 slime 框架上成功复现并落地了 INT4 量化感知训练(QAT) 全流程方案。该方案深受 Kimi 团队 K2-Thinking 技术报告 中关于 W4A16 QAT (Quantization-Aware Training) 实践的启发。为了致敬先行者并回馈社区,本文将详细剖析我们在开源生态中打通全流程的技术细 节,旨在为社区提供一份兼顾稳定性与性能的可落地参考。 核心收益概览: 本项目由 SGLang RL 团队、 InfiXAI 团队 ...