Workflow
RLVR
icon
搜索文档
Sebastian Raschka万字年终复盘:2025,属于「推理模型」的一年
机器之心· 2026-01-02 17:30
文章核心观点 - 2025年大语言模型领域的发展重点从单纯的参数规模扩展转向了推理能力的强化,以DeepSeek R1为代表的开放权重模型及其采用的RLVR和GRPO算法成为年度技术风向标,同时行业在架构、评估和工具使用等方面也取得了显著进展[1][3][4] 推理模型与算法进展 - 2025年是“推理之年”,DeepSeek R1的发布证明了通过强化学习(特别是RLVR和GRPO算法)可以开发出具有类似推理行为的模型,这改变了行业对模型改进方式的认知[5][6] - DeepSeek R1作为开放权重模型,其性能媲美当时最好的专有模型,并且其成本远低于预期,训练DeepSeek V3模型的成本估计约为557.6万美元,而在其基础上训练R1模型的额外成本仅需29.4万美元[9][10][12] - RLVR中的“可验证奖励”允许使用确定性方法为数学和代码等领域分配正确性标签,从而能够在大规模数据上对LLM进行高效的后训练[13][15][16] - 继DeepSeek R1之后,几乎所有主要的开放权重或专有LLM开发商都发布了其模型的推理(“思考”)变体,标志着RLVR和GRPO成为年度主导技术[19] 大语言模型开发重点演变 - 近年来LLM开发的重点呈现累积性演进:2022年是RLHF+PPO,2023年是LoRA等参数高效微调,2024年是中期训练,而2025年的焦点是RLVR+GRPO[20][21][22] - 预计未来发展方向包括:将RLVR扩展到数学和代码以外的领域、更多地关注推理时扩展(让模型在生成答案时花费更多资源以提升准确性)、以及持续学习(在不重新训练的情况下更新模型知识)[25][27][28][31] 大语言模型架构趋势 - 最先进的模型仍基于解码器风格的Transformer,但开放权重LLM普遍收敛于使用混合专家层以及分组查询注意力、滑动窗口注意力或多头潜在注意力等高效注意力机制[42][43] - 同时,行业也出现了更激进的效率调整架构,如Qwen3-Next和Kimi Linear中的Gated DeltaNets,以及NVIDIA Nemotron 3中的Mamba-2层,旨在实现随序列长度的线性扩展[43] - 预测未来几年基于Transformer的架构仍将主导高性能建模,但出于成本和效率考虑,Gated DeltaNet和Mamba层等高效工程调整将越来越普遍,文本扩散模型等替代方案仍处于实验阶段[53] 推理扩展与工具使用 - 2025年的进步不仅来自训练数据和架构的扩展,更得益于更好的训练流程(中期和后训练)以及推理扩展,后者让LLM能按需投入更多资源解决复杂任务[54] - 工具使用是减少LLM幻觉的重大改进方向,例如让LLM调用搜索引擎或计算器API来获取准确信息,OpenAI的gpt-oss模型就是早期专注于工具使用的开放权重模型之一[54][55] - 基准测试数据显示,使用工具能显著提升模型在多项任务上的表现,例如gpt-oss-120b模型在AIME 2024基准上,使用工具后准确率从56.3%提升至75.4%[56] 行业评估困境与数据优势 - 2025年的年度词汇是“极限刷榜”,指过度优化公开基准测试分数,导致分数无法真实反映模型的实际能力和实用性,基准测试作为LLM性能指标的可信度下降[60][61][63] - 随着通用能力提升趋于平稳,高质量的私有数据将成为LLM在特定行业确立优势的关键,但许多公司因数据是其核心差异化资产而拒绝出售给外部LLM提供商[84][85] - LLM开发正变得越来越商品化,预计未来拥有预算的大型机构将更倾向于开发利用其私有数据的内部LLM,而非完全依赖外部通用模型[88][89] AI辅助工作与影响 - LLM被视为赋予专业人士“超能力”的工具,能大幅提高个人效率,例如自动化编写命令行参数等平凡编码任务,或帮助发现代码错误和改进想法[65][66][68] - 然而,完全由LLM生成的代码库无法取代专家精心设计和构建的系统,深入的专业知识对于有效利用LLM指导和改进工作成果至关重要[71] - 在技术写作和研究领域,LLM是强大的辅助工具,可以帮助检查错误、提高清晰度,但无法替代人类作者的深度判断和专业知识,核心工作仍取决于人类[72][76] - 需警惕过度依赖LLM可能导致工作空虚感和职业倦怠,理想的方式是将AI视为加速学习和扩展工作能力的合作伙伴,而非完全外包思考的替代品[77][80][81]
2025年AI大模型资料汇编
搜狐财经· 2025-12-24 18:45
文章核心观点 2025年AI大模型行业竞争焦点从单纯的能力竞赛转向可持续性比拼,行业在技术范式、市场格局、应用形态与全球治理四大维度发生深刻转变,共同重塑发展轨迹[1] 技术范式演进 - 训练范式发生关键拐点,从依赖主观反馈的RLHF全面转向客观可验证的RLVR,模型通过自我检验实现推理能力飞跃[1][27][28] - 混合专家架构强势回潮,以稀疏激活模式平衡参数规模与计算成本,追求极致性价比[1] - 多智能体自我博弈与合成数据微调成为常态,模型减少对人类标注数据的依赖[1][29] - 检索增强生成成为企业级应用标配,有效解决幻觉与知识时效性问题[1][61][63] - 模型能力呈现“锯齿化”结构,在数学、编程等形式化智力领域突飞猛进,但在常识推理上仍存短板[1][32][33][34] 市场格局变化 - 市场格局呈现集中化与民主化的双重张力,谷歌Gemini 3凭借自研TPU v5芯片与多模态优势,终结了OpenAI的长期领先地位[1][2][10][14] - 中国模型凭借成本效益实现弯道超车,市场向头部集中,Anthropic等顶尖初创企业获巨额融资,二三线玩家面临出清[1][2] - 开源浪潮形成制衡,阿里通义千问、01.ai Yi-34B等开源模型性能逼近闭源产品,中国厂商成为开源生态主力军[1][2][19] - 科技巨头加速构筑全栈生态闭环,通过芯片、模型、平台、应用的垂直整合形成护城河,竞争焦点转向生态控制权[1][2] 应用形态发展 - 应用形态从通用聊天助手进化为专用工具与自主智能体,深度嵌入编程、办公等专业流程,“AI原生应用层”崛起[1][2][53] - “氛围编程”重塑软件开发模式,开发者角色从编码者转向系统设计师与AI驯导师[1][2][57] - 智能体成为生态博弈核心,例如字节跳动豆包手机助手可实现跨应用复杂操作,引发与超级App的流量控制权之争[2][60] - 部署模式呈现“云+端协同”趋势,本地部署因隐私合规需求兴起,开源工具与硬件进步让大模型在个人手机和企业私有服务器上运行成为可能[2][67][68] 全球治理动态 - 全球治理进入差异化竞争阶段,欧盟《AI法案》以安全优先实施严格监管,美国侧重行业自律与国际主导,中国坚持发展与安全并举的审慎包容路径[3] - 全球统一规则难以达成但多边协作萌芽显现,监管竞赛背后是技术标准制定权的争夺[3] - AI安全暗战持续,对齐与越狱的攻防常态化,自动化对抗与长期安全机制建设提上日程[3] - 社会层面初步显现就业结构调整、教育模式变革等震荡,人与AI协作成为新趋势[3]
RL Infra 行业全景:环境和 RLaaS 如何加速 RL 的 GPT-3 时刻
海外独角兽· 2025-09-24 13:02
文章核心观点 - RL Scaling 正在推动 AI 从依赖静态人类数据的时代,迈向由 Agent 与环境动态交互产生经验的“体验时代” [2] - 这一范式转变催生了对新基础设施的需求,RL Infra 的核心价值在于弥合模拟训练与真实世界之间的差距,使 AI Agent 在部署前能经历高强度测试 [2] - 行业呈现出两种主流商业路径:横向平台化的 RL 环境公司(目标是成为 AI 时代的“Unreal Engine”)和纵向一体化的 RLaaS 公司(目标是成为垂直行业的“AI-native Palantir”) [3] - 随着趋势演进,行业将迎来 RL 的“GPT-3 时刻”,即 RL 数据规模被拉升到预训练量级 [3][6] RL Infra 的必要性 - 基础模型面临瓶颈,仅依赖静态、人类互联网生成的数据集带来的性能提升呈现边际递减趋势 [6] - AI 社区开始转向 RL 环境交互,通过在模拟环境中试错,模型可以学到长链条推理、复杂决策等 pretrain + SFT 难以获得的能力 [6] - 实现 RL 的规模化需要将交互环境的规模和多样性提升到远超当前的数量级,例如达到“上万年等效任务时长的交互经验数据”,与 GPT-3 的 3000 亿 token 预训练规模相当 [8] - 当前 RL 训练环境非常初级且受限,远不能模拟现实工作的复杂性,存在“生产环境悖论”,即在真实环境中学习高效但风险极高 [9] - 奖励函数设计不精确会导致智能体出现“奖励破解”(reward hacking)问题,在训练环境中表现良好但迁移到实际场景时失败 [10] RL Infra 行业图谱框架 - 当前创业公司主要分为三大类:RL 环境类公司、RL 即服务(RLaaS)公司、以及数据/评估类公司 [12] - **RL 环境类公司**:作为模拟环境的搭建者,提供标准化、可扩展的模拟训练环境和任务平台,目标是将真实工作流“可模拟化” [13] - **RLaaS 公司**:采用类似 Palantir 的深度定制化模式,针对大型企业的具体业务需求提供端到端的 RL 解决方案,单个合同金额可观,可达千万美金级别 [14] - **数据/评估类公司**:专注于为 RL 训练提供高质量的交互数据、评测基准和评估工具,充当“数据军火商”的角色 [15] - 从投资角度看,RL 环境与数据构成一个对冲组合,而 RLaaS 则有望在特定垂直行业孵化出垄断型领军者 [3][15] RL 环境:构建软件的 Unreal Engine - RL 环境的核心是构建一个可以安全、大规模、可复现地生成“经验数据”的工厂,其三大核心要素包括状态管理系统、任务场景和奖励/评估系统 [16] - 环境平台主要有几种形态:针对特定软件工作流的应用级沙盒(如 CRM/ERP 模拟器)、通用的浏览器/桌面环境、以及利用历史数据训练环境模型的“世界模型”思路 [17][18] - **案例:Mechanize**:提出“复制训练”新范式,让 AI Agent 完整复现现有软件功能作为训练任务,并将成功与否通过自动化方式验证,解决了为复杂任务设计奖励函数的难题 [20][21] - **案例:Veris AI**:为企业客户构建其生产环境的“数字孪生”,精确复刻客户独特的内部工具和数据结构,以解决环境安全和训练有效性两大痛点,已完成850万美元种子轮融资 [23][24] - **案例:Halluminate**:提供高度并行的“真实感沙盒”环境覆盖常用企业软件,并配套专有数据集和评估服务,进行“数据驱动的失败模式分析”以加速模型迭代 [27] RLaaS:打造 AI-native Palantir - RLaaS 的服务模式通常涵盖三个关键环节:奖励建模(将抽象业务 KPI 转化为可计算的奖励函数)、自动化评分(搭建评分管道作为 AI 的自动化裁判)、以及模型定制与强化微调(RFT) [30][32][33] - **案例:Fireworks AI**:作为 AI Inference 基础设施公司,其平台允许用户通过一段 Python 代码定义评价函数即可进行 RFT,据称效果可追平顶尖封闭模型,且推理速度提升10-40倍 [34] - **案例:Applied Compute**:由 OpenAI 前研究人员创立,采用高举高打的项目制模式,与少数大企业深度绑定,每单合同可能高达数千万美金,pre-launch 阶段即以1亿美元估值获2000万美元种子轮融资 [36] - **案例:RunRL**:代表民主化方向,提供一键运行 RL 的服务,按节点小时收费($80/node-hour),旨在降低 RL 使用门槛 [36] RL 趋势下的未来展望 - 在线学习(RL 环境)与离线学习(RL 数据)是两种核心路径,前者能生成完美的 on-policy 数据但成本高,后者成本低但存在 off-policy 学习导致的泛化问题 [37][40] - 一个稳健的投资策略是同时布局环境和数据两条路径,以对冲具体实现路径的不确定性 [43] - RLaaS 的 Palantir 模式执行路径清晰:嵌入专家解决核心问题 -> 构建专有数据飞轮 -> 形成极高替换成本的护城河,极有可能在特定垂直行业催生“赢家通吃”的局面 [43][44][45] - 未来格局可能不是由一个巨大平台主导,而是由一系列在各自垂直领域内占据垄断地位的“小 Palantir”构成 [45]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 在强化学习训练大模型推理能力时,仅20%的高熵token就能支撑整个训练效果,甚至优于使用全部token训练 [1] - 该方法在Qwen3-32B上创造了新的SOTA记录:AIME'24达到63.5分,AIME'25达到56.7分,是600B参数以下直接从base模型训练的最高分 [2] - 最大响应长度从20k延长到29k,AIME'24分数提升至68.1分 [4] - 该方法突破了经典的二八法则,80%低熵token不仅可以舍弃,还可能起副作用 [6] 链式思考的熵分布 - 大模型进行链式思考推理时,token熵分布呈现独特模式:大部分token熵值低,少数token表现出高熵特征 [9] - 超过50%的token熵值低于0.01,仅20%的token熵值大于0.672 [10] - 高熵token扮演"逻辑连接器"角色,如"wait"、"however"、"thus"等,在推理中起转折、递进或因果连接作用 [11] - 低熵token多为词缀、代码片段或数学表达式组成部分,具有高度确定性 [11] 分叉token的重要性 - 高熵token被称为分叉token,决定推理路径方向,低熵token则沿既定方向进行 [11] - 实验显示:提高高熵token温度能改善推理性能,降低其温度则导致性能下降 [13] - 仅保留top 20%高熵token的策略梯度,屏蔽剩余80%梯度,Qwen3-32B性能显著提升:AIME'24提升7.71分,AIME'25提升11.04分,平均响应长度增加1378个token [15] - Qwen3-14B和Qwen3-8B也有类似提升效果,但规模效应明显:模型越大,优势越显著 [16][22] 训练方法与效果 - 反向实验显示:仅用80%低熵token训练,模型性能急剧下降 [17] - 低熵token对推理能力提升贡献微乎其微,甚至可能起负面作用 [18] - 高熵token帮助模型探索不同推理路径,低熵token过于确定,限制探索能力 [20] - 该方法训练出的模型在域外任务表现优异,暗示高熵token与模型泛化能力密切相关 [22] RLVR训练特性 - RLVR训练并非推倒重来,而是在base model基础上做精细调整 [24] - 训练收敛后(第1360步),模型与base model在高熵token位置上的重叠率仍保持86.67%以上 [24] - RLVR调整策略"偏心":初始熵越高的token,训练后熵增幅越大;低熵token几乎不变 [25] 讨论与启示 - 高熵token可能是解释强化学习能泛化而监督微调倾向于记忆而过拟合的关键 [26] - 强化学习保持甚至增加分叉token熵,维持推理路径灵活性;监督微调则降低分叉token熵,失去灵活性 [27] - 大模型推理需整合先验知识且生成可读性输出,与传统强化学习假设动作熵均匀分布不同 [27] - 在RLVR中,熵奖励可能非最优选择,clip-higher方法能更有效提升高熵少数标记的熵值 [27]