强化学习（RL） - 财报，业绩电话会，研报，新闻

强化学习（RL）

搜索文档

机器之心· 2025-11-30 09:30

强化学习后训练中的Rollout环节 - 2025年，强化学习已成为大语言模型后训练的核心技术路径，研究重心从预训练规模竞赛转向后训练能力深化[5][6] - 在RL后训练的“生成-评估-更新”流程中，Rollout环节是影响训练效率和效果的关键因素，也是计算消耗最大的环节[6] - 多项研究发现Rollout环节占据了RL后训练时间的绝大部分：港科大和阿里团队的分析发现其占70%，字节和上海交大的研究证明其占84%-91%[6] - Rollout在LLM语境下特指模型基于当前策略，从某个提示开始生成完整或部分回答序列的过程[7] - Rollout与推理共享自回归生成的核心技术逻辑，但目标不同：推理追求单次生成的准确性与效率，而Rollout旨在为训练提供多样化、有价值的轨迹样本[7] Rollout对训练效果的影响与质量重要性 - Rollout的轨迹质量直接决定RL训练的最终效果，劣质轨迹会导致模型陷入局部最优，优质轨迹则能激活模型的探索能力与推理潜力[8] - 阿里巴巴团队研究发现，在数学推理RL训练中，采用随机采样Rollout的模型，其轨迹与任务目标对齐度仅41%，即使训练步数达到优质轨迹组的2倍，在MATH数据集上的准确率仍低18%[8] - 蚂蚁团队在万亿参数模型的训练中发现，未经过滤的Rollout轨迹会导致梯度计算偏差指数级累积[8] Rollout的计算效率挑战与优化探索 - Rollout环节的计算效率困境，本质是“生成逻辑的串行特性”与“任务分布的长尾特性”之间的根本性矛盾[9] - “长尾延迟”指少量长请求占据多数耗时的分布失衡现象，这导致所有GPU需要等待最慢的请求，大量设备在等待期内处于空闲，产生计算资源“泡沫”[9] - 英伟达的研究者在2025年11月提出了BroRL范式，通过扩展Rollout规模的方式让该环节更具计算与数据效率，能在更短时间内完成更高质量的训练，且扩展上限更高[9] 行业动态与未来展望 - 2026年被提及为大模型可能实现未知“能力拐点”的关键年份，并探讨其能否实现可持续的业务增长[2] - 行业关注AI能否在2026年实现独立工作8小时，以及OpenAI内部开始强调“进入战时状态、不再是默认赢家”的竞争态势[2] - 企业优先的Anthropic被讨论是否会在OpenAI之前实现盈利[2] - Google和Meta投入的巨额资本支出能带来多少“非泡沫”的AI增长成为行业焦点[2] - OpenAI的Sam Altman认为“极速”比“廉价Token”更值钱，专家级用户愿为“毫秒级延迟”而非“低成本Token”买单[2] - “任务连贯性”正在取代“准确率”成为新的评价指标[2] - 在万物互联时代，OpenAI致力于打造一台“断网”也能使用的新计算机[2] - 有观点认为人类精心设计的智能体工作流，反而是阻碍模型智力涌现的最大绊脚石，“Let it figure it out”被视为顶级AI智能体的最终解决方案[2]