RLVR(基于可验证奖励的强化学习)
搜索文档
Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%
36氪· 2025-12-22 08:29
文章核心观点 - 2025年是人工智能发展历程中的“觉醒”之年,标志着大语言模型从模仿人类向追求真理的范式转移,其核心驱动力包括RLVR的崛起、Vibe Coding的流行以及关于AI本质的哲学思考[1][3] RLVR革命 - 传统的LLM训练流程包含预训练、监督微调和RLHF三个阶段,但RLHF存在“阿谀奉承”问题,导致模型倾向于生成看似正确但实际错误的答案[4][6] - 2025年兴起的RLVR范式引入第四阶段,其核心是使用可验证的客观结果作为奖励信号,例如用编译器验证代码、用答案验证数学题,从而训练模型进行真正的推理[7][11][12] - RLVR使模型能够通过自我博弈涌现出推理能力,它尝试生成成千上万条不同的推理路径,并由自动验证器进行筛选和强化[15][16][17][18] - 该范式引入了“测试时算力”这一新的扩展定律,模型能力不再在训练结束时定格,推理阶段通过增加“思考时间”可以显著提升表现[19][20][21][22] - 行业案例显示,仅靠纯粹的RLVR训练,模型也能从零开始衍生出强大的推理和自我反思能力,这意味着算力的价值从训练端向推理端转移[23] 哲学分野:动物与幽灵 - AI先驱Rich Sutton的“苦涩教训”认为,长期来看,能利用无限算力的通用方法终将胜出,他心目中的AGI是像动物一样具身、通过试错学习的连续智能体[27][28][29][31] - 然而,当前的大语言模型被描述为“幽灵”,它们无状态、没有持续的意识流,其智能是基于人类互联网文本的统计学蒸馏,是在扮演而非真正理解[32][33] - 目前的科研方向被认为是在召唤更强大的“幽灵”,这是一种位于“心智空间”不同坐标系的、全新的智能形态[35] - 这种智能是“参差”的,它在某些领域表现卓越,但在另一些简单任务上可能严重失误,这种特性源于训练数据分布不均和分词方式的先天缺陷[37][52] Vibe Coding - Vibe Coding代表编程范式的转变,开发者从编写代码细节转变为用自然语言描述意图,将逻辑和实现交由AI完成,人类主要负责审美和验收[40][44] - 行业实践案例显示,一个完整的Web应用项目可以在开发者不手写一行代码的情况下,通过自然语言指令与AI协作完成[41][44] - 2025年AI编程工具形成两大流派:以Cursor/Windsurf为代表的IDE增强派,将AI无缝集成到开发环境中辅助编码;以Claude Code为代表的终端Agent派,能够接受高级指令并自主执行复杂的开发任务[45] - 尽管Claude Code展现了Agent的雏形,但真正的“全自动工程师”尚未到来,当前的Agent在复杂架构任务上仍需人类把控方向[46] - 行业观点认为,Claude Code通过聚焦本地化开发体验,抓住了开发者的核心痛点[46] 范式转移 - 谷歌Gemini Nano Banana模型因其名称和特性引发了病毒式传播,它代表了文本生成、图像生成与世界知识在模型权重中交织的综合能力[47][49] - 一个深刻的行业观点是:文本是计算机偏好的格式,而非人类喜欢的格式,人类更倾向于通过视觉和空间维度接收信息[47][49] - 未来的LLM交互界面应超越文本,以图像、信息图、幻灯片、视频等人类偏好的格式进行输出,这被认为是继图形用户界面后的下一个重大计算范式[47][49] - 大语言模型正作为一种新型智能形态崭露头角,其能力分布不均,既在某些方面远超预期,又在另一些方面显得笨拙,但整体上极其有用[54] - 行业认为,即使以当前模型的能力,其应用潜力也远未被发掘出10%,该领域从概念上看仍感觉广阔无垠[55][56]
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
量子位· 2025-10-13 16:47
RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述
机器之心· 2025-10-01 07:49
文章核心观点 - 一篇由多所顶尖大学研究者完成的综述系统性回顾了强化学习在大语言模型全生命周期中的最新进展、挑战及未来方向 [2][3] - 强化学习技术显著提升了大语言模型的推理能力与对齐性能 尤其在理解人类意图、遵循指令和增强推理方面效果突出 [2] - 该综述提出了首个强化学习在LLMs全生命周期的分类总览图 涵盖了预训练、对齐、RLVR、数据集与基准测试、开源框架五大分支 [5][6] 强化学习在LLM生命周期中的应用 - 强化学习参与大语言模型的预训练、对齐及推理增强训练全过程 并通过测试基准进行验证 [5] - 预训练阶段应用包括Reinforcement Pre-Training、OctoThinker、Visual Pre-Training等方法 [6] - 对齐阶段涵盖RLHF和奖励建模、经典算法、新奖励模型设计等多种技术路线 [6] - 基于可验证奖励的强化学习是综述关注重点 系统梳理了自OpenAI-o1与DeepSeek-R1发布以来的应用研究 [7] RLVR技术架构与进展 - RLVR通过引入可自动验证的奖励机制 优化推理过程并增强模型对复杂任务的适应能力 [7] - 技术架构包含奖励模型、离线策略辅助、奖励过滤、采样与推理策略、智能体强化学习以及奖励更新层级 [8] - 算法进展包括混合学习策略、对抗/多智能体、树结构、视觉语言推理等多种先进方法 [6] - 多模态推理涵盖视频空间推理、具身推理、生成与纯视觉、专业领域任务等应用方向 [6] 数据集与评估基准 - 整理了大量现有用于强化学习微调的数据集与评估基准 为研究提供实践参考 [3][6] - 数学推理基准包括GSM8K、MATH、OlympiadBench等 [6] - 代码能力评估涵盖APPS、LiveCodeBench、SWE-bench等基准 [6] - 通用知识与STEM评估包含MMLU系列、GPQA、TheoremQA等多个权威测试集 [6] 开源工具与训练框架 - 总结了当前主流开源工具与训练框架 为研究人员提供清晰实践参考 [3][6] - 通用端到端框架包括VeRL、ColossalChat、DeepSpeed-Chat、TRL等 [6] - 专门训练库包含Nemo RL、FlashRL、ROLL等多个工具包 [6] - 这些资源整合对LLMs场景下探索RL的研究人员具有重要参考价值 [11] 技术挑战与未来发展 - 大规模RL训练对LLM来说仍是计算密集型且往往不稳定 系统可扩展性和训练稳定性存在挑战 [12] - 奖励设计和信用分配是应用难点 长时间推理过程中的奖励延迟问题给模型学习带来困难 [12] - 缺乏清晰理论框架分析RL在LLM训练中的泛化能力和稳定性 对有效性和风险理解不充分 [12] - 数据集和评估基准建设不足 缺乏统一标准化基准为强化学习微调方法比较验证带来困难 [12]