Workflow
强化学习(RL)
icon
搜索文档
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 12:09
文章核心观点 - VLA(视觉-语言-动作)领域在ICLR 2026会议上呈现爆发式增长,相关投稿量从去年的个位数飙升至164篇,增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力,是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣,但需明确VLA定义并关注其与LBM(大型行为模型)的区别,同时主流评测存在“性能天花板”问题,模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干,以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”,而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM,但LBM不一定是VLA,这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一:高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二:具身思维链(ECoT)**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三:动作分词器**:核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇,新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四:强化学习(RL)**:作为VLA策略的微调利器,代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五:效率优化**:通过推理效率优化(如HyperVLA)和显存占用优化(如AutoQVLA)降低硬件门槛,使VLA研究走向平民化 [27][28][32] - **趋势六:视频预测**:利用视频生成模型对时序动态和物理规律的理解,赋予VLA物理直觉,例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七:更真实的评测基准**:社区正开发新评测方式以打破对现有测试集的过拟合,如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八:跨体态学习**:通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新,让模型能驱动不同结构的机器人,是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”,开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异,工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量(噪声、歧义、次优行为限制模型上限)和上下文学习机制向机器人领域的迁移 [49]
最新一篇长达76页的Agentic AI综述
自动驾驶之心· 2025-10-28 08:03
文章核心观点 - Agentic AI正经历从“外部流水线”到“模型原生”的范式迁移,其核心能力(规划、工具使用、记忆)正被内化到模型参数中 [1] - 驱动此范式转变的核心是“LLM + RL + Task”统一框架,通过强化学习将预训练、后训练与推理循环结合,使模型从被动组件转变为可从环境互动中学习的目标驱动体 [1][3] - 未来趋势不仅是更高的自治度,更是模型与环境的深度耦合与共生,标志着从“构建会用智力的系统”走向“通过经验自进化的智能” [1][44] 问题背景 - 当前生成式AI多为“反应式输出”,缺乏面向目标的长期推理与环境交互能力 [3] - 早期智能体系统采用流水线范式,将规划、工具使用、记忆三大核心能力放在外部编排中,导致系统脆弱且难以应对非预期情境 [3] - 新范式强调通过端到端训练将核心能力内化进模型参数,使LLM成为主动决策者,其核心驱动力是大规模强化学习在LLM训练中的应用 [3] 面向LLM的RL - 必须使用结果驱动的RL将规划等能力从提示诱导转为参数内化,以解决程序化数据稀缺和分布外脆弱性问题 [6] - 相比监督微调,RL具备动态探索式采样与相对价值学习两大优势,将模型从“被动模仿者”变为“主动探索者” [7][8] - 预训练LLM自带的世界知识与结构先验可实现先验引导的探索,提高样本效率,而语言接口将状态、动作、奖励统一到文本空间,使RL成为跨任务泛化的通用机制 [9][11] - 算法从早期RLHF演进至GRPO、DAPO等结果驱动RL,以提升长程训练稳定性与效率,形成基础模型提供先验、学习算法通过交互精炼能力的统一范式 [12] 核心能力:规划 - 流水线范式将规划视为自动化推理与行动序列搜索,存在传统符号规划可解释但重建模、提示工程对设计敏感且计算成本高等局限 [14][17] - 模型原生范式通过监督学习与强化学习将规划能力直接内化到参数中,摆脱外部搜索器/评估器,提升开放环境下的灵活性与稳健性 [15] - 实现了两次关键迁移:训练方式从SFT转向RL以缓解高质量过程数据稀缺问题;RL内部从“过程奖励”转向“结果奖励”并结合规则型奖励以稳定优化 [18] 核心能力:工具使用 - 早期系统将模型嵌入固定工作流节点,提示法则将决策逻辑写入提示,但存在计算开销大、依赖评估质量等问题 [21] - 模型原生迁移把工具使用的决策内化到参数中,形成模块化训练(只优化规划器)和端到端训练(统一学习计划与执行)两类路线 [21] - 当前挑战包括长动作序列中的信用分配问题,以及工具超时、返回不一致等环境噪声导致的训练不稳定,趋势是细化奖励(轨迹级转向步级)并在动态真实环境中训练以缩小仿真到现实差距 [22] 核心能力:记忆 - 记忆被视为“面向行动的证据治理”,流程包括写入/存储、管理/压缩、检索、利用四职能 [27] - 短期记忆方面,流水线范式通过滑动窗口、压缩摘要和RAG等技术处理,模型原生范式则通过位置编码外推、长序列合成和注意力优化将长上下文能力端到端化 [27][30] - 长期记忆载体分为外部库(混合索引、重排、去重)和模型参数(持续预训练/蒸馏、定点编辑与轻量注入),趋势是推动短期-长期记忆统一及检索与生成的联合训练 [30] 智能体应用发展路线 - Deep Research智能体充当“大脑”,擅长复杂推理和分析;GUI智能体充当“眼睛和手”,模拟人类与图形环境的交互 [3] - 多智能体协作研究涵盖从基于规则的系统到数据驱动的模型原生方法,代表性算法包括MAGRPO、RLCCF、MATPO等 [40] 未来方向 - 当前研究焦点集中于奖励建模、规划、工具使用、自动化验证/红队测试等领域 [41] - 最终发展轨迹是模型与环境更深入的综合,标志着从构建使用智能的系统到增长智能的系统的转变 [44]
SFT 还是RL,VLA到底应该如何训练?
具身智能之心· 2025-10-28 08:02
研究核心观点 - 聚焦两篇具身强化学习与视觉-语言-动作模型的前沿工作,旨在解决VLA模型泛化能力不足及RL与VLA联合训练效率低下的问题,提出了创新的评测基准与高效训练框架 [2][3][10][15] 第一篇论文研究总结 - 论文系统探讨了强化学习对VLA模型泛化能力的促进作用,针对监督微调导致的误差累积与分布偏移问题,构建了覆盖视觉、语义与执行三大维度的泛化能力评测基准 [2] - 实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与监督微调相当的视觉泛化表现 [2] - 研究发现PPO在VLA场景中整体优于源自大语言模型范式的DPO与GRPO方法,并基于此提出一套高效可复用的PPO训练方案,降低了大规模应用强化学习的门槛 [2] 第二篇论文研究总结 - RLinf-VLA是一个专用于VLA模型大规模强化学习训练的统一高效框架,针对仿训推一体化挑战提出全新解决方案,相比基线方法训练加速高达2.27倍 [3] - 框架通过统一接口无缝支持多种VLA架构、多种强化学习算法以及多种模拟器,其单一模型在130个LIBERO任务上达到了98.11%的成功率 [3] - 该框架还总结了一套将强化学习应用于VLA训练的最佳实践,具有重要的工程应用价值 [3] 研究团队与资源 - 研究团队核心成员来自清华大学交叉信息研究院,在强化学习与机器人学习领域拥有深厚的研究背景 [4][12][14] - 两篇研究论文及相关代码均已公开,便于行业参考与复现 [6][7]
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器
机器之心· 2025-10-25 11:20
VAGEN框架核心创新 - 针对VLM智能体在复杂视觉任务中表现鲁莽的问题,提出通过强化学习显式构建内部世界模型[2][3] - 核心思想是奖励结构化思考过程,强制智能体遵循"状态估计(观现状)+转移建模(预后路)"的思考模板[6][7] - 框架将智能体内部信念分为观测、推理、预测三个部分,形成完整思考循环[9][11] 技术实现方案 - 引入世界模型奖励机制,使用LLM-as-a-Judge在每一步思考后即时评估状态描述和预测的准确性[18][24] - 提出双层优势估计方法,先评估整个回合的总体价值,再精细分配至每个词元,解决传统Token-Level GAE的混乱问题[20][22][29] - 针对不同任务性质优化思考表示方法:通用任务适合自然语言,高精度操控任务需要结构化坐标格式[14][23] 性能表现结果 - 使用Qwen2 5-VL-3B基础模型训练的VAGEN-Full在5个多样化任务上综合得分达0 82,显著超越未经训练的同一模型(0 21)[26][27][30] - 在多项任务中超越闭源大型模型,包括GPT-5(0 75)、Gemini 2 5 Pro(0 67)和Claude 4 5(0 62)[28][30] - 训练成功率曲线显示VAGEN-Full在Sokoban、PrimitiveSkill等任务中学习速度更快、稳定性更强[33] 应用场景与意义 - 实验环境涵盖2D网格、3D导航、机械臂操控和SVG重建等多种视觉任务,展示广泛适用性[15] - 该框架证明通过强化世界模型推理可以构建更强大、鲁棒且具泛化能力的VLM智能体[32] - 为解决部分可观测环境下的智能体决策问题提供了新范式,使智能体从被动执行器转变为主动思考者[2][32]
RL 是新的 Fine-Tuning
海外独角兽· 2025-10-24 20:06
LoRA技术的重新评估与优势 - LoRA技术近期被重新重视,研究表明在特定条件下能以更少计算资源达到与全参数微调相当性能[2] - 使用LoRA后可在同一GPU部署上并行处理任意数量适配器,实现按Token定价而非按GPU时长计费,提升部署灵活性和成本效率[3][10] - 各大AI实验室内部进行后训练时普遍使用LoRA技术,尤其在快速验证想法的实验阶段被证明有效[14] 从模型微调向强化学习的行业转型 - 只有在必须使用小参数模型的情况下微调才有必要,约90%场景中微调的ROI不高[4][18] - OpenAI o1模型发布是行业转向RL的关键转折点,RL在前沿通用模型领域投入回报明显,尤其在智能体相关任务中效果突出[19] - 公司于2025年1月决定全面转向RL,虽然初始成功概率估计仅25%,但属于高风险高回报机会,目前胜算已提升至55-60%[20] 强化学习落地的核心挑战与环境搭建 - RL落地最大障碍是训练环境搭建,这是目前唯一尚未自动化、每个任务都需要大量人工工作的环节[4][24] - 高质量模拟环境构建难度极高,需要精确复刻生产环境行为包括故障模式和程序缺陷,大多数企业缺乏此类基础设施[24][25] - World Model可能是解决环境问题的关键,它能模拟外部世界反馈并记录操作引起的状态变化,有望成为环境搭建的解决方案[51][52] 奖励函数与评估机制的创新 - 公司发布通用奖励函数Ruler,基于GRPO核心理念让语言模型对一组结果进行相对评判,该方法与GRPO配合效果远超预期[46][47] - 实验显示使用140亿参数模型训练、320亿参数模型评估的智能体在目标任务上达到最先进水平,表明不需要特别强大的评估模型[47] - 专用评判模型在常见任务中难以超越前沿AI实验室的通用模型,除非针对特殊任务拥有足够多标注数据[50] 行业生态与商业模式演变 - 开源模型目前仅生成5%的Token且占比持续下降,但企业对开源模型需求巨大,若性能达标大多数企业更愿意选择开源模型[40][41] - 闭源模型通过Token补贴维持竞争力,例如Coding领域月费200美元可消费数千美元服务,但这种补贴模式长期不可持续[41][42] - 行业大量AI推理需求仍停留在概念验证阶段,估计潜在需求为已落地规模的十倍,约90%市场因可靠性问题尚未激活[55] 智能体部署与持续学习 - 未来所有大规模部署智能体的企业都将在某个阶段引入RL,要么在部署前训练,要么在部署后持续优化[4][21] - 生产环境部署智能体面临可靠性挑战,故障模式相似且难以通过提示词更新扩展解决,需要RL和持续学习机制[54][55] - Online RL中的奖励黑客问题可通过在奖励提示中补充约束轻松解决,模型一旦找到漏洞会反复执行同样行为易于发现[56][57]
港科大最新!超越人类示范:基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据
具身智能之心· 2025-10-23 12:00
文章核心观点 - 提出一种改进的扩散策略优化算法,用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据,以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上,仅使用扩散强化学习生成的数据训练VLA模型,平均成功率可达81.9%,相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案,为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程,其优势在于借助扩散模型的高表达能力探索复杂行为,并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强,也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架,可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估,基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点,相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]
RLINF-VLA:一种用于 VLA+RL 训练的统一高效框架
具身智能之心· 2025-10-22 14:02
文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架,旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口,可无缝支持多种VLA架构、RL算法与模拟器,显著提升了训练效率 [2] - 在仿真实验中,单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率,分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明,经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异,支持三种GPU分配模式:共置模式、分离模式和混合模式,用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器,特别提出了“混合分配 + 细粒度流水线”策略,通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势,训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法,启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上,目前支持OpenVLA(约70亿参数)和其扩展OpenVLA-OFT,后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill(擅长基于物理的操作任务)与LIBERO(侧重指令驱动任务)作为主要模拟器,二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境,并支持PPO和GRPO等多种强化学习算法 [13] 算法设计 优势函数与对数概率 - 框架支持“动作块”概念,即策略在每个时间步预测一段短期未来动作序列,并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度,不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型,并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上,为避免增加计算开销,框架让动作网络与评价网络共享大部分参数,仅在VLA模型上附加轻量级价值头 [19] - 实验表明,OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率,成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失,以均衡成功与失败轨迹在优化中的贡献,实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组,可提升GRPO训练稳定性,但其有效性具有任务依赖性 [20][46] 实验结果 高性能表现 - 在ManiSkill的25个任务上,无论是OpenVLA还是OpenVLA-OFT模型,强化学习均带来显著性能提升,成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO,且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型,整体平均成功率从约65.43%提升至98.11%,性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中,RLinf-VLA的混合模式(pipe=2)在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时,混合模式通过流水线重叠计算与通信,仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器,RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失,学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升,但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升,且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型,任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次,而SFT策略全部失败,显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术,初步验证了基于仿真的强化学习在泛化能力上的优势 [51]
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
量子位· 2025-10-20 11:46
模型演进与定位 - GPT-5可被视为o3模型的迭代版本,即o3.1,其思考过程与o3一脉相承[1][4][23] - o1模型是公司第一个正式的推理模型,更侧重于技术演示,擅长解决谜题而非作为实用产品[15][17][18] - o3模型代表了AI发展的结构性转变,是首个真正实用、能熟练使用工具并持久寻求答案的模型[19][20][22] - 公司未来的方向是构建能力更强、思考时间更长、能自主与多系统互动的模型,寻求下一个重大飞跃[4][24] 模型推理过程 - 模型的推理过程类似于人类思考,是寻找未知答案的过程,可能涉及计算、查找信息或自我学习[11] - 思维链是模型推理的具体表现,通过将模型的思维过程用人类语言口语化表述出来[12] - 模型在推理中花费的时间越长,结果往往会更好,但公司需在推理质量与用户等待时间之间寻求平衡[13][14] - 公司目前将高推理模型与低推理模型同时开放给用户,并将思考时长的选择权交还用户[14] 公司内部架构与文化 - 公司工作结构是自上而下与自下而上结合,整体专注于三到四个核心项目,研究人员在项目内享有自由[31][33] - 研究部门约600人,信息高度透明,公司认为研究受阻的风险远高于知识产权泄漏[33] - 公司能快速发布产品(一年内从o1到GPT-5)得益于良好的运营结构、巨大的发展势头及顶尖人才的高效产出[33] - 员工大量使用内部工具,例如ChatGPT和CodeX,有员工每月为ChatGPT支付200美元费用[9][34] 强化学习(RL)的战略意义 - 强化学习是公司多次转折的关键,语言模型是预训练和强化学习的结合,此为自2019年以来的研究核心[35][36] - 强化学习通过奖励和惩罚机制训练模型,关键在于策略(模型行为)和环境(交互式反馈)[37][38] - GPT-4最初在长回答中缺乏连贯性,是通过基于人类反馈的强化学习(RLHF)解决了该问题,从而创造了“ChatGPT时刻”[41][42][43] - 公司近期在编程竞赛中的优异表现,源于长期使用编程谜题作为测试平台来尝试强化学习想法[45][46] - 强化学习可应用于任何能评估结果并计算反馈信号的领域,但其规模化难度较高,过程精细复杂[47][48][49] 行业影响与外部贡献 - DeepSeek团队提出的GRPO(组相对策略优化)算法获得肯定,其开源推动了美国实验室更快地训练推理模型[7][51] 未来方向与AGI路径 - AI智能体化是大势所趋,由基础推理驱动的智能体允许模型长时间独立思考以解决编程、预订等复杂任务[53] - 模型对齐问题本质上是一个强化学习问题,旨在引导模型行为符合人类价值观,且该问题将随文明演进永无止境[54] - 通往AGI的道路上,预训练和强化学习二者缺一不可,公司反对“纯强化学习是唯一途径”的观点[56][57] - 公司相信目前走在正确的AGI道路上,未来的变化将是添加新的复杂组件,而非完全推翻现有架构[59]
过去一个月高强度RL的实践和思考 - 如何涨点?
自动驾驶之心· 2025-10-20 07:32
文章核心观点 - 强化学习在视觉语言模型上能带来显著性能提升,部分基准测试取得同规模模型1-2个点的整体涨幅,最高单项涨幅达8-10个点[2] - 强化学习的本质是提高采样效率,而非让基础模型学习新知识,其关键在于一套完整流程而非单一数据[7][8] - 实现有效强化学习需注重数据基础、算法选择和实验细节,通过做好多件小事而非追求单一突破来达成目标[2] 强化学习目标 - 在监督微调模型版本上取得1-2个点的整体性能提升[5] - 在特定基准测试上取得超过1-2点的涨幅,如数学、指令遵循、幻觉避免等领域[5] 强化学习整体思路 - 强化学习必须基于基础模型采样,使用其他模型回复作为好坏答案或试图用一份数据更新所有模型可能无法奏效[8] - 与监督微调后训练相比,监督微调最高可实现5-6个点的涨幅,而强化学习版本整体涨幅在1-2点左右[8] 视觉语言模型强化学习难点 - 算法层面需选择高效、上限高的强化学习算法,考验工程师判断能力[10] - 训练层面基础设施要求高,需对原始模型进行多次前向传播,训练效率挑战大[13] - 数据层面输入混合平衡要求高,不同任务数据比例需平衡,输出回复长度与算法相关度较高[13] 技术选型与实践 - 选择基础设施成本较低的DPO强化学习算法进行快速验证,该算法为离线策略算法[11] - DPO算法优点包括数据可离线生成、奖励评分可用多种模型实现、无需引入在线奖励模型[14] - DPO算法缺点在于训练后期数据无法反映模型效果,训练上限不如在线策略强化学习高[14] 数据组织策略 - 提示库构建需避免回复过短的提示,针对数学推理类任务构造能引导思维链回复的提示格式[15][19] - 数据混合需让不同任务数据比例平衡,实现所有指标同步提升而非有升有降[15] - 回复生成需满足差异较大且有明确对错的要求,确保接受和拒绝回复有明确好坏区分[16][20] 实验过程关键发现 - 直接使用真实答案作为接受回复或固定模型结果作为接受回复会导致训练快速饱和,无法提高采样效率[27] - 训练动态中奖励准确度不断增长往往意味着更好训练效果,但该值与基准测试无直接关联[28] - 回复过短会导致DPO训练崩溃,尽管准确度能直接反映正确比例,但训练效果会变差[28] 结论与展望 - 视觉语言模型强化学习在数据提示混合、数据生成和配对数据构建几个关键环节做对后一定能带来性能提升[24] - 后续将投入视觉语言模型的在线强化学习训练,面临更多未知挑战[24]
GPT-5 核心成员详解 RL:Pre-training 只有和 RL 结合才能走向 AGI
海外独角兽· 2025-10-18 20:03
文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径,两者相互依存,共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑,其本质是模型寻找未知答案的思考过程,而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法,实现了从技术展示到实用产品的跨越,并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础,为强化学习提供必要的知识基础,没有预训练,强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上,而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型,然后进行强化学习”的战略路线,并延续至今[17] - 强化学习被比喻为训练狗的过程,通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比,强化学习更为复杂和精细,涉及更多动态组件,大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”,这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力,本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径,从展示能力的o1模型,到真正有用的o3模型,再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动,公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品,研究人员常用编程问题测试新想法,使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后,对许多研究实验室产生了意外冲击,而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新,因为AI能力快速提升,几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目,而非进行大量分散的小赌注,以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考,与更多系统和信息源交互,以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练,但在与真实用户隔离的环境中进行,实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题,需要通过引导模型产生特定行为来实现,但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法,逐步淘汰旧元素,而非彻底推翻重来的转向[52]