强化学习
搜索文档
对比学习视角,GRPO即DPO?
自动驾驶之心· 2025-10-19 00:03
文章核心观点 - 文章分享了作者在强化学习(RL)领域优化GRPO(Generalized Reinforcement Policy Optimization)算法的研究历程,重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下,极简化的采样策略(如2-GRPO)可能与传统认知相悖但依然有效,并将GRPO与DPO(Direct Preference Optimization)联系起来 [4][5] 研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满,旨在进行效率优化 [2] - 初始尝试方向为树状采样,希望借鉴TreePO的思路,通过预填充减少生成时间,但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子,存在不平衡问题,因此放弃 [2][3] - 第二次尝试基于投机采样思想,即采到正确样本就停止,但工程实现中引入过多CPU操作可能导致气泡,未能实现时间优化 [3] 方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率,并基于贝叶斯方法(Beta分布和Thompson采样)动态分配采样预算,实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现,在保持总采样量不变的情况下,将每个提示的采样次数从16降至8,性能几乎无差异 [4] - 进一步实验扩展到不同采样次数(32, 16, 8, 4)和模型规模(7B, 1.5B, deepseek-distill),均发现性能差异不大,挑战了常规认知 [4] - 受到与同行讨论启发,将GRPO与DPO及对比学习联系起来,提出了2-GRPO有效的理论依据,即其奖励归一化机制与对比学习原理相似 [5] 社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”,这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线,覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]
【红杉:AI至少是每年10万亿的机会】AI的五大趋势与人类的新分工
老徐抓AI趋势· 2025-10-18 21:24
AI市场定位与规模 - AI瞄准的是10万亿美元的全球劳动力市场而非6500亿美元的软件市场[2] - 当前AI自动化仅占服务业劳动力市场的0.2%若渗透率提升至10%-20%将创造数万亿美元新增市场[8] - SaaS市场规模从互联网初期的60亿美元增长至当前4000亿美元超越传统软件总规模软件整体市场达6500亿美元[5] AI对劳动力市场的颠覆性影响 - AI本质是替代人力生产力例如用年费5000美元的AI系统替代年薪4万美元的前台岗位[9] - AI工具能以600元年费实现人力效率5%的提升核心价值在于生产力替代而非软件工具属性[9] - 未来10人团队可支撑上市公司三五人可运营千万级收入业务公司规模因AI效率提升而缩减[12] AI革命的历史对标与发展阶段 - AI革命类比工业革命当前处于类似1760年蒸汽机阶段缺乏系统化生产流水线[10][12] - AI发展三阶段:1999年GPU为"蒸汽机"2016年DGX-1为"算力工厂"未来需"AI流水线工厂"实现规模化[11] - AI革命速度将远快于工业革命后者历时约150年而AI基础设施迭代显著加速[11] AI未来五大趋势 - 容忍AI不确定性以换取指数级效率提升核心是"错得起"而非完美[13] - 衡量标准从参数准确率转向直接商业结果如销售额提升与成本降低[13][17] - 强化学习使AI自主进化从依赖数据喂养转向实践学习[13] - AI从数字世界延伸至物理世界渗透制造业物流等实体产业重塑供应链[13] - 算力成为新生产力指标个人差距由调用的AI智能体规模决定[13] 算力需求与基础设施机遇 - 未来十年算力需求将增长1000至10000倍[14] - 芯片云计算数据中心等基础设施厂商将受益于算力爆发式增长[14] - 公司竞争维度从人力规模转向算力配置效率[13][14] AI落地挑战与协作模式 - 当前AI落地瓶颈在于缺乏标准化"流水线"系统化生产能力待突破[12] - 未来核心能力是人机协作效率管理者需转型为"AI CEO"或"AI CTO"[12] - 企业内部要求人力交付成果不得低于AI水平推动全面AI化转型[12]
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 17:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
机器之心· 2025-10-18 13:44
研究背景与问题 - 流策略因其建模多峰动作分布的能力和比扩散策略更简洁的优势,在机器人学习领域被广泛应用,并集成于先进的VLA模型中[4] - 使用数据高效的离线策略强化学习(如SAC)训练流策略时会出现训练崩溃,其根本原因在于流策略的K步采样推理导致反向传播深度等于K,引发了类似经典RNN的梯度爆炸或梯度消失问题[4] - 现有解决方案通过使用替代目标或策略蒸馏来规避此问题,但牺牲了流策略原有的强大表达能力,并未真正端到端地优化流策略本身[5] 核心方法与技术创新 - 提出将流策略视为一个残差循环神经网络(Residual RNN),其K步采样过程等效于RNN的前向传播,从而将训练不稳定性问题转化为如何稳定训练RNN的问题[10][11] - 引入两种现代序列模型结构来参数化流策略的速度网络:Flow-G采用GRU风格的门控机制自适应调和“保留当前动作”与“写入新动作”,以抑制梯度放大;Flow-T采用Transformer解码器对“动作-时间token”进行仅基于状态的交叉注意力计算,在全局语境下细化动作,同时通过限制自注意力不跨时间混合以保持流模型的马尔可夫性质[17][18] - 通过添加高斯噪声并进行配套漂移修正的方法,解决了SAC熵正则化因确定性K步采样无法直接给出可积密度的问题,使得SAC的Actor/Critic损失可以直接用流策略多步采样的对数似然来表示[15] 性能表现与实验结果 - 在MuJoCo环境的From-scratch训练中,SAC Flow-G和Flow-T均达到了SOTA的性能水平,展现出极高的数据效率[22][24] - 消融实验证实,所提方法能有效稳定梯度,防止梯度爆炸;直接使用SAC微调流策略(Naive SAC Flow)的梯度范数呈现爆炸趋势,而Flow-G和Flow-T的梯度范数保持平稳,其对应性能也显著更优[27][29] - 方法对采样步数K具有鲁棒性,在K=4、7、10的条件下均能稳定训练,其中Flow-T对采样深度的鲁棒性尤为突出[30] - 在稀疏奖励的高难度任务(如OGBench-Cube-Double)中,From-scratch训练不足,凸显了Offline-to-online训练的必要性;在OGBench的Cube-Triple/Quadruple等任务中,SAC Flow-T收敛更快,成功率领先或持平现有离线策略基线[34] 与现有工作的比较优势 - 相较于FQL/QC-FQL等需要先将流策略蒸馏为单步模型再进行强化学习的方法,SAC Flow无需蒸馏,完整保留了流模型的建模能力[33] - 相比FlowRL等使用Wasserstein约束替代目标的方法,SAC Flow直接端到端优化标准SAC损失,避免了目标与模型之间的错位问题[35] - 基于流策略的方法普遍比扩散策略基线(如DIME、QSM)收敛更快,而SAC Flow在此基础上进一步超越了FlowRL[34]
Andrej Karpathy 开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来
机器之心· 2025-10-18 13:44
AGI发展时间框架与当前局限 - AGI的实现仍需约十年时间,当前AI代理存在认知缺陷,包括缺乏多模态能力、无法进行计算机操作、缺乏持续学习能力等[10][11] - AI行业存在过于乐观的预测,将当前阶段称为"智能体的十年"更为准确,而非"智能体之年"[10] - 实现真正可工作的AI代理需要解决智能程度不足、持续学习、记忆能力等关键技术瓶颈[11] LLM认知缺陷与技术挑战 - 大语言模型存在严重认知缺陷,无法胜任复杂编程任务,特别是在处理非模板化、智力密集型代码时表现不佳[35][36] - 当前编码模型在理解自定义实现和代码风格方面存在局限,经常误解开发者的编程意图[36][37] - 模型倾向于过度依赖训练数据中的常见模式,难以适应创新性的代码架构和实现方式[38] 强化学习范式的问题 - 强化学习存在根本性缺陷,其通过最终结果反向加权整个过程的机制效率低下[45][46] - 人类并不使用类似强化学习的方式解决问题,而是通过更复杂的反思和回顾过程[45][46] - 基于过程的监督比基于结果的奖励更合理,但实现自动化信用分配面临技术挑战[48][49] 人类学习与AI学习的差异 - 人类学习通过信息操纵和思考实现知识获取,而LLM仅通过预测下一个token学习,缺乏深度思考机制[56] - 人类记忆能力有限反而有利于泛化学习,而LLM过度记忆训练数据可能阻碍认知能力发展[62][63] - 模型崩溃问题源于合成数据训练的局限性,需要保持足够的熵值来维持输出多样性[57][64] AI对经济增长的影响 - AGI将逐步融入经济增长,预计每年带来约2%的GDP增量,但不会以爆发式方式实现[75][76] - AI自动化将首先应用于适合数字化的领域,如呼叫中心等结构化任务,而非复杂的知识工作[78][79] - 编程是AI应用的理想起点,因为代码本质上是结构化的文本,与LLM的技术特性高度匹配[82][83] 技术发展趋势预测 - Transformer架构可能继续演进,但梯度下降训练大型神经网络的基本范式将保持不变[29][30] - 未来技术进步需要算法、数据、硬件等多方面协同改进,而非单一领域的突破[30][74] - 认知核心参数规模可能优化至十亿级别,通过知识蒸馏去除过度记忆,保留核心推理能力[67][70] 实际应用部署路径 - AI部署将采用渐进式自动化策略,人类作为监督者管理多个AI代理,而非完全取代人工[79][80] - 当前AI在经济价值创造上主要集中在编程领域,其他知识工作的自动化进展相对缓慢[82][84] - 超级智能应被视为社会自动化的自然延伸,是计算趋势发展的结果,而非突变式突破[86]
VLA可以赋于强化学习更智能的场景应用......
具身智能之心· 2025-10-17 12:01
强化学习在机器人领域的应用 - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效顺畅 [4][9] 论文辅导课程核心信息 - 课程目标为帮助学员产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊要求的论文初稿,涵盖论文IDEA确认、项目实现、实验指导、写作润色全流程 [8][10] - 课程周期为14周核心在线集中辅导加8周维护答疑,采用6人小班制,配备专属助教 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、VLA+RL四个大方向的可创新研究idea,每个题目均配备场景与基线代码 [19][30] 课程内容与产出 - 课程基于最新的Isaac Lab等仿真训练环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并涵盖sim2real/real2sim2real完整技术流程 [18][19][23] - 学员将完成从强化学习基础、仿真环境搭建到具体机器人任务训练(如复杂地形行走、灵巧操作)的系列实战,最终交付论文初稿v1.0及定量分析报告 [23][24][29] - 课程评测标准包括成功率、能耗、步态、接触冲击、鲁棒性等指标,并要求进行不少于5次随机种子的统计显著性检验流程 [19] 师资与特色 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [27] - 课程特色为科研全闭环陪跑,包括每周里程碑、组会、代码/实验复盘、写作修改建议,结营后提供8周论文维护支持(补实验、改图、润色与审稿回复) [18][25][36]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 08:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心· 2025-10-16 07:33
自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]
波士顿动力狗gogo回来了,“五条腿”协同发力
36氪· 2025-10-15 21:02
核心技术方法 - 采用结合采样与学习的动态全身操作方法,将强化学习与基于采样的控制相结合,使机器人能够执行需要手臂、双腿和躯干协同配合的动态力交互任务[1] - 研究采用分层控制方法,将控制问题划分为两个互补且同步的层级:低层基于强化学习的运动策略直接控制电机力矩,高层根据任务类型采用基于采样的控制或强化学习[2] - 在采样控制中,系统通过并行模拟多个未来情境来寻找最优操作策略,对于需要精确施力的任务会运行32个并行CPU线程,每个线程模拟未来几秒内的不同动作序列[3] - 与直接采样原始轨迹不同,研究在样条曲线空间中进行采样,能生成更平滑、更自然的运动轨迹,同时降低搜索空间的维度[5] 任务执行表现 - 机器狗Spot在轮胎扶正任务中最佳成绩为3.7秒,平均每个轮胎用时5.9秒,几乎达到人类在该任务中的操作速度[11] - 机器狗能够高效搬运重达15千克的轮胎,远超其夹持器的峰值举升能力(11千克)和持续能力(5千克),通过动态协调全身动作拓展了操作范围[13] - 在轮胎滚动任务中,利用强化学习来应对难以精确建模的复杂摩擦与接触动力学,使机器人能够动态调整躯干与手臂位置以稳定控制滚动的轮胎[7][10] 技术优势与创新 - 该方法克服了传统操作策略在不同机器人形态学结构上的迁移限制,实现了机器狗四肢与全身的协调动力学操作[1] - 系统未预设任何固定的操作模式,多肢体、多接触的行为是在采样过程中优化自然涌现的结果,而非通过显式编程设定[5] - 分层控制架构使得高层控制器能够专注于任务完成,无需显式地推理平衡约束或地面接触,显著简化了控制问题[14][15] - 训练过程中引入了随机化,包括对物体的质量、摩擦系数与形状等属性进行随机变化,以解决从仿真到现实的差距[10]
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
机器之心· 2025-10-15 15:33
大语言模型的技术路径争议 - 强化学习之父Rich Sutton认为大语言模型是死胡同,不符合《苦涩的教训》精神,因其无法从持续实际互动中学习[1][3] - Sutton主张智能应来自强化学习与环境的持续交互,奖励函数包含内在动机如好奇心,学习应是默认持续过程而非一次性训练[3] - 当前大语言模型依赖大规模预训练和人为监督微调,Sutton指出监督微调在自然界不存在,预训练方法被人类偏见污染[3] 强化学习实现的根本挑战 - 纯粹强化学习极难实现,因无法定义通用奖励函数,实践常退回模仿学习[7] - 理想系统应像松鼠被置于新环境后自主学习,而当前系统无法在未见过的场景中学习新事物[8] - 强化学习应是利用与探索的结合,但当前模型设计走向极端,仅在有限经验基础上进行纯粹利用[11] 大语言模型的设计缺陷与数据问题 - 模型依赖写作数据而非思维模式数据,但写作时的思考方式与现实世界不同,导致数据采样分布偏差[12] - 自回归机制更像神经网络的顺序展开路径,而非可随时间微调的目标函数,限制真正理解能力[11] - 模型缺乏强制探索行动与结果关系的机制,难以构建良好世界模型,仅在明确行动空间如围棋中表现较好[20] 技术路径的可行性质疑 - Sutton指出大语言模型的极端主张缺乏非凡证据,仅通过观察人类行为样本难以涌现真正推理能力[23] - 大语言模型可能无法兑现宏伟愿景,若15年内未实现价值,考虑到数百上千亿美元投入,可能引发市场崩溃或泡沫破裂[23] - 模型过度依赖人类知识和互联网数据,存在可扩展性边界,终将陷入过度依赖专家微调的困境[24] 行业发展的路径依赖与重构需求 - 行业陷入修补式迭代恶性循环,工程师优先修复而非系统重构,导致系统日益脆弱和过拟合[28] - 当模型遇到瓶颈时,市场商业化浪潮绑架既定路径,直到集体意识必须重构新系统[28] - 大语言模型领域已显现转变,从单纯依赖算力扩展正转向更注重推理能力的方法链和强化学习环境探索[28] 模型实际能力与公众期望的错位 - 需要区分模型被认为能做的事和实际能做的事,公众推断可能误导,但模型现有能力本身具有难以置信的价值和用途[32][33] - 纯粹模仿已产生非凡特性和涌现能力,这是重要学术问题,尽管不会达到真正智能,仍能找到很好用途[34] - 公共讨论应聚焦已发生的奇迹,而非过度期待智能水平,类似互联网泡沫期某些公司的期望过头现象[33][34]