Workflow
Reinforcement Learning
icon
搜索文档
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B
机器之心· 2025-10-28 12:31
核心技术突破 - 提出名为CapRL的创新强化学习框架,首次成功将DeepSeek-R1的强化学习方法应用于图像描述生成这类开放视觉任务[2] - 创新性地以“实用性”重新定义了图像描述生成的奖励函数,解决了为高度主观任务设计客观可验证奖励的重大挑战[6] - 训练得到的CapRL-3B模型在描述生成水平上达到了与Qwen2.5-VL-72B模型相当的水平,是图像描述生成领域的一大进展[2] 技术方案细节 - 采用高效的两阶段解耦式训练框架,首先由大型视觉语言模型生成图像描述,然后让纯语言模型基于该描述回答视觉多选题,并将回答准确率作为客观奖励信号[10][13] - 新的奖励设计思路认为,高质量的描述应能让纯语言模型正确回答视觉问题,从而避免了使用LVLM-as-a-Judge带来的奖励欺骗问题[9][10] - 该方法显著提升了生成描述的准确性、细节覆盖度,并减少了幻觉现象,例如在图表描述任务中能更准确地提取和呈现数据[10] 性能评估结果 - 使用CapRL-3B标注图片产生的CapRL-5M数据集对LVLM进行预训练,在全部12项基准测试中均取得显著性能提升[12] - 在Prism框架下的评估显示,CapRL-3B的性能与72B模型相当,并在平均水平上超越基线模型8.4%[12] - 与其他预训练数据集相比,CapRL-1M在全部三个设置中均显著优于其他数据集,且当数据规模扩展至5M时,模型性能进一步得到提升[14] 行业影响与应用 - 该技术为GRPO策略应用于开放任务提供了重要思路,解决了传统监督微调方法依赖大量人工标注数据、成本高昂且泛化能力不足的问题[2][7] - 图像描述生成是视觉Transformer训练以及大型视觉语言模型预训练的重要训练语料,该技术的突破对多模态AI发展具有重要意义[7] - 目前Huggingface上的模型和数据集总下载量已突破6k,并且正在迭代更强的基座模型以及升级训练方案[2]
DeepMind再登Nature:AI Agent造出了最强RL算法
36氪· 2025-10-28 08:35
研究核心观点 - Google DeepMind团队提出名为DiscoRL的方法,使智能体能自主发现强化学习规则,无需人工设计[1] - 该方法通过多代智能体在不同环境中的交互经验来实现,相关论文已发表于《Nature》期刊[1] - 实验表明,自主发现的规则在多个基准测试中超越现有主流人工设计算法,预示未来RL算法可能由机器主导发现[2][18] 技术方法 - 方法涉及两种优化:智能体优化其策略和预测以趋向RL规则生成的目标,元优化则更新RL规则目标以最大化智能体累积奖励[3] - 智能体输出策略、观测预测、动作预测等结果,元网络为其生成学习目标,智能体据此更新自身[5] - 元优化让多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度并调整参数,智能体参数会定期重置以加速表现提升[6] 性能评估结果 - 在57款Atari游戏上元训练出的Disco57规则,其IQM得分达到13.86,超越了MuZero、Dreamer等所有现有强化学习规则[8] - Disco57在未接触过的16个ProcGen二维游戏上超越所有已发表方法,在Crafter基准有竞争力,在NetHack挑战赛获第三名且未用领域知识[9] - 基于103个环境发现的Disco103规则在Atari表现与Disco57相当,在Crafter达到人类水平,在Sokoban接近MuZero最先进性能[11] 效率与扩展性 - Disco57最优版本在每个Atari游戏约6亿步内被发现,相当于57个游戏进行3轮实验,比传统人工设计高效得多[14] - 随着训练环境数量与多样性增加,DiscoRL在未见过基准上的性能也随之提升,规则性能取决于数据与计算量[14][17] - 所发现的RL规则在实际运行效率上显著优于最先进的MuZero[8]
拆电脑比装电脑还难?这只“手术级”机械手正在破解电子垃圾困局
机器人大讲堂· 2025-10-23 22:37
文章核心观点 - 报废电子产品拆解是循环经济的重要环节,但面临技术挑战,传统工业机器人因灵活度不足难以胜任[1] - 新型电缆驱动机器人夹爪DeGrip通过小体积和高自由度设计,解决了在电脑机箱等密闭空间内的精细拆解难题[2][4][5] - 该技术已通过虚拟仿真和实体原型验证,为未来实现机器人自主拆解电子垃圾奠定了基础,有望推动循环经济发展[12][21][26][27] 机器人夹爪技术特点 - DeGrip夹爪提供三个自由度,由底座、腕部、两个钳口及相应关节组成,腕部可绕偏航轴旋转,钳口能绕俯仰轴运动[5] - 采用电缆驱动机制,将执行器置于远端,通过细线缆传递动力,使夹爪结构紧凑,能在狭小空间高效传动[6][7] - 设计带棘轮的分体式绞盘系统防止线缆松弛,通过电流反馈推算夹持力,实现无需力传感器的"软传感",提升安全性并降低机械复杂度[9] 虚拟仿真测试 - 基于NVIDIA Isaac Sim平台搭建虚拟EOL桌面电脑模型,模拟HP Z230工作站结构,包含RAM、SSD和HDD等典型部件[12] - 仿真任务要求夹爪从10毫米间距的RAM插槽中精准拔出芯片,穿过40毫米宽开口取出SSD,以及拆卸水平和垂直安装的HDD[14][16][18] - 模拟结果显示DeGrip能稳定完成所有操作,在密闭空间的操作灵活度明显优于传统夹具[20] 实体原型验证与未来方向 - 使用3D打印技术制造PLA材料夹具主体,搭配标准伺服电机,安装在Franka机械臂末端进行实体测试,结构稳固且响应灵敏[22][24] - 原型测试验证了电缆驱动结构的可靠性,并为后续智能学习系统积累了真实控制数据[24][25] - 下一步计划结合模仿学习和强化学习技术,让机器人在虚拟环境中学会自主拆解策略,并迁移到现实应用中[26]
从几个代表性的工作分析强化学习和VLA是怎么结合的?挑战有哪些?
具身智能之心· 2025-10-22 11:04
文章核心观点 - 强化学习与视觉-语言-动作模型的结合是提升机器人智能水平的关键技术路径 [2] - 该技术融合能显著提升机器人在复杂、未知环境中的任务成功率、安全性和操作效率 [4][7][10] - 多种创新框架通过不同方式实现RL与VLA的结合,解决了泛化、奖励设计、数据效率等核心挑战 [6][8][12][18][22][27] 技术结合方式与框架 - **VLA模型为强化学习提供方向指导**:VLA模型将视觉和语言信息转化为任务目标,强化学习则根据目标在环境中尝试并优化动作细节 [2][3] - **GRAPE框架通过偏好对齐增强泛化能力**:在轨迹层面对齐VLA,从成功和失败试验中隐式建模奖励,将复杂任务分解为独立阶段 [6] - **VLA-RL框架通过在线优化提升性能**:将操作过程建模为多轮对话,用强化学习在线优化预训练VLA模型,在40项任务中性能接近商用顶级模型 [8][9][10] - **ReWiND框架通过语言指令学习奖励函数**:从少量演示数据学习语言调节的奖励函数,仅通过语言指令就能适应新任务,真实世界性能提升5倍 [12][14] - **ConRFT框架通过一致性策略实现稳健微调**:结合离线与在线微调,在8项真实任务中平均成功率96.3%,比监督学习提升144% [15][18][26] - **Dual-Actor框架通过双智能体协作提升效率**:主智能体保障稳健性能,优化智能体进行潜空间适配,101分钟在线微调实现100%成功率 [20][22] - **VRAG-RL框架优化视觉信息检索推理**:通过视觉感知动作逐步聚焦关键信息,用强化学习优化检索和推理路径 [27][28] 性能提升数据 - GRAPE框架在域内和未见任务上成功率分别提高51.79%和58.20%,碰撞率降低37.44%,轨迹步长缩短11.15% [7] - VLA-RL使OpenVLA-7B模型性能比最强微调基准高出4.5% [10] - ReWiND在仿真中学习效率比基准方法高2倍,真实世界预训练策略提升5倍 [12][14] - ConRFT任务周期缩短1.9倍,在线微调时间仅需45-90分钟 [18][26] - Dual-Actor框架在多机器人训练时效率可提升高达2倍 [22] 技术挑战与解决方案 - **数据效率低**:使用预训练VLA模型作为起点,减少从头学习时间,Dual-Actor框架仅需在线微调即可完成高难度任务 [20][22] - **安全性风险**:引入安全机制和人类干预,ConRFT允许人类通过远程操作实时纠正机器人动作 [23][24][26] - **多模态融合困难**:设计高效多模态编码器,VRAG-RL通过视觉感知动作逐步聚焦关键信息 [27][28]
自动驾驶论文速递!VLA、世界模型、强化学习、轨迹规划等......
自动驾驶之心· 2025-10-18 12:00
DriveVLA-W0:世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式,通过世界建模预测未来图像提供密集自监督信号,解决VLA模型“监督不足”瓶颈,增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS,推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家,将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应,VQ模型ADE降低28.8%,ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%,单摄像头优于多传感器竞品[6][9] CoIRL-AD:协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟,将强化学习融入端到端自动驾驶框架,无需依赖外部模拟器[15] - 设计基于竞争的学习机制,实现IL与RL的联合训练与结构化互动,避免梯度冲突[15] PAGS:优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架,通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63,SSIM 0.933,渲染速度353 FPS,训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量,简化非关键场景元素,保留安全关键目标细粒度细节[27] - 模型尺寸530 MB,显存占用6.1 GB,优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner:流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分,是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术,将轨迹分解为含重叠区域片段,解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构,通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff:草图驱动3D语义场景生成 - 提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型,显式编码圆柱连续性与垂直层级,提升空间连贯性[47] DriveCritic:VLM自动驾驶评估框架 - 提出DriveCritic框架,利用视觉语言模型进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集,从NAVSIM采样5730个轨迹对,标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练,使模型具备跨视觉符号上下文的轨迹判优能力[57][58]
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
量子位· 2025-10-15 18:20
文章核心观点 - 在大语言模型的结果监督强化学习中,传统的重要性采样机制存在权重错配问题,导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法,通过不对称翻转正样本的重要性采样权重,有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升,训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中,重要性采样不仅未带来分布修正好处,反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后,模型最终准确率无差异,但训练曲线更平滑稳定,熵值下降速度放缓,重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token,导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数,使低概率token获得更强更新,高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值,限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比,增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中,ASPO-Math-1.5B模型平均得分达59.3,优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上,ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩,显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显:数学任务平均性能提升12.5%,代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定,无显著熵坍塌现象 [26][27] - 模型输出重复率更低,KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓,避免了传统算法中的熵坍缩问题 [27]
开源编程模型王座易主了,谁能想到新SOTA是快手
量子位· 2025-10-11 14:04
模型性能表现 - 快手的KAT-Dev-72B-Exp模型在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一 [1] - KAT-Coder模型在SWE-Bench认证榜单上击败了GPT-5(非Codex模式)和Claude 4 Sonnet [4] - KAT-Coder能够复刻完整游戏《水果忍者》,包含计分和生命值系统 [6] 技术能力展示 - 模型支持生成交互特效,如赛博朋克时钟具备立方体爆炸、霓虹灯和粒子效果 [9][10] - 擅长通过代码实现物理规律可视化,例如制作太阳系运行模拟的3D动画并支持立体旋转视角 [12][13] - 可模拟60层高圆形塔楼在重力与冲击波作用下的爆破倒塌过程,遵循真实物理规律 [15] 模型训练方法 - 训练过程包括中期训练、监督微调(SFT)与强化微调(RFT)以及大规模的Agentic强化学习 [17] - 中期训练第一阶段增强模型推理、指令遵循等综合能力,第二阶段通过人类工程师标注数据增强需求交付能力 [18] - 强化学习阶段专注于问题描述、可执行环境和可验证测试用例三个关键组件 [21] 训练数据与框架 - 从开源及内部代码库收集Pull Request和Issue,并过滤低质量数据,同时融入数学和推理任务丰富信号多样性 [22] - 使用自研工业级强化学习框架SeamlessFlow,通过数据平面架构解耦RL训练和智能体实现 [28][29][30] - SeamlessFlow框架在32张H800 GPU测试中,相比VERL框架实现吞吐量100%提升,训练时间减少62% [35] 训练优化与成效 - 强化学习后模型完成任务所需互动次数减少32%,并具备同时调用多个工具的能力 [25][26][27] - 引入Trie Packing机制并重写训练引擎,通过树形梯度修复权重使训练速度平均提升2.5倍 [37]
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
具身智能之心· 2025-10-10 08:02
强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
CoreWeave Launches First Publicly Available Serverless Reinforcement Learning Capability to Build Reliable AI Agents
Businesswire· 2025-10-09 01:00
公司产品发布 - 公司CoreWeave推出名为Serverless RL的新产品,用于训练AI智能体[1] - 该产品是首个公开可用的完全托管式强化学习能力[1] - 产品特点包括可无缝扩展至数十个GPU,仅需一个Weights & Biases账户和API密钥即可开始使用[1] 产品优势与影响 - 该产品为开发者提供了更快的反馈循环和更低的入门门槛[1] - 此次发布标志着公司在AI基础设施服务领域的进一步拓展[1]
Z Event|SF Tech Week10.8硅谷线下会:为什么是现在?RL 的转折点与未来
Z Potentials· 2025-09-28 22:29
强化学习行业趋势 - 强化学习正从被视为小众研究方向转变为推动推理、决策智能与复杂场景交互的关键技术 [3] - 随着大语言模型发展接近瓶颈,强化学习已成为行业重要的突破口 [3] - 当前是强化学习跨界融合的关键时刻,学术界、产业界和创业公司共同推动该技术从研究走向落地 [3] 行业活动信息 - 活动将于10月8日晚上6:30在旧金山举行,主题为探讨强化学习的未来 [4] - 活动嘉宾阵容横跨学界、工业界和创业圈,包括UCSB助理教授、DeepMind研究负责人、Pokee AI CEO等业内专家 [6] - 参与者包括来自OpenAI、Anthropic、DeepMind、Meta等实验室的研究员和YC创业者 [10] - 活动由Z Potentials联合HatTrick Capital与Future Builderz共同呈现 [8] 参与机构背景 - HatTrick Capital是专注支持早期新一代技术创业者的硅谷基金,持续在AI领域投资 [9] - Future Builderz是连接研究者、创始人和投资人的国际化社区,推动前沿科技从学术走向产业落地 [9]