Reinforcement Learning
搜索文档
RLinf上新πRL:在线强化学习微调π0和π0.5
机器之心· 2025-11-06 16:58
技术背景与挑战 - 基于流匹配的视觉语言动作模型,如Physical Intelligence发布的π0和π0.5,能生成高维平滑的连续动作序列,在复杂操控任务中具显著优势[2] - 此类模型训练严重依赖大规模高质量人类演示数据,数据收集与标注成本高昂且周期漫长[2] - 强化学习可通过与环境交互自行探索迭代,减少对大量数据的依赖并提升监督微调的性能上限[2] - 针对流匹配视觉语言动作模型的强化学习研究较少,核心挑战在于其通过迭代去噪生成动作,难以直接计算输出动作的对数似然,而这是策略梯度方法更新的关键[2] πRL框架核心创新 - 由清华、北大、CMU等机构联合推出,是面向流匹配视觉语言动作模型的在线强化学习微调框架,基于RLinf系统实现[3] - 提出Flow-Noise和Flow-SDE两种微调方案,解决流匹配视觉语言动作模型难以直接计算输出动作对数似然的问题[8] - Flow-Noise通过将去噪过程建模为离散马尔可夫过程,直接计算去噪序列的联合概率密度[10][13] - Flow-SDE将去噪与环境交互结合,构建双层马尔可夫决策过程,训练中混合使用确定性采样和随机探索以加速训练[10][11][20] - 策略在收集数据后统一采用PPO进行策略梯度优化[10] 实验性能与结果 - 在LIBERO测试平台,πRL使π0模型平均成功率从57.6%提升至97.6%,π0.5模型从77.1%提升至98.3%,超越全数据监督微调训练的流匹配视觉语言动作模型表现[3][19] - 在LIBERO-Long长时序任务上,πRL使π0.5单样本监督微调性能从43.9%大幅提升至94.0%[21] - 在ManiSkill构建的4,352种抓取-放置任务组合中,πRL将π0成功率从38.42%提升至78.83%,π0.5成功率从40.06%提升至90.85%[24][27] - 在12个域随机化测试环境中,πRL显著提升了两类模型在新环境下的泛化性能[26][27] - 强化学习使模型完成操作任务的平均步数显著减少,效率逼近专家数据水平[28] 技术细节与消融研究 - 探索了两种Actor-Critic架构:一种将Critic部署在动作模型之后,另一种直接将Critic接入视觉语言模型后[14][16][20] - 对于π0模型,Critic接动作模型隐藏层输出更适用;对于π0.5模型,Critic接视觉语言模型隐藏层输出更优[20] - 算法对比显示,使用流匹配视觉语言动作模型时,PPO在最终性能和训练稳定性上均优于GRPO[31] - Flow-Noise收敛略快,Flow-SDE单步更新更快且与去噪步数解耦,两者最终性能接近[35] - 可学习噪声与固定噪声两种策略在相同框架下性能类似,证明两类噪声注入均有效[35] - Critic接在视觉语言模型后略优于接在动作模型后,且更稳定[35] 资源与未来方向 - 全部代码、模型和文档示例已完全开源,资源包括论文链接、开源代码库、模型仓库及复现文档[5][6] - 未来计划接入更多仿真环境进行更丰富的基准测试,并针对强化学习带来的泛化增益展开深入分析[36]
The next ‘golden age’ of AI investment
Fortune· 2025-10-30 18:48
AI行业投资趋势 - 财富全球论坛在沙特阿拉伯利雅得举行,商业和金融领袖普遍讨论人工智能重塑各行业[1] - Andreessen Horowitz合伙人Anjney Midha指出,投资机会的新“黄金时代”将来自“新前沿团队的爆发”,而非仅限于少数几家实验室[2] - 新一代“推理模型”通过逐步推理问题、模仿逻辑和反思改变游戏规则,能更好地评估自身输出、分解复杂任务并从反馈中学习[3] - 强化学习新范式表现卓越,专注于特定行业、正确定义奖励模型的初创公司有望建立全新的价值数十亿美元的企业[4] - 尽管存在AI行业泡沫争论,但投资热潮并未降温[5] - 2025年前三季度,生成式AI应用初创公司获得超过736亿美元风险投资,使GenAI及更广泛AI生态系统总投资额达到1101.7亿美元,较去年预计翻倍以上,自2019年以来增长八倍[6] 主要AI模型提供商融资 - 大部分资金流向大型基础模型提供商,如OpenAI、Anthropic和Mistral AI,它们持续获得数十亿美元融资轮次和飙升的估值[7] - OpenAI今年早些时候400亿美元融资是单笔最大交易,Anthropic的130亿美元融资和Mistral的17亿欧元C轮融资凸显了少数主要参与者的主导地位[7] 网络安全与AI威胁 - 财富与Lightspeed Venture Partners联合发布Cyber 60榜单,评选网络安全领域最有前途的初创公司[8] - 今年榜单包含许多开发创新工具以防御AI威胁的新公司,同时部分现有领先公司已筹集更多资金并扩展客户群[8] 风险投资交易 - Fruitist超级水果零食品牌融资1.5亿美元,由摩根资产管理领投[11] - Frontline Wildfire Defense野火防御公司A轮融资4800万美元,由Norwest领投[11] - Recess非酒精饮料开发商B轮融资3000万美元,由CAVU Consumer Partners领投[12] - Reflectiz AI驱动网站安全公司B轮融资2200万美元,由Fulcrum Equity Partners领投[12] - Kaizen公共服务软件开发公司A轮融资2100万美元,由NEA领投[13] - Arya Health家庭健康及急性后护理提供商自动化平台A轮融资1820万美元,由ACME Capital领投[13] - Emerald AI数据中心AI驱动能耗平台种子扩展轮融资1800万美元,由Lowercarbon Capital领投,英伟达、Salesforce Ventures等参与[14] - Sweatpals线下健身平台融资1200万美元,由Patron、a16z speedrun和HartBeat Ventures领投[14] - Polygraf AI企业AI安全平台种子融资950万美元,由Allegis Capital领投[15] - CustoMED AI和3D打印外科工具平台种子融资600万美元,投资方包括Longevity Venture Partners等[15] - Human Health精准健康平台融资550万美元,投资方包括LocalGlobe、Airtree等[16] - Marleybones狗粮品牌融资250万英镑(约330万美元),由TAW Ventures领投[16] 私募股权交易 - Francisco Partners同意以22亿美元收购苹果设备管理安全公司Jamf并将其私有化[17] - Forward Consumer Partners同意从Hormel Foods收购坚果酱和糖果公司Justin's的多数股权[17] - GPT Industries收购加拿大变压器整流器制造商Integrated Rectifier Technologies[18] - Peak Toolworks收购工业工具和磨削公司Southern Carbide[19] - Uncommon Equity收购休闲餐饮连锁HopCat[19] 人事变动 - AE Industrial Partners聘请Chris Aguemon和Bill Strobel担任副总裁[20] - Earlybird Health晋升Rabab Nasrallah博士和Christoph Massner博士为合伙人[20] - Windjammer Capital聘请Evan Klebe担任董事总经理,Beth Lesniak担任Principal[21] - Wing VC聘请Sunil Potti担任风险合伙人,其此前任职于谷歌云安全部门[21]
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
量子位· 2025-10-30 09:06
产品发布与核心升级 - Cursor 2.0正式发布,并首次搭载了公司内部研发的大模型Composer [1][2] - 新模型Composer专为低延迟编码打造,能在30秒内完成大多数交互任务,比同行快400% [3][12] - 产品界面逻辑从“以文件为中心”切换为“以Agent为中心”,支持多个Agent同时运行、互不干扰 [6][7] 核心技术能力 - Composer模型基于强化学习训练,是一个大型MoE模型,训练过程在完整的Cursor环境中进行,使其能直接使用生产级工具 [21][22][25][26] - 模型生成代码的速度达到每秒250个tokens,比当前最快的推理模型快约两倍,比其他模型快四倍 [19][20] - 模型展现出涌现行为,能自动运行单元测试、修复代码格式错误,并可自主完成多步代码搜索与调试流程 [31] 新功能特性 - 新增原生浏览器工具,模型可以自己动手测试代码、调错、迭代,直到结果完全正确 [4] - 支持语音生成代码功能,用户无需敲键盘,可直接通过语音将思路转化为代码 [5] - 多Agent协作的基础架构建立在Composer的底层能力之上,允许让多个Agent同时尝试同一问题并择优采用 [32] 模型性能与评估 - 模型性能通过内部测试套件“Cursor Bench”评估,该系统根据真实开发者使用场景打造 [17] - 评估不仅关注代码正确性,还评估模型是否遵守抽象层次、风格规范和工程实践 [18] - 即便面对体量庞大、结构复杂的代码库,模型也能保持高水准的推理与理解能力 [13] 行业定位与战略 - 此次发布标志着公司从依赖GPT或Claude等外部模型,转向使用自研基座模型 [9][10][11] - 公司战略是发挥在应用端的产品优势,让模型直接在与用户相同的真实环境中运行,而非与头部基座模型直接竞争 [35][36]
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
36氪· 2025-10-29 16:55
技术框架与核心创新 - 提出DemoGrasp框架,通过单条成功抓取演示轨迹作为起点,将高维连续决策的多步马尔可夫决策过程重构为基于轨迹编辑的单步马尔可夫决策过程,显著提升学习效率[1][4] - 核心设计为“单条演示 + 单步强化学习”,用演示编辑任务替代从零开始的高维动作空间探索,将动作空间从输出所有关节指令简化为输出手腕和手指编辑参数[6][8] - 轨迹编辑包括手腕位姿编辑和手指关节编辑,通过统一变换手腕位点和对手指关节角施加增量,适配不同物体与姿态[4][11] 训练效率与性能 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,使用单张RTX 4090显卡训练24小时即可收敛到超过90%的成功率[8] - 在权威数据集DexGraspNet上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1%,并适应50厘米×50厘米范围的物体初始位置随机化[10] - 实验数据显示,在基于状态的设置下,DemoGrasp在训练集和测试集上的成功率分别达到95.2%和95.5%,在基于视觉的设置下分别达到92.2%和92.3%,均优于对比方法[13] 跨平台适配与泛化能力 - 框架无需调整训练超参数即可适配6种不同形态的机器人,包括五指、四指灵巧手、三指夹爪和平行夹爪,在175个物体上训练后,在多个未见物体数据集上达到84.6%的平均成功率[14] - 支持单目/双目、RGB/深度相机等多种相机观测,其中双目RGB相机组合效果最佳,能成功抓取小而薄的物体[12] - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,并采用流匹配生成模型和域随机化技术,实现从仿真到真机的直接迁移[9][12] 真实环境应用效果 - 在真实机器人测试中,使用Franka机械臂和因时灵巧手成功抓取110个未见物体,常规大小物体分类成功率均超过90%[15] - 对于困难抓取任务,如扁平物体和小物体,策略成功率达到70%,其中工具类扁平物体成功率为60%,其他扁平物体为74.3%,小物体为76.7%[16] - 框架支持在杂乱多物体摆放场景下用语言指令引导抓取,真机单次抓取成功率达到84%,且对光照、背景和物体摆放的大幅变化具有鲁棒性[16]
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B
机器之心· 2025-10-28 12:31
核心技术突破 - 提出名为CapRL的创新强化学习框架,首次成功将DeepSeek-R1的强化学习方法应用于图像描述生成这类开放视觉任务[2] - 创新性地以“实用性”重新定义了图像描述生成的奖励函数,解决了为高度主观任务设计客观可验证奖励的重大挑战[6] - 训练得到的CapRL-3B模型在描述生成水平上达到了与Qwen2.5-VL-72B模型相当的水平,是图像描述生成领域的一大进展[2] 技术方案细节 - 采用高效的两阶段解耦式训练框架,首先由大型视觉语言模型生成图像描述,然后让纯语言模型基于该描述回答视觉多选题,并将回答准确率作为客观奖励信号[10][13] - 新的奖励设计思路认为,高质量的描述应能让纯语言模型正确回答视觉问题,从而避免了使用LVLM-as-a-Judge带来的奖励欺骗问题[9][10] - 该方法显著提升了生成描述的准确性、细节覆盖度,并减少了幻觉现象,例如在图表描述任务中能更准确地提取和呈现数据[10] 性能评估结果 - 使用CapRL-3B标注图片产生的CapRL-5M数据集对LVLM进行预训练,在全部12项基准测试中均取得显著性能提升[12] - 在Prism框架下的评估显示,CapRL-3B的性能与72B模型相当,并在平均水平上超越基线模型8.4%[12] - 与其他预训练数据集相比,CapRL-1M在全部三个设置中均显著优于其他数据集,且当数据规模扩展至5M时,模型性能进一步得到提升[14] 行业影响与应用 - 该技术为GRPO策略应用于开放任务提供了重要思路,解决了传统监督微调方法依赖大量人工标注数据、成本高昂且泛化能力不足的问题[2][7] - 图像描述生成是视觉Transformer训练以及大型视觉语言模型预训练的重要训练语料,该技术的突破对多模态AI发展具有重要意义[7] - 目前Huggingface上的模型和数据集总下载量已突破6k,并且正在迭代更强的基座模型以及升级训练方案[2]
DeepMind再登Nature:AI Agent造出了最强RL算法
36氪· 2025-10-28 08:35
研究核心观点 - Google DeepMind团队提出名为DiscoRL的方法,使智能体能自主发现强化学习规则,无需人工设计[1] - 该方法通过多代智能体在不同环境中的交互经验来实现,相关论文已发表于《Nature》期刊[1] - 实验表明,自主发现的规则在多个基准测试中超越现有主流人工设计算法,预示未来RL算法可能由机器主导发现[2][18] 技术方法 - 方法涉及两种优化:智能体优化其策略和预测以趋向RL规则生成的目标,元优化则更新RL规则目标以最大化智能体累积奖励[3] - 智能体输出策略、观测预测、动作预测等结果,元网络为其生成学习目标,智能体据此更新自身[5] - 元优化让多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度并调整参数,智能体参数会定期重置以加速表现提升[6] 性能评估结果 - 在57款Atari游戏上元训练出的Disco57规则,其IQM得分达到13.86,超越了MuZero、Dreamer等所有现有强化学习规则[8] - Disco57在未接触过的16个ProcGen二维游戏上超越所有已发表方法,在Crafter基准有竞争力,在NetHack挑战赛获第三名且未用领域知识[9] - 基于103个环境发现的Disco103规则在Atari表现与Disco57相当,在Crafter达到人类水平,在Sokoban接近MuZero最先进性能[11] 效率与扩展性 - Disco57最优版本在每个Atari游戏约6亿步内被发现,相当于57个游戏进行3轮实验,比传统人工设计高效得多[14] - 随着训练环境数量与多样性增加,DiscoRL在未见过基准上的性能也随之提升,规则性能取决于数据与计算量[14][17] - 所发现的RL规则在实际运行效率上显著优于最先进的MuZero[8]
拆电脑比装电脑还难?这只“手术级”机械手正在破解电子垃圾困局
机器人大讲堂· 2025-10-23 22:37
文章核心观点 - 报废电子产品拆解是循环经济的重要环节,但面临技术挑战,传统工业机器人因灵活度不足难以胜任[1] - 新型电缆驱动机器人夹爪DeGrip通过小体积和高自由度设计,解决了在电脑机箱等密闭空间内的精细拆解难题[2][4][5] - 该技术已通过虚拟仿真和实体原型验证,为未来实现机器人自主拆解电子垃圾奠定了基础,有望推动循环经济发展[12][21][26][27] 机器人夹爪技术特点 - DeGrip夹爪提供三个自由度,由底座、腕部、两个钳口及相应关节组成,腕部可绕偏航轴旋转,钳口能绕俯仰轴运动[5] - 采用电缆驱动机制,将执行器置于远端,通过细线缆传递动力,使夹爪结构紧凑,能在狭小空间高效传动[6][7] - 设计带棘轮的分体式绞盘系统防止线缆松弛,通过电流反馈推算夹持力,实现无需力传感器的"软传感",提升安全性并降低机械复杂度[9] 虚拟仿真测试 - 基于NVIDIA Isaac Sim平台搭建虚拟EOL桌面电脑模型,模拟HP Z230工作站结构,包含RAM、SSD和HDD等典型部件[12] - 仿真任务要求夹爪从10毫米间距的RAM插槽中精准拔出芯片,穿过40毫米宽开口取出SSD,以及拆卸水平和垂直安装的HDD[14][16][18] - 模拟结果显示DeGrip能稳定完成所有操作,在密闭空间的操作灵活度明显优于传统夹具[20] 实体原型验证与未来方向 - 使用3D打印技术制造PLA材料夹具主体,搭配标准伺服电机,安装在Franka机械臂末端进行实体测试,结构稳固且响应灵敏[22][24] - 原型测试验证了电缆驱动结构的可靠性,并为后续智能学习系统积累了真实控制数据[24][25] - 下一步计划结合模仿学习和强化学习技术,让机器人在虚拟环境中学会自主拆解策略,并迁移到现实应用中[26]
从几个代表性的工作分析强化学习和VLA是怎么结合的?挑战有哪些?
具身智能之心· 2025-10-22 11:04
文章核心观点 - 强化学习与视觉-语言-动作模型的结合是提升机器人智能水平的关键技术路径 [2] - 该技术融合能显著提升机器人在复杂、未知环境中的任务成功率、安全性和操作效率 [4][7][10] - 多种创新框架通过不同方式实现RL与VLA的结合,解决了泛化、奖励设计、数据效率等核心挑战 [6][8][12][18][22][27] 技术结合方式与框架 - **VLA模型为强化学习提供方向指导**:VLA模型将视觉和语言信息转化为任务目标,强化学习则根据目标在环境中尝试并优化动作细节 [2][3] - **GRAPE框架通过偏好对齐增强泛化能力**:在轨迹层面对齐VLA,从成功和失败试验中隐式建模奖励,将复杂任务分解为独立阶段 [6] - **VLA-RL框架通过在线优化提升性能**:将操作过程建模为多轮对话,用强化学习在线优化预训练VLA模型,在40项任务中性能接近商用顶级模型 [8][9][10] - **ReWiND框架通过语言指令学习奖励函数**:从少量演示数据学习语言调节的奖励函数,仅通过语言指令就能适应新任务,真实世界性能提升5倍 [12][14] - **ConRFT框架通过一致性策略实现稳健微调**:结合离线与在线微调,在8项真实任务中平均成功率96.3%,比监督学习提升144% [15][18][26] - **Dual-Actor框架通过双智能体协作提升效率**:主智能体保障稳健性能,优化智能体进行潜空间适配,101分钟在线微调实现100%成功率 [20][22] - **VRAG-RL框架优化视觉信息检索推理**:通过视觉感知动作逐步聚焦关键信息,用强化学习优化检索和推理路径 [27][28] 性能提升数据 - GRAPE框架在域内和未见任务上成功率分别提高51.79%和58.20%,碰撞率降低37.44%,轨迹步长缩短11.15% [7] - VLA-RL使OpenVLA-7B模型性能比最强微调基准高出4.5% [10] - ReWiND在仿真中学习效率比基准方法高2倍,真实世界预训练策略提升5倍 [12][14] - ConRFT任务周期缩短1.9倍,在线微调时间仅需45-90分钟 [18][26] - Dual-Actor框架在多机器人训练时效率可提升高达2倍 [22] 技术挑战与解决方案 - **数据效率低**:使用预训练VLA模型作为起点,减少从头学习时间,Dual-Actor框架仅需在线微调即可完成高难度任务 [20][22] - **安全性风险**:引入安全机制和人类干预,ConRFT允许人类通过远程操作实时纠正机器人动作 [23][24][26] - **多模态融合困难**:设计高效多模态编码器,VRAG-RL通过视觉感知动作逐步聚焦关键信息 [27][28]
自动驾驶论文速递!VLA、世界模型、强化学习、轨迹规划等......
自动驾驶之心· 2025-10-18 12:00
DriveVLA-W0:世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式,通过世界建模预测未来图像提供密集自监督信号,解决VLA模型“监督不足”瓶颈,增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS,推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家,将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应,VQ模型ADE降低28.8%,ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%,单摄像头优于多传感器竞品[6][9] CoIRL-AD:协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟,将强化学习融入端到端自动驾驶框架,无需依赖外部模拟器[15] - 设计基于竞争的学习机制,实现IL与RL的联合训练与结构化互动,避免梯度冲突[15] PAGS:优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架,通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63,SSIM 0.933,渲染速度353 FPS,训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量,简化非关键场景元素,保留安全关键目标细粒度细节[27] - 模型尺寸530 MB,显存占用6.1 GB,优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner:流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分,是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术,将轨迹分解为含重叠区域片段,解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构,通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff:草图驱动3D语义场景生成 - 提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型,显式编码圆柱连续性与垂直层级,提升空间连贯性[47] DriveCritic:VLM自动驾驶评估框架 - 提出DriveCritic框架,利用视觉语言模型进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集,从NAVSIM采样5730个轨迹对,标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练,使模型具备跨视觉符号上下文的轨迹判优能力[57][58]
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
量子位· 2025-10-15 18:20
文章核心观点 - 在大语言模型的结果监督强化学习中,传统的重要性采样机制存在权重错配问题,导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法,通过不对称翻转正样本的重要性采样权重,有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升,训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中,重要性采样不仅未带来分布修正好处,反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后,模型最终准确率无差异,但训练曲线更平滑稳定,熵值下降速度放缓,重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token,导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数,使低概率token获得更强更新,高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值,限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比,增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中,ASPO-Math-1.5B模型平均得分达59.3,优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上,ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩,显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显:数学任务平均性能提升12.5%,代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定,无显著熵坍塌现象 [26][27] - 模型输出重复率更低,KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓,避免了传统算法中的熵坍缩问题 [27]