Reinforcement Learning - 财报，业绩电话会，研报，新闻 - Reportify

Reinforcement Learning

搜索文档

The next ‘golden age’ of AI investment

Fortune· 2025-10-30 18:48

Good morning, tech reporter Beatrice Nolan here, filling in for Allie Garfinkle.Fortune just wrapped up its Global Forum in Riyadh, Saudi Arabia, which hosted business and finance leaders to discuss a range of business topics, including—unsurprisingly—the future of artificial intelligence. Speakers included major names such as Qualcomm’s Cristiano Amon, Bridgewater Associates’ Ray Dalio, and Citi’s Jane Fraser, with almost every conversation managing to work some aspect of how AI is reshaping industries.Wha ...

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Wildfire Defense

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Wildfire Defense

Cursor发布首个编程大模型！代码生成250tokens/秒，强化学习+MoE架构

量子位· 2025-10-30 09:06

产品发布与核心升级 - Cursor 2.0正式发布，并首次搭载了公司内部研发的大模型Composer [1][2] - 新模型Composer专为低延迟编码打造，能在30秒内完成大多数交互任务，比同行快400% [3][12] - 产品界面逻辑从“以文件为中心”切换为“以Agent为中心”，支持多个Agent同时运行、互不干扰 [6][7] 核心技术能力 - Composer模型基于强化学习训练，是一个大型MoE模型，训练过程在完整的Cursor环境中进行，使其能直接使用生产级工具 [21][22][25][26] - 模型生成代码的速度达到每秒250个tokens，比当前最快的推理模型快约两倍，比其他模型快四倍 [19][20] - 模型展现出涌现行为，能自动运行单元测试、修复代码格式错误，并可自主完成多步代码搜索与调试流程 [31] 新功能特性 - 新增原生浏览器工具，模型可以自己动手测试代码、调错、迭代，直到结果完全正确 [4] - 支持语音生成代码功能，用户无需敲键盘，可直接通过语音将思路转化为代码 [5] - 多Agent协作的基础架构建立在Composer的底层能力之上，允许让多个Agent同时尝试同一问题并择优采用 [32] 模型性能与评估 - 模型性能通过内部测试套件“Cursor Bench”评估，该系统根据真实开发者使用场景打造 [17] - 评估不仅关注代码正确性，还评估模型是否遵守抽象层次、风格规范和工程实践 [18] - 即便面对体量庞大、结构复杂的代码库，模型也能保持高水准的推理与理解能力 [13] 行业定位与战略 - 此次发布标志着公司从依赖GPT或Claude等外部模型，转向使用自研基座模型 [9][10][11] - 公司战略是发挥在应用端的产品优势，让模型直接在与用户相同的真实环境中运行，而非与头部基座模型直接竞争 [35][36]

Artificial Intelligence

Reinforcement Learning

Mixture of Experts (MoE)

Artificial Intelligence

Reinforcement Learning

Mixture of Experts (MoE)

单条演示即可抓取一切：北大团队突破通用抓取，适配所有灵巧手本体

36氪· 2025-10-29 16:55

技术框架与核心创新 - 提出DemoGrasp框架，通过单条成功抓取演示轨迹作为起点，将高维连续决策的多步马尔可夫决策过程重构为基于轨迹编辑的单步马尔可夫决策过程，显著提升学习效率[1][4] - 核心设计为“单条演示 + 单步强化学习”，用演示编辑任务替代从零开始的高维动作空间探索，将动作空间从输出所有关节指令简化为输出手腕和手指编辑参数[6][8] - 轨迹编辑包括手腕位姿编辑和手指关节编辑，通过统一变换手腕位点和对手指关节角施加增量，适配不同物体与姿态[4][11] 训练效率与性能 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练，使用单张RTX 4090显卡训练24小时即可收敛到超过90%的成功率[8] - 在权威数据集DexGraspNet上，视觉策略成功率达到92%，训练集到测试集的泛化差距仅为1%，并适应50厘米×50厘米范围的物体初始位置随机化[10] - 实验数据显示，在基于状态的设置下，DemoGrasp在训练集和测试集上的成功率分别达到95.2%和95.5%，在基于视觉的设置下分别达到92.2%和92.3%，均优于对比方法[13] 跨平台适配与泛化能力 - 框架无需调整训练超参数即可适配6种不同形态的机器人，包括五指、四指灵巧手、三指夹爪和平行夹爪，在175个物体上训练后，在多个未见物体数据集上达到84.6%的平均成功率[14] - 支持单目/双目、RGB/深度相机等多种相机观测，其中双目RGB相机组合效果最佳，能成功抓取小而薄的物体[12] - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略，并采用流匹配生成模型和域随机化技术，实现从仿真到真机的直接迁移[9][12] 真实环境应用效果 - 在真实机器人测试中，使用Franka机械臂和因时灵巧手成功抓取110个未见物体，常规大小物体分类成功率均超过90%[15] - 对于困难抓取任务，如扁平物体和小物体，策略成功率达到70%，其中工具类扁平物体成功率为60%，其他扁平物体为74.3%，小物体为76.7%[16] - 框架支持在杂乱多物体摆放场景下用语言指令引导抓取，真机单次抓取成功率达到84%，且对光照、背景和物体摆放的大幅变化具有鲁棒性[16]

Reinforcement Learning

Markov Decision Process

Reinforcement Learning

Markov Decision Process

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

机器之心· 2025-10-28 12:31

核心技术突破 - 提出名为CapRL的创新强化学习框架，首次成功将DeepSeek-R1的强化学习方法应用于图像描述生成这类开放视觉任务[2] - 创新性地以“实用性”重新定义了图像描述生成的奖励函数，解决了为高度主观任务设计客观可验证奖励的重大挑战[6] - 训练得到的CapRL-3B模型在描述生成水平上达到了与Qwen2.5-VL-72B模型相当的水平，是图像描述生成领域的一大进展[2] 技术方案细节 - 采用高效的两阶段解耦式训练框架，首先由大型视觉语言模型生成图像描述，然后让纯语言模型基于该描述回答视觉多选题，并将回答准确率作为客观奖励信号[10][13] - 新的奖励设计思路认为，高质量的描述应能让纯语言模型正确回答视觉问题，从而避免了使用LVLM-as-a-Judge带来的奖励欺骗问题[9][10] - 该方法显著提升了生成描述的准确性、细节覆盖度，并减少了幻觉现象，例如在图表描述任务中能更准确地提取和呈现数据[10] 性能评估结果 - 使用CapRL-3B标注图片产生的CapRL-5M数据集对LVLM进行预训练，在全部12项基准测试中均取得显著性能提升[12] - 在Prism框架下的评估显示，CapRL-3B的性能与72B模型相当，并在平均水平上超越基线模型8.4%[12] - 与其他预训练数据集相比，CapRL-1M在全部三个设置中均显著优于其他数据集，且当数据规模扩展至5M时，模型性能进一步得到提升[14] 行业影响与应用 - 该技术为GRPO策略应用于开放任务提供了重要思路，解决了传统监督微调方法依赖大量人工标注数据、成本高昂且泛化能力不足的问题[2][7] - 图像描述生成是视觉Transformer训练以及大型视觉语言模型预训练的重要训练语料，该技术的突破对多模态AI发展具有重要意义[7] - 目前Huggingface上的模型和数据集总下载量已突破6k，并且正在迭代更强的基座模型以及升级训练方案[2]

Image Captioning

Reinforcement Learning

Multi-modal LLMs

Image Captioning

Reinforcement Learning

Multi-modal LLMs

DeepMind再登Nature：AI Agent造出了最强RL算法

36氪· 2025-10-28 08:35

论文链接：https://www.nature.com/articles/s41586-025-09761-x 这表明，未来用于构建高级 AI 的 RL 算法，可能不再需要人工设计，而是能够由智能体自身的经验自动发现。 Agent 「凭啥」自主发现 RL 算法？人工智能（AI）的主要目标之一，是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体（Agent）。智能体的训练离不开强化学习（RL），相关研究也已经持续了几十年，但让智能体自主开发高效的 RL 算法的目标始终难以实现。针对这一痛点，Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法。在大型实验中，DiscoRL 不仅在 Atari 基准测试中超越所有现有规则，更在未曾接触过的挑战性基准测试中超越人工设计，击败了多项主流 RL 算法。相关研究论文已发表在权威科学期刊 Nature 上。据论文描述，他们的发现方法涉及两种优化：智能体优化与元优化。智能体参数通过更新其策略和预测来优化，使其趋向于 RL 规则生成的目标。同时，通过更新 RL 规则的目标来优化其元参数， ...

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

拆电脑比装电脑还难？这只“手术级”机械手正在破解电子垃圾困局

机器人大讲堂· 2025-10-23 22:37

我们每天都会用到电脑、手机、平板等电子产品，但当它们老去、报废时，往往就成了堆积如山的电子垃圾。如何让这些被丢弃的设备重新回到循环体系，变成可以再利用的资源？这背后，其实隐藏着一个不那么容易的技术挑战 ——拆解。报废电子产品（ End of Life，简称EOL）的拆解是循环经济的重要一环。看似简单的拆卸，其实比装配更复杂。不同厂商的产品结构差异极大，螺丝、卡扣、插槽的位置都不一样，更别提设备在长期使用后常常会变形、老化。要让机器人像人一样灵活地"拆电脑"，并不是一件容易的事。 ▍体积小、自由度高，让机器人能"钻进机箱里干活" 工业机器人在生产线装配环节表现出色，但在拆卸端却鲜少应用，其主要原因在于，传统夹爪的灵活度不够高，无法适应复杂、封闭的内部空间。美国德克萨斯州大学城的一支研究团队注意到这个问题，并从手术机器人夹爪中获得启发，设计出一款专为电脑回收场景打造的电缆驱动机器人夹爪 ——DeGrip。 DeGrip的最大亮点，在于它同时实现了"小体积"和"高自由度"。传统商用夹爪一般为开放空间设计，结构粗壮、指距宽，不适合在机箱等密闭区域中操作。例如电脑主板上 RAM插槽间距常不足10毫米 ...

Circular Economy

Imitation Learning

Reinforcement Learning

Circular Economy

Imitation Learning

Reinforcement Learning

从几个代表性的工作分析强化学习和VLA是怎么结合的？挑战有哪些？

具身智能之心· 2025-10-22 11:04

点击下方卡片，关注" 具身智能之心 "公众号作者丨 CyberSoma 编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。强化学习和 VLA 的结合，简单来说就是让机器人既能看懂画面、听懂指令，又能通过不断尝试调整动作，变得更聪明灵活。像机器人在学拧瓶盖时，VLA 模型可以先帮它理解要抓住瓶子、旋转盖子等步骤，再用强化学习根据实际操作的反馈（抓得过紧或太松）来优化动作细节。具体结合方式： 1. 用 VLA 模型强化学习的方向 VLA 模型能把视觉和语言信息转化为任务目标，告诉机器人：把红色杯子放到蓝色托盘上。强化学习则根据这个目标，在环境中尝试不同动作，比如调整机械臂的角度、力度。就像老师先给学生讲题思路，学生再自己练习解题，遇到问题再调整方法。 GRAPE 框架通过 VLM 把复杂任务拆分成多个阶段（拿起杯子、移动到托盘），每个阶段设定关键空间点，再用强化学习优化每个阶段的动作，让机器人在没见过的环境中也能完成任务，成功率比传统 ...

Visual - Language - Action (VLA)

Reinforcement Learning

GRAPE framework

VLA - RL framework

Visual - Language - Action (VLA)

Reinforcement Learning

GRAPE framework

VLA - RL framework

自动驾驶论文速递！VLA、世界模型、强化学习、轨迹规划等......

自动驾驶之心· 2025-10-18 12:00

DriveVLA-W0：世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式，通过世界建模预测未来图像提供密集自监督信号，解决VLA模型“监督不足”瓶颈，增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS，推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家，将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应，VQ模型ADE降低28.8%，ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%，单摄像头优于多传感器竞品[6][9] CoIRL-AD：协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD，将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%，在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟，将强化学习融入端到端自动驾驶框架，无需依赖外部模拟器[15] - 设计基于竞争的学习机制，实现IL与RL的联合训练与结构化互动，避免梯度冲突[15] PAGS：优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架，通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63，SSIM 0.933，渲染速度353 FPS，训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量，简化非关键场景元素，保留安全关键目标细粒度细节[27] - 模型尺寸530 MB，显存占用6.1 GB，优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner：流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术，在nuPlan Val14基准测试中达到90.43分，是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术，将轨迹分解为含重叠区域片段，解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构，通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff：草图驱动3D语义场景生成 - 提出CymbaDiff模型，结合圆柱Mamba结构与空间扩散机制，实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74，比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型，显式编码圆柱连续性与垂直层级，提升空间连贯性[47] DriveCritic：VLM自动驾驶评估框架 - 提出DriveCritic框架，利用视觉语言模型进行上下文感知的自动驾驶评估，在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集，从NAVSIM采样5730个轨迹对，标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练，使模型具备跨视觉符号上下文的轨迹判优能力[57][58]

Reinforcement Learning

3D Reconstruction

Trajectory Planning

Autonomous Driving

Autonomous Driving

Reinforcement Learning

3D Reconstruction

Trajectory Planning

Autonomous Driving

Autonomous Driving

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

量子位· 2025-10-15 18:20

文章核心观点 - 在大语言模型的结果监督强化学习中，传统的重要性采样机制存在权重错配问题，导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法，通过不对称翻转正样本的重要性采样权重，有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升，训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中，重要性采样不仅未带来分布修正好处，反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后，模型最终准确率无差异，但训练曲线更平滑稳定，熵值下降速度放缓，重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token，导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数，使低概率token获得更强更新，高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值，限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比，增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中，ASPO-Math-1.5B模型平均得分达59.3，优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上，ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩，显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显：数学任务平均性能提升12.5%，代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定，无显著熵坍塌现象 [26][27] - 模型输出重复率更低，KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓，避免了传统算法中的熵坍缩问题 [27]

Importance Sampling

Reinforcement Learning

Large Language Model

Artificial Intelligence

ASPO (Asymmetric Importance Sampling Policy Optimization)

Importance Sampling

Reinforcement Learning

Large Language Model

Artificial Intelligence

ASPO (Asymmetric Importance Sampling Policy Optimization)

开源编程模型王座易主了，谁能想到新SOTA是快手

量子位· 2025-10-11 14:04

模型性能表现 - 快手的KAT-Dev-72B-Exp模型在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一 [1] - KAT-Coder模型在SWE-Bench认证榜单上击败了GPT-5（非Codex模式）和Claude 4 Sonnet [4] - KAT-Coder能够复刻完整游戏《水果忍者》，包含计分和生命值系统 [6] 技术能力展示 - 模型支持生成交互特效，如赛博朋克时钟具备立方体爆炸、霓虹灯和粒子效果 [9][10] - 擅长通过代码实现物理规律可视化，例如制作太阳系运行模拟的3D动画并支持立体旋转视角 [12][13] - 可模拟60层高圆形塔楼在重力与冲击波作用下的爆破倒塌过程，遵循真实物理规律 [15] 模型训练方法 - 训练过程包括中期训练、监督微调（SFT）与强化微调（RFT）以及大规模的Agentic强化学习 [17] - 中期训练第一阶段增强模型推理、指令遵循等综合能力，第二阶段通过人类工程师标注数据增强需求交付能力 [18] - 强化学习阶段专注于问题描述、可执行环境和可验证测试用例三个关键组件 [21] 训练数据与框架 - 从开源及内部代码库收集Pull Request和Issue，并过滤低质量数据，同时融入数学和推理任务丰富信号多样性 [22] - 使用自研工业级强化学习框架SeamlessFlow，通过数据平面架构解耦RL训练和智能体实现 [28][29][30] - SeamlessFlow框架在32张H800 GPU测试中，相比VERL框架实现吞吐量100%提升，训练时间减少62% [35] 训练优化与成效 - 强化学习后模型完成任务所需互动次数减少32%，并具备同时调用多个工具的能力 [25][26][27] - 引入Trie Packing机制并重写训练引擎，通过树形梯度修复权重使训练速度平均提升2.5倍 [37]

快手(HK:01024)

Artificial Intelligence

Reinforcement Learning

KAT-Dev-72B-Exp

Artificial Intelligence

Reinforcement Learning

KAT-Dev-72B-Exp