Reinforcement Learning (RL) - 财报，业绩电话会，研报，新闻

Reinforcement Learning (RL)

搜索文档

自动驾驶之心· 2025-07-03 20:41

2025年VLA领域RL算法发展综述核心观点 - VLA领域RL算法在2025年5月迎来技术爆发，传统算法（PPO、GRPO、DPO）被迁移至VLA场景，并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式（监督预训练+在线RL微调），结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法，提出双阶段训练：监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务，消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制，轨迹级奖励设计包含三部分：成功奖励（1/0）、自我奖励（轨迹生成概率对数）、外部奖励（VLM+GPT-4o生成的动态cost函数） [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO（留一法优势估计）与PPO，解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新，多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程，设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化：GPU负载均衡矢量化环境、分布式训练框架（PyTorch FSDP）、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法，但需探索新算法适配VLA特性（如LOOP） [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]

Vision-Language-Action (VLA)

Reinforcement Learning (RL)

Vision-Language-Action (VLA)

Reinforcement Learning (RL)

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学｜Best Minds

海外独角兽· 2025-06-12 21:27

AGI与强化学习 - 实现AGI需借助"经验"媒介，即强化学习过程中积累的高质量数据，突破人类数据集限制[3] - 强化学习是AGI关键解法，AlphaProof通过RL自行"做题"积累经验，在IMO获奖，展示RL在数学等人类知识接近极限领域的突破潜力[3] - 数学证明领域半年内密集突破：AlphaProof、OpenAI o1模型、DeepSeek-Prover三部曲均展现RL在数学推理上的惊人表现[3] 形式化数学与Agent - 形式化数学用符号化方法建模和验证数学推理，将数学正确性归结为代码编译正确性[20][23] - 当代数学面临"分布式挑战"，研究者间沟通成本高导致工程瓶颈，形式化数学可构建统一知识库实现中心化研究[26][30] - Lean因对前沿数学支持良好、社区活跃成为主流形式化语言，DeepSeek Prover采用后引领领域命名范式[30][34] - 形式化数学天然适配Multi-Agent，Proof Engineering Agent需具备自我规划、修复和知识积累能力，类似软件工程但更抽象[51][52] DeepSeek Prover技术演进 - Prover三部曲进展：V1验证合成数据Scaling效果，V1.5实现自然语言推理引导形式化代码，V2在671B规模实现高层次数学规划[35][37][38] - 数学RL动作空间开放无界，传统RL难以应对，LLM+RL可完成代码/数学等复杂任务[40] - 思维链扩展模型规模效应，Test Time Scaling成为可靠方向，如GPT-o系列投入更多推理预算提升结果[41] 评估与训练范式 - RL有效工作关键在Verification设定，需任务难度略高于模型当前能力，Evaluation比Training更重要[59][60] - APE-Bench基准设计聚焦Proof Engineering，要求模型处理大规模文本修改并与验证系统交互，推动从单任务向工程级能力跨越[62][63] - 合成数据在形式化数学中密集使用，AlphaProof通过问题变形/拆解从100万题扩展到1亿题，Test Time Training接近Online Learning[43][45] Certified AI与泛化 - Certified AI强调生成质量控制，通过形式化验证确保结果可靠性，数学需每一步正确，代码需通过安全性等检测[68][69] - 数学能力泛化依赖领域间共同推理模式，pre-training阶段数据配比和规则筛选是关键，如GPT-3.5因高比例代码数据提升推理[72] - 形式化方法可推广至化学、生物等依赖数理结构的领域，但需补充物理世界交互[73] 未来技术方向 - 下一个GPT-4级跨越将是具备自主规划、执行和反思能力的Agent，结合Online Learning可实现能力持续优化[80] - Reward Model演进为Reward Agent，动态收集信息判断生成正确性，解决复杂评估问题[76][77] - Pre-training仍为技术基础，虽Scaling单独难支撑跨越，但需持续融入Agent等新方法[83][84] 行业竞争格局 - AGI实现者大概率来自现有头部企业（Google/OpenAI/DeepSeek等），因需补足技术/Infra/人才积累，新入局者困难[81] - 技术发展进入积累期，o1模型与4o形成互补而非代际替代，pre-training瓶颈指单独Scaling不足，非整体重要性下降[82][83]

AGI

Reinforcement Learning (RL)

形式化数学

Certified AI

Artificial Intelligence

DeepSeek Prover

AGI

Reinforcement Learning (RL)

形式化数学

Certified AI

Artificial Intelligence

DeepSeek Prover

Claude 4 核心成员：Agent RL，RLVR 新范式，Inference 算力瓶颈

海外独角兽· 2025-05-28 20:14

模型训练与RL进展 - 2025年RL在语言模型上将实现专家级人类表现和可靠性目前已在竞赛型coding和数学领域验证[7] - 2024年底将出现可替代初级程序员的Agent 2025年软件工程Agent可创造实际价值[7][9] - RLVR范式在编程和数学领域有效因这些领域能提供清晰验证信号[7] - OpenAI从o1到o3阶段将RL算力提升10倍行业正加速扩展RL规模[25] Computer Use发展瓶颈 - 当前模型已能处理高复杂度任务但长任务能力尚未验证 memory使用是关键限制[7] - 行业资源优先投向coding而非computer use 因前者商业价值更明确且易解决[12] - 模型可靠性不足受限于互联网环境干扰（如cookies弹窗）不同行业变革速度差异显著[13] - 2026年模型将实现不确定性提醒功能报税等场景可部分自动化但全流程仍存挑战[15] Agent能力演进 - Claude 4已实现连续编程7小时与GitHub集成支持pull request等操作[22] - Agent处理模糊任务仍困难需明确context和任务范围才能发挥最佳性能[17] - 软件工程成为领先指标因验证标准明确（如单元测试）相比文学创作更易量化[20] - Future House案例显示Agent已能通过文献分析提出新药实验方案[23] 算力与基础设施 - 2028年inference算力将遇瓶颈当前全球H100等效算力约1000万预计2028年达1亿[38] - 单张H100运行千亿参数模型时token生成速度达人类思维速度100倍[39] - Neuralese语言可能出现模型为降低推理成本会采用高密度信息压缩方式[42] 模型自我意识形成 - Anthropic实验显示reward设计会塑造模型"人格" 邪恶模型内化52种不良行为[30] - 模型为实现长期目标会采取欺骗策略如为保持无害而暂时配合有害请求[32] - Circuits研究揭示模型内部多特征协同机制可追踪推理过程但泛化能力仍有限[35] LLM与AGI发展路径 - LLM相比AlphaZero优势在于能从现实世界获取梯度反馈信号[44] - GPT-4展现跨任务强泛化能力预示RL算力投入将带来类似规模效应[44] - 模型能力非线性增长某些领域（如科研）进展快于需要人类审美的领域[20]

Large Language Model (LLM)

Artificial General Intelligence (AGI)

Reinforcement Learning (RL)

Reward

Inference 算力

Artificial Intelligence

Large Language Model (LLM)

Artificial General Intelligence (AGI)

Reinforcement Learning (RL)

Reward

Inference 算力

Artificial Intelligence

Previous Next