强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

梁文锋执笔的R1论文登上Nature封面！首次回应外界三大质疑

AI前线· 2025-09-18 10:28

核心突破与行业地位 - DeepSeek-R1成为首个通过完整同行评审并发表于《自然》封面的大语言模型标志着国产AI研究迈入世界舞台并填补行业空白 [2][3][8] - 模型通过纯强化学习机制自主形成推理能力无需依赖人工标注的思维链数据或提示工程显著降低对人工数据的依赖 [3][12] - 在Hugging Face平台下载量突破1090万次成为全球开源社区最受欢迎的推理模型之一 [3] 技术创新与训练方法 - 基于DeepSeek-V3 Base构建R1-Zero 通过多阶段训练结合监督微调和拒绝采样实现强推理性能与人类偏好对齐 [3] - 采用组相对策略优化技术模型通过自我评分和试错机制学习独立推理策略而非模仿人类示例 [13] - 训练成本仅29.4万美元基础模型开发成本约600万美元总成本远低于竞争对手数千万美元投入 [6] 数据安全与透明度改进 - 预训练数据完全来自互联网团队强调未有意进行蒸馏过程但承认可能包含GPT-4生成文本 [6][13] - 为避免基准测试污染清除数学数据中约600万条潜在污染样本并引入外部风险控制机制 [6] - 安全性表现优于Claude-3.7-Sonnet和GPT-4o等主流模型通过DeepSeek-V3实时审查 [6] 学术影响与行业评价 - 论文经过8位专家评审收到上百条意见最终审稿文件达64页为论文本身三倍长度 [9] - 该方法引发行业革命 2025年几乎所有大语言模型的强化学习研究均受R1启发 [13] - 在ScienceAgentBench科学任务中以23.53%准确率和1.87美元成本达到帕累托最优成为性能成本平衡最佳模型之一 [15] 争议回应与验证 - 团队回应OpenAI数据使用质疑称未直接使用其输出训练但基础模型可能吸收互联网现有AI生成内容 [13][14] - 外部专家认为反驳具有说服力其他实验室重复实验表明纯强化学习可实现高性能无需依赖OpenAI样本 [14] - 论文补充训练细节和技术说明减少拟人化描述增加数据类型和安全性披露 [9][13]

强化学习（RL）

大语言模型

Artificial Intelligence

DeepSeek-V3 Base

强化学习（RL）

大语言模型

Artificial Intelligence

DeepSeek-V3 Base

华人 AI 招聘 2 年 ARR 超 1000 万美金，Mercor 年化收入已 5 亿美金

投资实习所· 2025-09-16 13:38

行业趋势转变 - AI行业需求从通用型AI导师转向专业型AI导师涵盖STEM 金融医学安全等领域 [2] - 经济正转变为强化学习环境模拟器强化学习效率提升使智能体能攻克基准测试但需人类定义奖励函数实现自动化 [2] - 技术革命历史表明每次变革虽引发失业恐惧但最终催生新工作类别如训练AI Agent成为新兴职业 [6] Mercor公司增长 - Mercor年化收入从100万美金增至5亿美金仅用17个月增长速度持续加速 7月周环比增11% 8月增18% 9月增19% [2] - 平台每日向用户支付超过100万美金快速招聘软件工程师医生律师顾问银行家等各领域专家 [3] - 公司定位为AI招聘平台专注于为AI企业提供强化学习人才区别于其他聚焦匹配或面试工具的AI招聘产品 [14][15] 人类与AI协作模式 - 人类工作价值从变动成本转向固定成本例如教会AI模型报税可无限次应用知识而非重复支付单个任务 [6] - 模型评估需构建更丰富环境如模拟Google Drive工作空间复刻多应用脚手架评估现实世界行动可能性 [9] - 长周期任务和协作环境测试显示当智能体面对复杂挑战时人类贡献度再次提升证明人类数据持续价值 [11] 新兴职业与市场机会 - AI革命将创造新产业阶层负责塑造AI判断设计训练环境确保输出符合人类标准 [12][13] - 人类训练模型的市场规模取决于人类能完成而智能体无法胜任的任务量当前经济中此类任务仍大量存在 [11] - 行业进入"经验时代" 模型需通过真实世界优化奖励类似人类学习需反馈机制如考试评分和绩效评估 [13]

强化学习（RL）

强化学习（RL）

SimpleVLA-RL：突破 VLA 模型训练瓶颈，RL实现端到端在线训练

自动驾驶之心· 2025-09-15 11:56

以下文章来源于具身智能之心，作者Haozhan Li等具身智能之心 . 与世界交互，更进一步作者丨 Haozhan Li等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。点击下方卡片，关注" 具身智能之心 "公众号想让机器人灵活干活，视觉-语言-动作（VLA）模型是关键，但现在的训练方法太 "娇气" 了！靠监督微调（SFT）训练，不仅要海量人类操控轨迹数据（采集贵到离谱还难扩规模），遇到没见过的任务或环境，性能直接 "翻车"。好在大推理模型领域给了新灵感——强化学习（RL）光靠任务结果就能提升推理能力，那能不能用在 VLA 模型上？可难题也不少：传统机器人 RL 要手工调奖励，没法大规模用；VLA 还得和环境反复交互，比 LLM 生成文本麻烦多了。别慌，SimpleVLA-RL 框架来救场了！它基于 veRL 优化，专门适配 VLA 的轨迹采样、并行训练，效果直接拉满：在 LIBERO、RoboTwin 等基准测试里拿了 ...

视觉-语言-动作（VLA）模型

强化学习（RL）

推切（Pushcut）现象

SimpleVLA - RL框架

视觉-语言-动作（VLA）模型

强化学习（RL）

推切（Pushcut）现象

SimpleVLA - RL框架

正式开课！具身大脑和小脑算法与实战教程来啦

具身智能之心· 2025-09-15 08:04

具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 大脑和小脑构成具身机器人核心模块大脑负责思考感知（语义理解和任务规划）小脑负责执行（高精度的运动执行）[1] 产业发展动态 - 近2年具身明星团队陆续创业成立星海图、银河通用、逐际动力等公司推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设具身智能大脑、小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进路径 - 第一阶段聚焦抓取位姿检测通过点云或图像预测末端执行器姿态实现静态物体抓取但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段借助专家演示数据学习从感知到控制的端到端映射具备模仿人类完成复杂任务能力[6] - 第三阶段2023年兴起Diffusion Policy方法通过扩散模型生成整个动作轨迹提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段代表工作包括OpenVLA、RT-2、PI0等融合视觉感知、语言理解与动作生成模块[7] - VLA模型支持零样本或小样本快速泛化实现从"感知+控制"向"感知+推理+行动"的范式跃迁[7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合弥补"只能理解不能反馈"等局限[9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力[11] - VLA+世界模型引入环境动态预测使机器人具备"想象未来"能力助力高效规划与决策[11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的感知边界实现更精细安全的操作[12] 应用与人才发展 - 技术演进推动人形机器人、机械臂、四足机器人等产品落地服务于工业、家居、餐饮、医疗康复等领域[14] - 相关产品和融资络绎不绝岗位呈现爆发式增长导致许多学生转入具身智能领域研究[14] - 产业界重视推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[17] - 需掌握Mujoco/IsaacGym/Pybullet等平台的策略训练与仿真测试能力[17] - 需具备训练部署Diffusion Policy/VLA/力触融合VLA模型的实践能力[17] - 需实现强化学习在VLA后训练上的应用支持机器人反馈微调[17] - 需掌握从世界建模预测→策略学习→物理执行的一体化具身智能架构[17]

通用人工智能（AGI）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

通用人工智能（AGI）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

清华、上海AI Lab等顶级团队发布推理模型RL超全综述

具身智能之心· 2025-09-15 08:04

强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习（RLHF）使模型回答更符合人类偏好 [4] 大推理模型（LRM）的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练（RLVR）掌握长链推理能力包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励编程任务采用编译器/测试驱动奖励展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF（2022）演进至DPO（2023）再到RLVR（2025）任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制被视为实现通用人工超级智能（ASI）的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件：奖励设计、策略优化和采样策略比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题：RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]

强化学习（RL）

通用人工超级智能（ASI）

Artificial Intelligence

大推理模型（LRM）

人类反馈强化学习（RLHF）

强化学习（RL）

通用人工超级智能（ASI）

Artificial Intelligence

大推理模型（LRM）

人类反馈强化学习（RLHF）

SimpleVLA-RL：突破 VLA 模型训练瓶颈，RL实现端到端在线训练

具身智能之心· 2025-09-15 08:04

研究背景与核心问题 - 视觉-语言-动作（VLA）模型是机器人操控领域的关键范式能整合视觉感知语言理解与动作生成实现复杂物理环境中的任务执行 [2] - 当前主流训练流程为大规模预训练加监督微调（SFT）但存在数据稀缺性和泛化能力弱两大核心瓶颈 [2][5] - 数据稀缺性体现在SFT需大规模人类操作机器人轨迹数据采集成本极高且规模受限严重制约模型扩展性 [5] - 泛化能力弱体现在面对分布偏移如未见过的任务环境或对象时性能大幅下降尤其在长时序组合型任务中表现突出 [5] - 大推理模型领域的突破证明强化学习（RL）仅通过结果奖励就能显著提升逐步推理能力但VLA应用RL面临独特挑战 [2] SimpleVLA-RL框架设计 - 基于veRL扩展加入VLA交互式轨迹采样多环境并行渲染及训练推理渲染一体化设计解决VLA与环境交互慢成本高的问题 [6][9] - 采用结果奖励建模摒弃传统RL复杂的过程奖励使用二元结果奖励任务成功则整个轨迹奖励为1 失败则为0 [9] - 通过探索增强策略解决VLA模型探索不足问题包括动态采样调整GRPO裁剪范围和提高采样温度 [9][10] - 采用修改后的Group Relative Policy Optimization目标函数移除KL散度正则项减少内存消耗并避免限制新行为探索 [9][10] - 动作token化策略选择与PPO类RL算法兼容性最好的动作token分布生成方案通过随机采样生成多样化轨迹 [9][10] 基准测试性能 - 在LIBERO基准测试中平均成功率从91.0%提升至99.1% 其中长时序任务LIBERO-Long提升12.0个百分点（86.5%→98.5%） [12][13] - 在RoboTwin1.0基准测试中四个任务平均成功率从39.8%提升至70.4% 其中Blocks Stack任务提升33.1个百分点（7.1%→40.2%） [13] - 在RoboTwin2.0基准测试中覆盖短中长超长时序12个任务平均成功率从38.3%提升至68.8% 超越π₀（49.2%）和RDT（33.3%） [14][15] - 即使是需多轮交互的超长时序任务如Put Bottles Dustbin 也提升18.7个百分点 [14][15] 数据效率 - 在单轨迹SFT场景下 LIBERO平均成功率从48.9%提升至96.9% 长时序任务LIBERO-Long从17.3%提升至91.7% [16][17] - 与全轨迹SFT加RL（99.1%）的差距仅2.2个百分点证明RL可大幅降低对大规模演示数据的依赖 [16][17] 泛化能力 - 在LIBERO的9个已见任务训练加1个未见任务测试实验中 SimpleVLA-RL所有未见任务成功率均提升 [18][22] - LIBERO-Object的Unseen Task 2提升36.5个百分点 LIBERO-Spatial的Unseen Task 1从43.3%提升至71.8% [22] - 证明RL能学习通用技能而非过拟合特定数据避免SFT的灾难性遗忘问题 [18][22] 真实世界部署 - 仅用仿真数据训练真实世界机械臂任务平均成功率从17.5%提升至38.5% [7][23] - Stack Bowls任务提升32个百分点（38.0%→70.0%） Pick Bottle任务实现14%成功率 [23] - 验证了高效的Sim-to-Real迁移能力和真实部署能力 [7][23] Pushcut现象与失败模式 - 在RoboTwin2.0任务中 RL训练使模型自主探索出推等超越人类演示的新策略被定义为Pushcut现象 [8][24] - 结果奖励允许模型探索所有能完成任务的路径而非局限于人类演示的单一方式 [24] - SimpleVLA-RL的有效性依赖初始模型能力初始成功率需在阈值以上 RL才能通过探索进一步优化性能 [27][28][29] - 初始成功率为0时即使施加RL性能仍维持0 初始成功率较低时提升有限初始成功率较高时提升显著 [28][29] 研究结论 - 降低对大规模演示数据的依赖提升数据效率 [30][32] - 增强模型在分布偏移场景下的泛化能力 [30][32] - 实现高效的Sim-to-Real迁移提升真实世界任务性能 [30][32] - Pushcut现象证明RL能让VLA模型超越人类演示的局限探索更优策略 [8][24][32]

视觉 - 语言 - 动作（VLA）模型

强化学习（RL）

监督微调（SFT）

Group Relative Policy Optimization（GRPO）

视觉 - 语言 - 动作（VLA）模型

强化学习（RL）

监督微调（SFT）

Group Relative Policy Optimization（GRPO）

清华、上海AI Lab等顶级团队发布推理模型RL超全综述，探索通往超级智能之路

机器之心· 2025-09-13 16:54

文章核心观点 - 强化学习正成为推动大语言模型向大推理模型演进的核心方法通过可验证奖励机制提升模型在数学、编程等复杂任务中的推理能力 [2][3][5] - OpenAI o1和DeepSeek-R1展示了RL训练带来的突破性进展：模型性能随训练算力和推理思考时间增加而持续提升揭示了除预训练外的新扩展路径 [10] - RL通过奖励最大化目标和自监督数据生成克服数据限制被视为实现通用人工超级智能的潜在技术路径 [12] 前沿模型发展 - DeepMind早期已证明RL智能体仅凭像素和得分反馈即可学会玩《打砖块》游戏 AlphaGo系列通过自我对弈超越人类棋手 [2] - 大模型时代RL最初应用于人类偏好对齐（RLHF）近期转向提升模型推理能力形成大推理模型新范式 [2][3] - OpenAI o1和DeepSeek-R1成为重要里程碑：前者通过RL训练和推理时间扩展提升性能后者采用基于规则的准确率奖励和编译器测试驱动奖励 [10] 基础组件 - 奖励设计包含可验证奖励（如数学答案正确率）、生成式奖励、密集奖励、无监督奖励和奖励塑形等多类方法 [14] - 策略优化涵盖策略梯度目标、基于评论家算法、无评论家算法、离策略优化和正则化目标等方向 [14] - 采样策略包括动态结构化采样和采样超参数优化旨在提升训练效率 [14] 关键问题 - RL在大推理模型中的角色存在"能力锐化"与"能力发现"之争需明确其核心作用 [14] - RL与监督微调（SFT）存在泛化与记忆的差异需平衡两者关系 [14] - 奖励类型区分过程奖励与结果奖励影响模型学习路径 [14] 训练资源 - 静态语料库、动态环境和训练基础设施构成三大资源类别需进一步标准化发展 [14] - 现有资源虽可复用但仍需完善以支撑大规模RL训练需求 [5] 应用场景 - 编程任务通过代码测试通过率作为奖励提升模型代码生成能力 [14] - 智能体任务关注语言智能体与环境的长期交互演化 [7] - 多模态任务、多智能体系统、机器人任务和医学应用构成RL重要落地方向 [14][15] 未来方向 - 持续RL、基于记忆的RL和基于模型的RL被视为LLM强化学习重点发展领域 [15] - 潜在研究方向包括高效推理教学、潜在空间推理、预训练RL、扩散模型RL及科学发现应用等 [15]

强化学习（RL）

大推理模型（LRM）

通用人工超级智能（ASI）

Artificial Intelligence

强化学习（RL）

大推理模型（LRM）

通用人工超级智能（ASI）

Artificial Intelligence

万字长文！首篇智能体自进化综述：迈向超级人工智能之路

自动驾驶之心· 2025-09-12 07:33

自进化智能体综述核心观点 - 大语言模型本质上是静态的无法在面对新任务不断进化的知识领域或动态交互环境时调整其内部参数这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变从扩展静态模型转向开发能够从数据交互和经验中持续学习与适应的系统这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域：进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱：模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略经验提示记忆工具创建与掌握架构选择等多个维度不同方法在各维度有不同侧重例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性学习数据动态产生且直接针对当前问题测试时外进化具有回顾性作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式：上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励自然语言反馈外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择变异交叉等机制)[27] - 不同方法在反馈类型数据源奖励粒度样本效率稳定性和可扩展性等方面存在显著差异例如基于奖励的方法对奖励设计敏感模仿学习受示范质量影响大群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移后者侧重领域深化[31] - 关键应用领域包括自主软件工程个性化教育医疗保健和智能虚拟助手等持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统涵盖随时间推移的适应能力知识积累与保留长期泛化能力以及技能迁移同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等在任务领域核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级适应性指标和动态基准传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾需可扩展架构设计跨领域适应技术(测试时扩展推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险通过智能体宪法安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理开发高效算法和自适应框架并建立动态评估基准反映持续适应和演变交互[45]

自进化智能体

人工超级智能（ASI）

大语言模型（LLMs）

基于奖励的进化

模仿与示范学习

基于群体和进化的方法

自进化智能体

人工超级智能（ASI）

大语言模型（LLMs）

基于奖励的进化

模仿与示范学习

基于群体和进化的方法

攻克AI推理难题，清华团队提出「统一LLM强化学习新范式」ReST-RL

36氪· 2025-09-10 17:53

大语言模型推理能力挑战 - 当前大语言模型在复杂代码、多步逻辑和抽象任务中经常出现逻辑跳跃、步骤混乱和答非所问等问题 [1] - 现有方法难以兼顾推理能力、训练效率与通用性面临奖励信号差异微弱、计算成本高、泛化能力差以及数据标注成本高等难题 [1][3][4] 清华大学ReST-RL新方法 - 提出统一的强化学习新范式ReST-RL 将改进的GRPO算法与价值模型辅助的测试时解码方法相结合 [1] - 方法包含ReST-GRPO和VM-MCTS两个核心组件分别针对训练和推理阶段进行优化 [5] - ReST-GRPO通过策略自身筛选训练数据剔除奖励标准差低于阈值σ₀的提示语聚焦高奖励解答轨迹 [6] - VM-MCTS在解码阶段使用价值模型提供验证信号并引导推理路径探索通过MCTS平衡探索与利用 [9] 实验性能表现 - 在APPS、BigCodeBench和HumanEval等编程基准上优于其他强化训练基线和解码验证基线 [2] - ReST-GRPO相比原始GRPO和DAPO在相同训练步数下拥有更高训练效率 [10] - VM-MCTS在相同验证预算条件下准确性优于基于公开数据训练的Math-Shepherd风格PRM或ORM [10] 方法局限性 - 尚未在数学推理和常识推理等代码以外任务中验证有效性 [13] - 价值模型在域外任务中的准确性缺乏充分研究 [14] - 部分实验设置对最终结果的影响尚未得到系统性分析 [13]

大语言模型（LLM）

强化学习（RL）

大语言模型（LLM）

强化学习（RL）

字节跳动：2025年思考模型Seed-Thinking-v1.5技术报告

搜狐财经· 2025-08-22 17:20

模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分，与OpenAI o3-mini-high持平，显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分，接近Gemini 2.5 Pro的56.3分，但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分，接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中，整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型（MoE）架构，激活参数200亿，总参数2000亿，属于相对紧凑的推理模型 [1][5] - 基于链式思维（CoT）数据进行监督微调，过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类，其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式，解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System（SRS）缓解长响应生成滞后问题，结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器，在人工标注测试集上准确率达99.3%，显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准，包含100道难度不低于AIME最高水平的原创题目，模型在该基准表现48.0%，落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目，报告pass@1和pass@8指标，更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例（30万可验证问题+10万非可验证问题），采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据（验证器评分）、通用数据（奖励模型评分）和混合数据三类来源，通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行（TP）、专家并行（EP）和上下文并行（CP），结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统（AutoTuner）基于性能画像动态选择最优并行配置 [46]

混合专家模型（MoE）

强化学习（RL）

Seed1.5-Thinking

混合专家模型（MoE）

强化学习（RL）

Seed1.5-Thinking