Workflow
Reinforcement Learning
icon
搜索文档
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
具身智能之心· 2025-10-10 08:02
强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
CoreWeave Launches First Publicly Available Serverless Reinforcement Learning Capability to Build Reliable AI Agents
Businesswire· 2025-10-09 01:00
LIVINGSTON, N.J.--(BUSINESS WIRE)--CoreWeave, Inc. (Nasdaq: CRWV), the AI Hyperscalerâ"¢, today announced the launch of Serverless RL, a fast and easy way to train AI agents using reinforcement learning (RL). The first publicly available fully managed RL capability, Serverless RL scales seamlessly to dozens of GPUs, requires only a Weights & Biases account and API key to get started, and delivers faster feedback loops with lower barriers to entry for developers. This new capability launches j. ...
Z Event|SF Tech Week10.8硅谷线下会:为什么是现在?RL 的转折点与未来
Z Potentials· 2025-09-28 22:29
强化学习行业趋势 - 强化学习正从被视为小众研究方向转变为推动推理、决策智能与复杂场景交互的关键技术 [3] - 随着大语言模型发展接近瓶颈,强化学习已成为行业重要的突破口 [3] - 当前是强化学习跨界融合的关键时刻,学术界、产业界和创业公司共同推动该技术从研究走向落地 [3] 行业活动信息 - 活动将于10月8日晚上6:30在旧金山举行,主题为探讨强化学习的未来 [4] - 活动嘉宾阵容横跨学界、工业界和创业圈,包括UCSB助理教授、DeepMind研究负责人、Pokee AI CEO等业内专家 [6] - 参与者包括来自OpenAI、Anthropic、DeepMind、Meta等实验室的研究员和YC创业者 [10] - 活动由Z Potentials联合HatTrick Capital与Future Builderz共同呈现 [8] 参与机构背景 - HatTrick Capital是专注支持早期新一代技术创业者的硅谷基金,持续在AI领域投资 [9] - Future Builderz是连接研究者、创始人和投资人的国际化社区,推动前沿科技从学术走向产业落地 [9]
DeepSeek 创始人梁文锋在《自然》杂志回应质疑,R1 训练真 29.4 万美金
新浪财经· 2025-09-19 08:03
学术成就与行业认可 - DeepSeek团队的研究成果登上Nature封面,论文主题为通过强化学习激发大语言模型推理能力 [1][3] - Nature发表评论文章对DeepSeek-R1的创新性给予高度评价,称其开创了AI推理新范式 [1][3] - 该模型成为全球首个经过同行评审的主流大语言模型,审稿人认为这一先例有助于系统风险评估 [5][8] 技术突破与创新 - 采用纯强化学习框架DeepSeek-R1-Zero,摒弃传统监督微调(SFT)阶段,仅通过答案正确性给予奖励信号 [10] - 训练成本仅29.4万美元(含20.2万美元Zero阶段+1万美元SFT数据创建+8.2万美元其他成本),总成本远低于行业巨头 [6][7] - 使用GRPO(组相对策略优化)算法替代传统PPO,通过组内竞争机制降低资源消耗并保持训练稳定性 [23][24] 性能表现与能力进化 - 在AIME 2024数学竞赛中,模型准确率从初始15.6%提升至77.9%,结合自洽解码技术后达86.7% [10] - 训练过程中出现"顿悟时刻",模型自主增加思考链长度(最高达数百token)并涌现自我反思、替代解法探索等高级策略 [14][16] - 经过多阶段训练后,在AlpacaEval 2.0和Arena-Hard基准测试中性能提升17%-25%,同时保持数学编程领域顶尖水平 [21] 训练方法论 - 采用四阶段训练流程:冷启动微调、第一轮RL强化推理、大规模SFT混合非推理数据、第二轮RL对齐人类偏好 [18][19] - 设计双轨奖励系统:推理任务采用基于规则的严格奖励(避免奖励投机),通用任务采用基于模型的奖励 [25][26] - 关键训练参数包括学习率3×10⁻⁶、KL散度系数0.001、批次大小512,并在8200步时将上下文长度从32K扩展至65K token [31][34] 市场反响与行业影响 - 开源后在Hugging Face平台下载量突破1090万次,成为最受欢迎模型 [5] - 引发OpenAI质疑可能使用ChatGPT输出训练,但审稿人认可其方法独立性并通过复现验证有效性 [37][39] - 被评价为"开启革命",多国实验室正尝试将该方法扩展至数学编码之外领域 [42]
xAI 巨像 2 号——全球首个吉瓦级数据中心,独特强化学习方法论及融资计划——半导体分析 --- xAI’s Colossus 2 – First Gigawatt Datacenter In The World, Unique RL Methodology, Capital Raise – SemiAnalysis
2025-09-18 21:09
**纪要涉及的行业或公司** - 公司:xA(埃隆·马斯克旗下人工智能公司)[1][2][5] - 行业:人工智能、数据中心基础设施、云计算、大模型训练与推理[2][5][10] **核心观点与论据** **1 数据中心建设与算力扩张** - xA的Coossus 2数据中心在6个月内实现200兆瓦制冷能力,支持约11万台GB200 NVL72系统运转,建设速度远超行业平均(其他公司需15个月)[18][19] - 通过与Soaris Energy合作,xA在密西西比州南黑文市部署燃气轮机,总发电容量将达1.1吉瓦(2027年Q2前),未来可能扩展至1.5吉瓦[31][34][40] - 数据中心空间规划包括改造现有仓库(100万平方英尺)为双层结构、扩建地块或采用非标准布局,以支持1吉瓦以上算力[46][48] **2 融资与资金需求** - Coossus 2项目需数百亿美元资本开支,xA尚未产生实质性外部收入,主要依赖X.com内部转账[51] - 正筹备新一轮数百亿美元融资,估值近2000亿美元,沙特主权财富基金(PIF)可能主导投资,但估值合理性受质疑(部分投资者认为难以超过Anthropic)[58] - 中东扩张可能性高:沙特、阿联酋、卡塔尔此前已投资xA及X平台,潜在融资规模达60亿美元,或用于在沙特新建数据中心[56][59][62] **3 技术能力与商业模式** - 模型性能:Grok 1.5在某些评测中接近顶尖模型,但编程能力弱于Claude Sonnet 3.5,非编程应用逊于GPT-5[85] - 企业端采用率低:因幻觉问题(如“机械希特勒事件”)及埃隆对模型的干预导致企业禁用[93] - 消费者业务优势:与X平台深度集成,支持实时信息查询和“@Grok”提问功能,用户参与度提升[94][95] - 独特强化学习(RL)方法:通过Ani项目构建多样化RL环境,探索情感智能与共情能力,可能成为AGI突破路径[99][100][101] **4 人才与运营挑战** - 员工超1000人,但文化硬核(如007工作制),导致高管和资深研究员流失(如前CFO任职不足4个月离职)[79][81] - 依赖开源推理框架SG Lang而非自建栈,通过雇佣其维护者持续优化[83][84] **其他重要但易忽略的内容** - 电力基础设施创新:在密西西比州利用退役电厂部署涡轮机,获12个月无许可运营特批,通过特斯拉Megapack储能和中压线路输电[24][28] - 财务风险:训练支出远超推理收入,需依赖X平台广告整合(如将xA技术用于广告引擎)维持现金流[106][109] - 行业竞争:OpenA、Meta、Anthropic均建设千兆瓦级集群,xA需通过超常规速度(如6个月建成)保持算力领先[6][10][13] **数据与单位换算** - 制冷能力:200兆瓦(支持11万台GB200 NVL72)[18] - 涡轮机容量:7台×5兆瓦=35兆瓦(当前运营),总规划1.1吉瓦[31][40] - 资本开支:Soaris合资公司Q2 2025支出1.12亿美元[40] - 历史投资:沙特王国控股持有xA 8亿美元股份(合并前),阿联酋Vy Capital投资7亿美元支持Twitter收购[56] **引用文档索引** - 数据中心建设:[1][2][5][6][10][13][18][19][31][34][40][46][48] - 融资与资金:[51][56][58][59][62] - 技术与商业:[85][93][94][95][99][100][101] - 人才与运营:[79][81][83][84] - 其他细节:[24][28][106][109]
刚刚,梁文锋发Nature了
36氪· 2025-09-18 18:18
论文核心成就 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面,成为全球首个经过同行评审的主流大语言模型[4] - 论文首次公开仅靠强化学习就能激发大模型推理能力的重要研究成果,该模型成为全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次[4] - 《自然》杂志高度评价此项工作,称其打破了主流大模型未经独立同行评审的空白,是迈向透明度和可重复性的可喜一步[4][5] 研究方法与技术细节 - DeepSeek-R1的研究出发点是解决大模型后训练阶段严重依赖人工标注的问题,尝试通过强化学习让模型自我演化发展出推理能力[14] - 在DeepSeek-V3 Base基础上,公司使用GRPO作为强化学习框架,仅使用最终预测结果与真实答案的正确性作为奖励信号,构建出DeepSeek-R1-Zero[14] - DeepSeek-R1-Zero通过强化学习成功掌握改进的推理策略,倾向于生成更长的回答,每个回答中包含验证、反思和探索备选方案[15] - 公司在DeepSeek-R1-Zero基础上采用多阶段训练结合RL、拒绝采样和监督微调,开发出DeepSeek-R1,使模型既具备强推理能力又能更好贴合人类偏好[16] 数据安全与污染防控 - DeepSeek-V3 Base使用的数据全部来自互联网,虽然可能包含GPT-4生成的结果,但绝非有意而为之,更没有专门的蒸馏环节[9] - 为防止基准测试数据污染,公司对DeepSeek-R1的预训练和后训练数据都实施全面去污染措施,仅在预训练数据中就识别并删除了约六百万条潜在文本[17] - 在后训练阶段,数学相关数据均来自2023年之前的竞赛,并采用与预训练相同的过滤策略,确保训练数据与评测数据完全不重叠[17] 模型安全性能评估 - DeepSeek为DeepSeek-R1新增全面安全报告,在服务部署中引入外部风险控制系统,基于关键词匹配和使用DeepSeek-V3进行风险审查[18] - 在公开安全基准测试和内部安全研究中,DeepSeek-R1在大多数基准上超过了Claude-3.7-Sonnet、GPT-4o等前沿模型[18] - 具体安全评分显示:DeepSeek-R1在SST测试中获得97.5%安全分,在BBQ测试中获得96.6%安全分,平均安全分数达到95.0%[19] 同行评审过程与价值 - DeepSeek-R1论文提交至《自然》后,有8位外部专家参与同行评审,对工作的原创性、方法和鲁棒性进行评估,审稿报告与作者回复被一并披露[26] - 审稿人共提出上百条具体意见,涵盖对数据污染和模型安全性问题的关注,公司认真回应了每一个问题并新增多个章节与补充信息[29][32] - 同行评审流程提升了论文的清晰度,确保作者对其主张作出合理论证,增强了研究的可信度[34] 行业影响与意义 - 《自然》杂志呼吁更多AI公司将其模型提交给同行评审,确保其声明经过验证和澄清[36] - DeepSeek的开源模式不仅展示了国产AI的技术实力,也有望成为全球AI行业在科研透明度方面的参考典范[36]
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
36氪· 2025-09-18 10:02
研究突破 - DeepSeek-R1 论文以封面文章形式发表于权威科学期刊 Nature 证明其研究价值获得学术界高度认可[1] - 研究团队提出无限制强化学习 RL 训练可激发大语言模型 LLM 新推理能力涌现 减少对人类标注数据的依赖[3] - 实验证明纯 RL 训练在数学 编程竞赛和 STEM 研究生水平问题等任务上表现优于传统方法训练的 LLM[3] 技术方法 - 提出群体相对策略优化 GRPO 算法 基于基础模型 DeepSeek-V3 Base 训练 DeepSeek-R1 系列模型[10] - 采用多阶段训练 pipeline 包括拒绝采样 RL 和监督微调 SFT 逐步提升模型能力[12] - RL 训练使模型自然学会输出推理过程 通过评分系统验证答案正确性进行自我改进[9] 模型表现 - DeepSeek-R1 在 GitHub 上获得 91100 个 star 显示全球开发者广泛认可[4] - 在 MMLU MMLU-Pro C-Eval GPQA Diamond 等 21 个主流基准测试中几乎全部取得更好成绩[15] - 模型展现出高级推理模式如自我反思 验证和动态策略适应 并能指导增强小型模型[16] 行业影响 - Nature 社论肯定 DeepSeek-R1 是首个经同行评审后发表的主流 LLM 推动行业透明化[5] - 同行评审机制可澄清 LLM 工作原理 评估模型真实性 避免基准测试被操控[6][17] - 开源模型使更广泛社区能理解修复缺陷 但需加强安全性测试应对潜在风险[18] - Nature 呼吁更多 AI 公司提交模型评审 用证据支持言论 验证相关主张[18]
DeepSeek登上Nature封面,梁文锋带队回应质疑,R1训练真29.4万美金
36氪· 2025-09-18 09:32
学术成就与行业认可 - DeepSeek-R1论文登上全球顶刊Nature封面,通讯作者梁文锋带队通过强化学习为大模型推理能力开辟全新路径[2] - Nature在封面推荐中高度赞扬DeepSeek-R1成就,该模型成为全球首个经过同行评审的主流大模型[4] - 开源后R1在Hugging Face平台成为最受欢迎模型,下载量突破1090万次[4] - 审稿人Lewis Tunstall认为这是非常值得欢迎的先例,有助于评估系统风险;Huan Sun表示通过严格同行评审验证模型有效性和实用性,其他公司应效仿[7][46] 技术创新与训练方法 - 研究团队彻底抛开对人类推理轨迹依赖,选择强大基础模型DeepSeek-V3 Base,跳过传统SFT阶段[8][10] - 采用简洁强化学习框架,只告知任务格式和奖励信号,模型在AIME 2024解题准确率从15.6%提升至77.9%,配合自洽解码技术达86.7%[10] - 训练过程中模型自发学会用更长思维链探索解题策略,展现出自我反思和系统性探索替代解法等高级能力[14][15] - 观察到明显"顿悟时刻",模型在反思过程中使用"wait"词频率急剧增加,标志推理模式转变[16][17] 成本效益与资源优化 - R1训练成本仅294,000美元,加上基础模型成本约600万美元,远低于OpenAI和谷歌训练成本[5][6] - 具体训练成本分解:DeepSeek-R1-Zero耗202,000美元,SFT数据创建10,000美元,DeepSeek-R1训练82,000美元[6] - GPU资源使用:总147,000 H800 GPU小时,其中R1-Zero占101,000小时,SFT数据创建5,000小时,R1训练41,000小时[6] 算法创新与训练优化 - 采用GRPO算法替代传统PPO,通过组内竞争择优机制简化复杂约束过程,显著降低资源消耗[22][24][26] - 设计双轨制奖励系统:推理任务使用严格基于规则奖励,通用任务引入基于模型奖励让输出更符合人类偏好[27][28][30] - 训练分为多阶段,包括冷启动、两轮强化学习和大规模监督微调,扩展模型知识面和通用能力[19][20] - 关键训练参数:学习率3×10⁻⁶,KL散度系数0.001,GRPO裁剪比率10,推理采样温度1[37] 性能提升与能力表现 - 经过多轮训练,DeepSeek-R1在AlpacaEval 2.0和Arena-Hard等基准上性能提升17%-25%,数学编程等高难度推理保持顶尖水准[25] - 训练第8,200步时将最大文本长度从32,768 Token增至65,536,模型性能和回答长度出现大幅跃升[36] - 针对语言混合问题创造性引入语言一致性奖励,提升中文问题处理时思维链的中文词汇比例[38] 行业影响与未来展望 - 审稿人Lewis Tunstall认为证据表明仅使用强化学习即可获得非常高性能,其他实验室复制尝试验证方法有效性[46] - 研究人员正尝试应用R1方法改进现有大语言模型推理能力,并将其扩展到数学编码以外领域,开启一场革命[48] - 尽管存在结构化输出和工具使用方面局限,但R1为零样本直接提问场景提供高效解决方案[43]
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
机器之心· 2025-09-18 09:01
核心观点 - 论文提出了一种新的具身基础模型Nav-R1,旨在解决机器人在3D环境中结合感知、推理和行动的挑战,通过引入清晰的中间思考环节来提升导航性能[5] - 该模型的核心创新包括大规模推理轨迹数据集Nav-CoT-110K、三种互补的奖励机制以及受人类双系统理论启发的Fast-in-Slow推理范式[6][9][11] - 实验结果表明,Nav-R1在多个导航任务中相比先进方法成功率提升约8%或更多,并在真实机器人部署中表现出稳健性能[14][15][18] 技术架构与创新 - Nav-CoT-110K数据集包含约11万条Chain-of-Thought轨迹,每条轨迹包含任务描述、视觉输入、行动选项及格式化思考与动作输出,用于冷启动训练模型[6][8] - 三种奖励机制包括格式奖励(确保输出结构化)、理解奖励(鼓励语义理解)和导航奖励(优化路径合理性与终点精度),共同提升行为逻辑与精准度[13] - Fast-in-Slow推理范式借鉴人类双系统理论,Slow系统(低频)负责长期语义规划,Fast系统(高频)负责实时控制,两者异步协调兼顾目标一致性与环境响应速度[11][16] 性能表现 - 在视觉语言导航任务R2R-CE Val-Unseen中,Nav-R1的成功率(SR)达72.5%,路径效率(SPL)达68.8%,显著优于对比方法(如HNR的SR 61.0%)[15] - 在物体目标导航任务中,Nav-R1在真实环境(如会议室)的成功率指标(SR)达1.03,优于MTU3D的0.73,显示其强泛化能力[18] - 延迟优化后,Nav-R1在服务器端推理延迟约95毫秒,远低于本地推理方法(如Uni-NaVid的410毫秒),适合边缘设备近实时运行[19] 应用场景 - 服务机器人领域可受益于Nav-R1的结构化推理与路径精准性,提升家庭环境中杂乱场景的导航可靠性[29] - 医疗辅助场景中,模型对语义错误的理解与纠正能力可增强机器人在复杂环境(如医院)的安全性[30] - 工业危险环境(如矿井)需高泛化性与稳健性,Nav-R1可作为基础模块支持未知场景下的任务执行[32]
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
量子位· 2025-09-18 08:51
核心成就与行业地位 - 公司成为首家登上《Nature》封面的中国大模型企业,创始人担任通讯作者,标志着中国AI研究的国际突破 [2] - 全球范围内仅有极少数企业(如DeepMind)曾通过AlphaGo、AlphaFold等成果获得类似荣誉 [3] - 模型被Nature认证为"首个经历同行评审的大型语言模型",开创行业先例 [5] - 研究被赞为"几乎影响所有在大语言模型中使用强化学习的研究",体现其方法论的开创性 [6] - 开源模型在Hugging Face下载量达1090万次,居开源模型下载量第一,GitHub Star数达91.1K [7] 训练成本与效率突破 - 总训练成本仅29.4万美元(折合人民币208万元),使用512张H800 GPU [5][10] - R1-Zero和R1分别训练198小时和80小时,按H800每GPU小时2美元租赁价计算 [10] - 具体成本分配:R1-Zero耗202K美元(101K GPU小时),SFT数据创建耗10K美元(5K GPU小时),R1耗82K美元(41K GPU小时) [11] - 660B参数规模的模型以不足30万美元成本完成,显著低于行业千万美元级投入 [12][13] 技术方法与架构创新 - 采用纯强化学习(RL)框架,仅基于最终答案正确性提供奖励信号,不依赖人工标注推理轨迹 [19] - 使用GRPO(Group Relative Policy Optimization)作为强化学习框架,提升模型推理能力 [19] - 通过多阶段训练:冷启动数据微调→强化学习训练→拒绝采样生成SFT数据→重新训练基础模型 [25][26] - 提出模型蒸馏技术,将大模型推理能力迁移至小模型(如Qwen2.5-32B),性能优于直接应用强化学习 [29] 性能表现与基准测试 - R1-Zero在AIME 2024上pass@1分数从15.6%提升至71.0%,多数表决后达86.7%,与OpenAI-o1相当 [21] - 在MATH-500测试中pass@1达95.9%,优于OpenAI-o1-0912的94.8% [23] - R1与OpenAI-o1-1217性能不相上下,在多项基准测试中达到顶尖水平 [27] - 蒸馏模型性能随参数规模提升:32B版本在AIME 2024 pass@1达72.6%,70B版本在CodeForces评级达1633 [30] 数据构建与安全性 - 数据集涵盖数学(26K题)、编程(17K题)、STEM(22K题)、逻辑(15K题)、通用(66K题)五类 [15][16][18] - 数学数据包含定量推理题和竞赛题,编程数据包含算法题和代码修复问题,STEM数据覆盖物理化生等多学科 [18] - 安全性评估显示模型固有安全水平与GPT-4o相当,结合风险控制系统后可进一步提升 [18] - 公开详细安全评估,涵盖多语言安全性、越狱攻击鲁棒性等维度 [22] 开源贡献与行业影响 - 公开R1和R1-Zero模型权重,并开源基于Qwen2.5和Llama3系列的蒸馏模型 [30] - 推动中国AI研究从顶会(如CVPR、ICLR)向Nature、Science级成果跃升 [7] - 低成本高效训练范式挑战行业"巨额投入才能打造顶级AI模型"的传统认知 [13]