强化学习

搜索文档
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 13:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]
OpenAI 4 名王牌研究员“叛变”,Meta 上亿美元的签约奖金终于花出去了
AI前线· 2025-06-28 13:13
Meta AI人才争夺战略 - Meta近期从OpenAI挖角4名核心研究人员加入其新成立的超级智能实验室 包括强化学习专家特拉皮特·班萨尔和曾参与建立OpenAI苏黎世办公室的卢卡斯·拜尔等三人 这些人才此前在DeepMind实验室也有任职经历 [1] - 公司为挖角OpenAI员工曾开出单笔高达1亿美元的签约奖金 但部分研究人员因OpenAI提供更高薪资和发展空间而拒绝邀约 [2] - 除OpenAI外 Meta还从ScaleAI挖角其CEO亚历山大·王 同时以143亿美元投资获取该公司49%股份 并计划收购语音AI开发商PlayAI以吸纳其技术团队 [2] Meta AI技术布局 - 超级智能实验室目标开发能超越人类表现的多任务AI模型 该部门成立背景与Llama 4 Behemoth大型语言模型性能问题直接相关 原定今年发布的该模型因技术问题已推迟 [1] - 计划聘请AI领域顶级投资人丹尼尔·格罗斯和前GitHub CEO纳特·弗里德曼 二人目前任职的Safe Superintelligence公司与Meta实验室目标高度重合 [3] - 2025年将投入650亿美元建设数据中心基础设施 包括配备超130万块英伟达显卡的超大规模数据中心 [3] 行业人才竞争动态 - OpenAI采取加薪和职业发展承诺等策略应对Meta挖角 显示头部AI企业间人才争夺白热化 [2] - Meta通过"人才+并购"双轨策略快速扩张AI能力 除直接招聘外 还以收购PlayAI等初创公司方式获取整建制团队 [2][3] - AI芯片领域出现新竞争者 某中国AI芯片公司成立5年估值超百亿 正争夺"国产GPU第一股"称号 [5]
肖仰华教授:具身智能距离“涌现”还有多远?
36氪· 2025-06-27 19:30
人工智能技术发展路径 - 人工智能发展呈现两条清晰脉络:生成式人工智能(AIGC)和具身智能 前者聚焦机器认知能力 后者侧重感知与行动能力 [3][6][7] - 生成式大模型本质是让机器具备人类大脑的认知功能 包括语言生成和逻辑思考能力 具身智能则模拟人类身体感知与环境交互能力 [6][7] - 认知智能与具身智能的下一个里程碑是身心协同阶段 需实现身体与大脑的双向塑造 [3][8][9] 技术革命性特质 - 判断技术革命性的三大标准:基础性(如水电煤)、生产力指数级提升、对社会上层建筑的颠覆性影响 [9][10] - 生成式AI符合三大标准:成为新型基础设施 脑力工作效率提升百倍 渗透社会各领域 [10] - 具身智能对生产力的提升作用有限 80亿机器人产能仅相当于人口增长1-2倍 且受安全伦理制约 [11][12][13] 模型发展规律 - Scaling law主导生成式AI初期发展 依赖海量数据(万亿token)和大规模算力 [14] - 后训练范式崛起(如DeepSeek R1) 数据质量与训练策略取代规模成为关键 参数规模让位于算法设计 [15][16] - 行业大模型落地瓶颈在于数据 央国企需投入80%精力治理行业数据 高质量数据集建设成产业护城河 [18][19] 具身智能发展挑战 - 数据缺口显著:最大具身数据集仅百亿token 较语言模型差2个数量级 仿真/合成数据质量不足 [21][22] - 泛化能力受限:环境表达复杂性(如办公室场景需建模高维身体状态)导致数据采集困难 [31][32] - 突破路径包括增加训练量(虚拟试错) 借鉴人类类比/归纳机制 但需敬畏"不可言说"的交互复杂性 [33][34] 产业实现范式 - 三大技术路线并存:连接主义(神经网络)、符号主义(知识图谱)、行为主义(强化学习) 分别对应数据学习、知识学习和实践学习 [36][37][38] - 机器人应走场景化路径而非绝对通用 功能受限于物理构造 机械臂案例显示需任务与身体适配 [42][43] - 集约化需适度 扫地机器人通过附加刷头扩展功能 但强行植入多能力违背产业逻辑 [42][43] 技术风险与治理 - 物理伤害风险远低于认知风险 需警惕AI通过决策误导造成的系统性危害 [45][46] - 安全治理核心是发展AI监管师职业 建立"拔插头"机制 同时加强价值观对齐研究 [48][49] - 身体限制可成为安全保障 思想无边界才是最大风险源 [46][47] 行业影响与教育变革 - AI将冲击产业分工基础 未来工作意义转向体验而非谋生 物质极大丰富改变经济逻辑 [62] - 教育需破除内卷 在保留核心技能(写作/编程)基础上 培养AI难以替代的鉴赏/批判能力 [55][61] - 学科交叉与内心探索是重建价值体系方向 需拓展认知边界应对文明转型 [56][57]
OpenAI连丢4位大将!Ilya合作者/o1核心贡献者加入Meta,苏黎世三人组回应跳槽:集体做出的选择
量子位· 2025-06-27 16:09
核心观点 - Meta近期从OpenAI挖走多名核心AI研究员,包括Trapit Bansal和苏黎世三人组(Lucas Beyer、Alexander Kolesnikov、翟晓华),加强其在推理大模型和多模态领域的布局 [1][10][11] - 公司同时推进语音AI初创公司PlayAI的收购谈判,并已招募语音AI专家Johan Schalkwyk,强化AR眼镜的语音交互能力 [23][24][26] - OpenAI创始人奥特曼公开回应称不担心人才流失,并暗示被挖人员并非其最优秀人才 [12] 人才流动 Trapit Bansal - 2022年加入OpenAI,与Ilya Sutskever合作推动大模型强化学习研究,是o1系统的核心贡献者 [1][6] - 谷歌学术引用量2883次,h指数16,多篇高引论文涉及多智能体强化学习和非平稳环境适应 [7][8] - 加入Meta新成立的超级智能部门,专注推理大模型研发 [2] 苏黎世三人组 - 原谷歌研究员,共同开发ViT架构(论文引用超6.5万次),开创Transformer视觉应用先河 [14][15] - 2023年被OpenAI集体挖走并成立苏黎世工作室,2024年6月又集体跳槽至Meta [10][20][21] - 成员背景:翟晓华(南京大学本科/北大博士)、Lucas Beyer(德国亚琛工业大学博士)、Alexander Kolesnikov(ISTA博士) [16][17][18] 战略布局 语音AI - 拟收购初创公司PlayAI(2024年获2100万美元融资),其技术目标是实现类人类的流畅语音对话 [24][25] - 此前已招募Seasame AI的Johan Schalkwyk,强化端侧语音模型能力 [26] - 行业推测Meta计划将语音AI整合至AR硬件生态 [27] 研究领域 - 推理大模型:通过Trapit Bansal加盟强化前沿技术探索 [2] - 多模态:苏黎世三人组持续深耕视觉-语言交叉领域 [14][20]
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 08:49
核心观点 - 清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术,解决了现有RLVR范式在通用领域的应用局限 [4][7][24] - RLPR通过Prob-to-Reward方法和动态过滤机制显著提升奖励质量和训练稳定性,在Gemma、Llama、Qwen等主流模型上验证有效 [7][8][22][24] - 该方法利用大语言模型生成参考答案的概率作为奖励信号,无需领域特定规则验证器,实现领域无关的高效奖励生成 [13][14] 技术原理 - 观察到LLM生成参考答案的概率与推理质量高度相关,错误推理会导致参考答案生成概率显著下降 [11] - 提出构建不含思维链过程的对照奖励,通过差值计算去除无关因素干扰,实现奖励纠偏 [16] - 采用基于奖励标准差的动态过滤机制,结合EMA更新阈值,提升训练稳定性 [17] 性能优势 - PR奖励在0.5B规模即优于规则奖励和验证器模型奖励,通用领域质量可达0.91 ROC-AUC [19] - 在Qwen2.5 3B模型上使用不同训练模板均能取得稳定性能提升 [21] - 在Gemma、Llama等基座模型上超越使用规则奖励的RLVR基线 [22] 应用价值 - 突破现有RLVR局限于数学/代码领域的限制,可拓展至自然语言通用领域 [3][4][24] - 仅需一次前向传播即可生成奖励,显著降低人力和工程资源投入 [13] - 相关代码、模型、数据和论文已全部开源 [8][9]
神经因子挖掘(五):强化学习混频Multi-StepDQN择时策略
长江证券· 2025-06-26 19:41
报告核心观点 - 设计 DQN 核心是学习给定市场状态下最优交易动作潜在价值,将其应用于中证 1000 指数日频择时,模型信号有有效预测能力,构建策略显著超越基准,多步优化 DQN 进一步提升信号质量和策略表现,证明其在量化择时领域潜力,但强化学习模型存在稳定性不足等问题 [3] 强化学习与量化投资 收益率预测模型存在的问题 - 传统机器学习和深度学习方法在股票收益率预测上虽能让投资者获稳定收益,但预测值与未来收益率相关系数难超 20%,预测准确率在 70%甚至 60%以下较常见,且使用负 IC 和均方误差作损失函数时预测值表现和投资收益相近,说明是模糊预测而非精确回归任务 [14] - 传统神经网络存在隐患,包括优化指标不直接,只能优化股票收益率或排序值预测能力来提升策略;生成投资组合流程不连续,因子挖掘、合成和组合优化步骤间断,预测指标提升不代表策略提升;在资产择时问题上因数据量少易过拟合 [16] 强化学习的基础概念 - 强化学习是学习在规则下交易资产,利用已知信息交易以优化策略目标,涉及智能体、环境、行为、状态、奖励、状态转移和回报等概念 [20] - 智能体根据状态做决策,环境是交互对象,行为是决策动作,状态是环境概括,奖励是环境反馈数值,状态转移是状态变化过程,回报是奖励总和,强化学习目标是寻找使回报最大化的最优策略 [21][22][23][24][25][30][31] 强化学习算法在量化中的应用 - 1996 - 2022 年学术界用强化学习研究量化金融文章近年激增,主要方法有基于价值学习的 DQN、Q 学习,基于策略学习的递归强化学习、策略梯度算法以及演员 - 评论家的 DDPG、PPO [35] - 本文采用使用最多的基于价值学习的 DQN 构建择时策略,虽 Actor - Critic 的 DDPG 算法也是好选择,但在本文框架下效果不佳,不同算法需精心设计体现优势 [37][39] DQN 与 Q - learning - 动作价值函数是计算基于指定策略采取动作的未来回报期望值,判断状态下动作好坏;最优动作价值函数是排除策略影响,只评价状态和动作好坏,Q 学习目的是学到最优动作价值函数,DQN 用神经网络替代 Q 表格近似 Q 函数 [40][41] - TD 算法训练 DQN 让 Q 网络对 t 时刻和下一时刻未来回报预测值之差接近真实奖励,更新 Q 网络的 MSE 损失函数基于此设计 [47] - DQN 训练有目标网络、ε - 贪婪策略和经验回放等优化技巧,目标网络切断自举缓解高估,ε - 贪婪策略提升探索能力,经验回放打破序列相关性、重复利用经验 [52][53][54] 日频择时策略 - 构建日频择时策略需定义强化学习五要素,环境是 A 股资产日频择时策略,状态是过去价量数据和持仓,智能体是神经网络,动作是做多、空仓和做空,奖励是结合交易成本的未来 5 日收益率 [58][62] - 网络结构对日频和分钟频数据用 GRU 提取信息,与持仓向量合并后经线性层等给出动作价值,输入数据经特征工程有 54 个特征,采用时序 Zscore 标准化 [59][64] 中证 1000 择时实践 - 以中证 1000 指数为标的,测试集 2022 年 7 月 22 日 - 2025 年 5 月 23 日,每年滚动训练,采用 50 次实验取平均缓解训练结果差异 [65] - 测试集结果显示,DQN 预测未来 5 日收益率表现上,做空信号胜率高,做多信号触发多且收益率大于零概率达 55.18%,空仓信号有做空价值,做多信号盈亏比高于做空信号 [68] - 构建的多空、多头和空头策略均跑赢基准,多空策略年化收益率 64.90%,但最大回撤高,空头策略稳定性好,仓位变化有连续性 [69][73] 优化:Multi - Step DQN - 多步 DQN 用多步奖励函数构造多步 TD 目标替代原始 TD 目标,减少 DQN 自举产生的高估问题,与蒙特卡洛方法相比各有优劣 [76] - 采用 3 步 TD 目标优化后,做多和做空信号比例更均衡,指标提升,各策略年化收益提高,风险控制指标改善,如多空策略年化收益率达 79.44% [79][83] 强化学习的不足 - 强化学习存在稳定性不足问题,算法本身不稳定,需多次训练取平均降低方差;超参数敏感,折扣因子等改变可能使效果失效;易样本内过拟合,样本内回测收益率远高于样本外;模型有黑箱性,预测值难解释 [85][86] 总结 - 传统量化投资方法有局限,强化学习可直接优化收益和风险指标,整合决策流程,缓解传统方法痛点 [89] - DQN 适合单一资产择时,应用于中证 1000 指数日频择时效果好,信号有效,策略跑赢基准,仓位连续合理,Multi - Step DQN 进一步优化信号质量和策略表现 [90][91] - 需认识到强化学习模型存在稳定性不足、超参数敏感、样本内过拟合和模型黑箱性等问题,实际投资不可完全依赖预测值 [91]
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 19:10
核心观点 - Google DeepMind CEO Demis Hassabis预测未来5到10年内有50%概率实现通用人工智能(AGI)[1] - AI发展历程中最大的教训是过度依赖人类经验而非算力与数据规模[2][3] - 当前AGI探索面临技术路径的隐忧,包括强化学习的局限性、脑模拟的算力瓶颈以及NLP的认知边界问题[9][14] 技术路径分析 - **强化学习**:虽为早期突破性技术,但存在"短视"缺陷,需结合更宏观的智能框架[14] - **脑模拟**:受限于算力瓶颈与理论盲区,难以完全复现人类认知机制[14] - **自然语言处理(NLP)**:虽进展迅速,但语言能力不等同于认知能力,模型输出与真实思想存在本质差异[9][15] 行业趋势与反思 - **算力驱动**:历史表明AI突破的核心引擎是计算规模而非人类直觉[2][3] - **大模型争议**:Scaling Law下参数膨胀可能掩盖智能本质,引发"进化还是幻觉"的质疑[15] - **跨学科融合**:脑科学与AI交叉研究成为新方向,强调对世界理解与知识迁移的能力[7][13] 关键人物与事件 - **刘嘉教授**:从AI转向脑科学再回归,提出AGI需融合认知科学、心理学等多学科视角[7][13] - **AlphaGo事件**:标志性技术转折点,推动研究者重新审视智能的本质与构建路径[7] - **《苦涩的教训》**:Richard Sutton指出AI发展应放弃人类经验依赖,专注算力与数据扩展[2][3] 未来探讨方向 - AGI构建是否需突破语言模型的表层能力,实现真正的认知理解[9][15] - 技术路线选择如何平衡短期效果(如NLP)与长期智能本质(如脑模拟)[14] - 跨学科研究(脑科学+AI)对突破现有范式局限的潜在价值[7][13]
哈啰进军无人驾驶赛道!背靠蚂蚁+宁王,能否复刻两轮神话?
南方都市报· 2025-06-25 23:19
公司动态 - 哈啰出行与蚂蚁集团、宁德时代三方合资成立"上海造父智能科技有限公司",注册资金12.88亿元,首期合计出资超过30亿元,专攻L4级自动驾驶技术研发与商业化落地 [1] - 合资公司股东分别为上海云玚企业管理咨询有限公司(蚂蚁集团)、上海钧哈网络科技有限公司(哈啰)、宁波梅山保税港区问鼎投资有限公司(宁德时代) [1] - 三方曾于2019年合作推出小哈换电业务,为两轮电动车用户提供换电解决方案,此次合作积累了一定协同经验 [4] 合作优势 - 哈啰出行在出行场景积累深厚,已搭建AI大模型和自动驾驶研发团队,并计划吸引全球人才 [3] - 蚂蚁集团提供资金支持,其金融支付平台、数据资产及AI技术(大模型、强化学习)可助力无人车支付闭环、保险设计和信用体系搭建 [3] - 宁德时代在动力电池领域的技术优势可缓解电动出行的"里程焦虑",为自动驾驶提供核心能源支持 [3] 行业竞争格局 - 国内Robotaxi赛道竞争激烈:百度Apollo拥有海量测试数据,小马智行、文远知行已在多地开放无人驾驶收费运营,滴滴依托出行平台用户数据优势布局 [6] - 主机厂如广汽(如祺Robotaxi)、上汽(享道Robotaxi)、吉利(曹操智行)均已入场 [6] - 特斯拉Robotaxi服务于美国得克萨斯州奥斯汀市投入运营,加剧全球市场竞争 [6] 行业挑战 - 技术层面需解决复杂环境下的安全性和可靠性问题,尽管传感器、算法优化等领域已有突破 [6] - 前期研发投入巨大:Waymo年研发投入超20亿美元,百度萝卜快跑累计投入高昂 [7] - 运营成本高企:激光雷达等硬件价格居高不下,千台车队的年运维成本近亿元,多数企业仍处于亏损状态 [7][8] 发展前景 - 哈啰通过"场景+技术+能源"协同模式整合资源,有望在Robotaxi市场开辟独特路径 [8] - 行业需突破技术研发、成本控制、市场拓展等难题以实现可持续盈利 [8]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 14:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
量子位· 2025-06-24 21:36
核心观点 - Sakana AI推出新方法,要求教师模型像人类教师一样输出清晰的逐步解释,而非从头解决问题[1] - 新方法训练出的7B小模型在传授推理技能方面比671B的DeepSeek-R1更有效[2] - 新方法能训练比自己大3倍的学生模型[3] 方法对比 - 传统方法:教师模型通过昂贵的强化学习训练,需从头解决问题,依赖自身能力[5][6][8] - 新方法:教师模型根据已知解决方案输出逐步解释,奖励标准是对学生模型的帮助程度[9][11][12] 性能表现 - 7B的RLT教师模型训练出的RLT-7B学生模型在AIME 2024 MATH 500 GPQA Diamond Overall得分49.50,优于DeepSeek-R1训练的Bespoke-7B(46.60)[4][17] - 7B的RLT教师模型成功训练32B学生模型RLT-32B,得分73.23,优于DeepSeek-R1训练的Bespoke-32B(71.47)[4][17][18] 效率优势 - 新方法训练32B学生模型仅需单个计算节点一天时间,传统方法需数月[24] - 新方法可与传统RL方法联合使用,提升性能[22][23] 解释质量 - DeepSeek-R1输出依赖外部工具和误导性内容[26] - RLT提供简洁清晰的解释,增加逻辑步骤帮助学生[27][28]