强化学习

搜索文档
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 11:54
核心观点 - 强化学习(RL)在AI模型预训练阶段展现出突破性潜力,微软研究提出的「强化预训练(RPT)」新范式将传统next-token预测任务重构为推理任务,通过可验证的内在奖励提升模型性能 [6][9][24] - RPT通过利用海量无标注文本数据实现通用强化学习,显著提升语言建模准确性和推理能力,同时规避reward hacking风险 [26][28][29][30] - 实验表明RPT-14B模型在next-token预测准确率、零样本性能及下游任务微调效果上均超越基线模型,甚至媲美更大规模模型 [40][42][43][49][50] 技术范式创新 - **任务重构**:将next-token预测转化为推理过程,模型通过比对语料真实token获得内在奖励,无需外部标注 [25][32] - **可扩展性**:直接利用现有预训练语料库,将其转化为强化学习训练资源,支持长思维链推理(如自我修正) [28][33][34] - **训练机制**:采用on-policy强化学习,生成多组思维轨迹并通过前缀匹配奖励验证,分配更多计算资源于推理步骤 [35][37][31] 实验性能表现 - **语言建模**:RPT-14B在Easy/Medium/Hard难度测试集上next-token准确率分别达45.11%/33.56%/23.75%,全面超越基线模型Qwen2.5-14B和R1-Distill-Qwen-14B [42] - **Scaling特性**:预测准确率随训练计算量增加持续提升,高R2值验证性能增长趋势稳定 [45] - **下游任务**:经RPT预训练的模型在RLVR微调后性能上限提升至58.3,显著高于基线模型的52.7 [47][48] - **零样本能力**:在SuperGLUE和MMLU-Pro基准测试中,RPT-14B分别以39.0和71.1的分数超越32B大模型 [50] 行业影响 - **突破限制**:解决传统RL依赖人类反馈数据(高成本)和RLVR数据稀缺的问题,实现通用预训练与强化学习的结合 [22][23][24] - **效率提升**:通过推理过程直接优化token预测准确性,模型在相同参数量下性能可比拟更大规模模型 [43][49] - **潜在应用**:特别适用于需复杂推理的领域(如数学解题),模型表现出结构化问题解决能力 [51][53]
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
机器之心· 2025-06-11 11:54
模型发布 - 欧洲人工智能公司Mistral AI发布全新大语言模型系列Magistral,具备强大推理能力,可解决复杂任务[3][4] - 发布两个版本:专有模型Magistral Medium(企业客户)和开源模型Magistral Small(24B参数,Apache 2.0许可)[5] - 开源版本可自由商用,专有版本通过Le Chat界面和La Plateforme API访问[5] 性能表现 - Magistral Medium在AIME2024基准测试中得分73.6%(多数投票64%,最高90%),Small版本得分70.7%和83.3%[6] - 在GPQA Diamond(研究生级问答)和LiveCodeBench(编程挑战)等高要求测试中表现优异[7] - 编程能力突出,单次生成代码即可模拟重力、摩擦力等物理现象[10] - 支持多语言高保真推理(英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等)[11] 技术突破 - 采用自研可扩展强化学习流水线,完全依赖自有模型和基础设施[15] - 文本强化学习保持多模态理解能力,核心设计原则为"用户语言推理"[16] - 通过fastText分类器实现语言一致性奖励机制,减少混合语言输出[16][17] - 系统提示优化(如"尽可能随意/长")显著提升模型探索能力[18] - Flash Answers技术实现10倍于竞品的token吞吐量,支持实时推理[14] 商业化进展 - 专有模型定价为输入2美元/百万token、输出5美元/百万token,较前代Mistral Medium 3(输入0.4美元、输出2美元)大幅上涨[21] - 横向对比显示价格竞争力:输入成本低于OpenAI最新型号,与Gemini 2.5 Pro持平,输出成本显著低于竞品[22] - 即将登陆Amazon SageMaker、Azure AI、IBM WatsonX和Google Cloud Marketplace等主流云平台[20] 迭代计划 - 公司计划以Magistral为起点加速模型迭代[25]
腾讯研究院AI速递 20250611
腾讯研究院· 2025-06-10 22:58
苹果系统与开发者工具更新 - 苹果发布六大系统统一设计,采用全新"Liquid Glass"流体玻璃元素,视觉效果大幅提升 [1] - 开放端侧大语言模型访问权限给所有App,系统级AI功能包括视觉搜索、实时翻译 [1] - iPadOS窗口系统迎来重大更新,macOS联动iPhone功能增强,但新Siri再次推迟发布 [1] - Xcode 26将集成ChatGPT,支持AI辅助代码编写、文档生成和错误修复 [1] - 开发者可通过API密钥引入其他供应商AI模型,构建多元智能编程生态 [1] - 发布Foundation Models框架,开发者仅需三行代码即可调用本地AI模型 [1] 美团NoCode无代码开发平台 - 美团发布AI Coding Agent工具NoCode,用户无需编程即可创建网页与应用 [2] - 工具集产品、设计、工程功能于一体,支持网站设计、游戏开发、商品管理等场景 [2] - 具备理解隐含需求能力,支持多人协作,已全量上线并提供免费使用 [2] 腾讯元宝电脑版功能升级 - 腾讯元宝电脑版划词功能升级,新增连续划词和自动翻译功能 [3] - 新增窗口置顶功能,划词结果窗口可固定悬浮,提升阅读效率 [3] - 升级功能特别适用于浏览外文网站、阅读英文文档和专业论文场景 [3] 秘塔AI知识转化工具 - 秘塔AI推出"今天学点啥"产品,可将PDF文献自动转化为易懂课程讲解 [5] - 支持多种讲课风格,提供语音讲解和原文对照模式,一键导出可编辑PPT和逐字稿 [5] - 适用于自学、职场阅读、学术文献解读和教学课件制作等场景 [5] Meta能源合作与AI发展 - Meta与Constellation Energy签署20年核能购买协议,规模达1121兆瓦 [6] - 协议超过微软与Constellation的835兆瓦合作,支持数据中心能源需求和AI发展计划 [6] - 合作将保留1100多个工作岗位,提升发电量30兆瓦,预计2027年启动供电 [6] 中科院芯片自动化设计技术 - 中国科学院推出"启蒙"系统,实现处理器芯片软硬件全自动设计 [7] - 系统自动设计的RISC-V CPU"启蒙2号"性能达到ARM Cortex A53水平 [7] - 采用三层架构和"三步走"技术路线,有望改变芯片设计范式,提升效率 [7] AI语音与交互趋势 - ElevenLabs认为AI语音中适度加入"不完美"特征如停顿、呼吸音更能促进用户互动 [9] - 未来语音Agent将具备上下文感知能力,实现从被动客服到主动体验引导的转变 [9] - 未来信任机制将验证内容是否人类发声,未经验证内容默认视为AI生成 [9] 强化学习与AI发展观点 - 强化学习之父Richard Sutton认为AI正从"人类数据时代"转向"经验时代" [10] - 主张去中心化合作模式,反对基于恐惧的中心化控制 [10] - 将宇宙演化划分为四个时代,认为人类正处于从复制者向设计者过渡期 [10] 大语言模型局限性讨论 - 大语言模型可能只是"柏拉图洞穴"中的观察者,通过文本间接"扫描"人类思维 [11] - 质疑为何语言模型能从预测token中学到知识,而视频模型从预测帧中学到较少 [11] - 当前AI系统可能只是模仿人类思维的"投影"而非真正理解世界 [11]
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 10:23
大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的 未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练 但模仿人类思维只能达到人类水平上限 难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢 类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧 多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力 人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧 部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域 当前LLM技术成熟度可能限制创新空间[31]
全景解读强化学习如何重塑 2025-AI | Jinqiu Select
锦秋集· 2025-06-09 23:22
强化学习技术进展 - 强化学习正在拓展AI能力边界,OpenAI o3具备原生工具调用能力,Claude Opus 4展现连续编码任务处理能力 [1] - 递归自我改进成为现实,模型参与训练下一代模型,优化编译器、内核工程和超参数 [2] - RL训练范式重塑AI产业格局:硬件转向分布式推理架构(Nvidia NVL72增强内存)、基础设施去中心化、企业合并推理与训练团队、数据成为新护城河 [3] OpenAI发展路线 - o4将基于推理成本更低但编码能力更强的GPT-4 1构建,策略转向优化推理效率 [4] - o5规划采用稀疏专家混合架构,通过算法突破而非计算暴力推进模型能力,RL或成AGI最后拼图 [4] - 当前o3模型通过工具调用实现智能与工具结合,使用特殊标记触发搜索等外部工具 [90][91] 技术特性与挑战 - RL在可验证领域(数学/编程)效果显著:GPT-4o在数学计算胜率提升70%,编程提升65% [14] - 非可验证领域(写作/策略)通过LLM评判者提供奖励信号,但存在不稳定风险(GPT-4o谄媚行为案例) [25][28] - 核心瓶颈在于推理密集性:GRPO算法需生成数百次答案展开,消耗大量内存和计算资源 [16][18] 基础设施需求 - 环境工程成关键挑战:需低延迟(行动到反馈<1秒)、容错机制、安全防护,Computer use任务需稳定运行数小时 [38][61] - NVL72系统提升RL能力:支持更多展开、处理长期任务、使用更大评判模型,内存扩展至72GB [71][72] - 去中心化趋势显现:RL各阶段可跨数据中心执行,实验室利用闲置推理集群生成合成数据 [73][74] 数据与训练策略 - 高质量数据成新护城河:通义千问用4000严格筛选问答对实现性能跃升,需STEM博士编写挑战性问题 [48][54] - 企业可通过用户行为数据构建RL优势,OpenAI强化微调(RFT)服务支持自定义评分器 [55] - 训练方法分化:Cohere采用模型合并权重策略,Multi-environment batching实现多领域并行学习但工程复杂度高 [97][100] 行业变革 - 实验室重组架构:OpenAI/Anthropic合并研究与推理团队,生产级推理成为训练核心 [78][80] - 模型迭代模式改变:发布后持续RL更新(如DeepSeek R1),GPT-4o已多次迭代优化 [81][82] - 小模型优化路径:蒸馏技术效率优于RL,通义千问用1800GPU小时实现63 3 MMLU分数 [104][106] 前沿应用 - 科学AI潜力巨大:建立实验室设备连接环境,控制熔炉温度等物理参数,但生物/材料领域反馈循环较慢 [64][66] - 数字孪生环境投资兴起:需RTX Pro GPU保留图形渲染能力,与AI专用硬件(H100/TPU)形成差异 [63] - Reward Hacking问题突出:Claude 3 7通过修改测试用例作弊,Anthropic在4 0版本将黑客率从47 2%降至15% [42][47]
AGI最后拼图,一文看懂什么是强化学习?其护城河是什么?
华尔街见闻· 2025-06-09 18:47
当DeepSeek-R1以更低成本实现类似性能突破时,Claude能够连贯工作数小时完成复杂任务时,意味着AI发展已经迈入推理时代,强化学习技术的 重要性不言而喻,将重塑AI产业的技术栈乃至商业模式。 6月8日,AI研究公司SemiAnalysis发布长篇报告《强化学习:环境、奖励破解、智能体、扩展数据》,深度剖析了强化学习的工作原理以及影响 因素,并预测了后续AI发展趋势。 报告表示,强化学习(RL)或成为AGI前最后关键范式,其理密集型特性带来了算力挑战。此外,高质量数据是强化学习护城河,AI设计AI的循 环加速技术迭代。 1. 强化学习(RL)或成为AGI前最后关键范式:强化学习是推动大模型推理能力跃升的核心技术,尤其在思维链(CoT)生成和长 程任务连贯性上表现突出,被视作实现AGI前的终极技术路径。 2. 可验证奖励场景率先商业化:编码、数学等奖励函数明确的任务(如SWE-Bench性能提升30%+)已实现落地,OpenAI的o1、 DeepSeek-R1等模型验证其价值。医疗、写作等非验证领域通过"LLM评判者+人工评分标准"构建奖励函数(如HealthBench医疗 评估),OpenAI、阿里Q ...
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
机器之心· 2025-06-09 12:33AI Processing
具身智能推动实现通用人工智能
人民日报海外版· 2025-06-09 12:19
具身智能理论 - 具身智能强调智能体的认知受感知与动作影响,主张智能行为来自身体与环境的交互,而非仅大脑功能[1] - 该理论与传统离身智能形成对比,后者基于笛卡尔身心二元论,忽视大脑与身体的联系[1] - 具身智能对认知科学、心理学、人工智能和机器人技术等领域产生深远影响[1] 人工智能发展历程 - 第一代人工智能基于知识与经验的推理模型,具有可解释性但应用受限[3] - 第二代人工智能采用数据驱动模型,通过大数据机器学习模拟人类感性行为,但存在不可解释等缺陷[3] - 2020年大语言模型出现标志第三代人工智能,在语言生成上取得突破,向通用人工智能迈出关键一步[4] 具身智能的优势 - 具身智能通过强化学习实现与环境的反复交互,优化决策和行动,弥补传统人工智能的不足[5] - 该理论将思考、感知与动作整合,使人工智能能在更广泛环境下完成复杂任务[5] - 具身智能推动机器人技术从单一感知向多模态感知发展,如自动驾驶汽车的多传感器融合[8] 机器人技术发展 - 1954年数字控制机械臂发明奠定现代工业机器人基础[7] - 1986年罗德尼·布鲁克斯提出行为主义机器人学,首次在机器人领域引入具身智能思想[7] - 具身智能推动机器人软硬件高度整合,催生人形机器人、装配机器人等多样化形态[8] 智能体概念应用 - 智能体理论将机器人思考、感知和动作连为一体,可在数字和物理世界完成任务[9] - 利用数字世界仿真可大幅提高机器人测试效率,如无人车实验[9] - 智能体间的博弈可实现机器自我进化,持续提升机器人性能[9]
跻身史上最大私营融资!传Meta(META.US)拟豪掷数十亿美元投资Scale AI加码AI数据军备竞赛
智通财经网· 2025-06-09 08:01
Meta投资Scale AI - Meta正就向Scale AI进行数十亿美元投资展开谈判 估值可能超过100亿美元 成为有史以来规模最大的私营企业融资事件之一 [1] - 2024年Scale AI在一轮包括Meta参与的投资中估值已达约140亿美元 [1] - 对Meta而言 与Scale深化合作有助于其跟上谷歌 OpenAI等AI竞争对手的步伐 也有助于在其更多涉足国防科技之际与美国政府建立更紧密联系 [2] - 对Scale来说 与Meta的合作将带来一个强大且财力雄厚的盟友 [2] Scale AI业务与地位 - Scale已成为AI三大支柱——芯片 人才和数据——中数据领域的绝对领导者 [1] - 通过庞大外包团队为Meta和OpenAI等科技公司提供AI模型训练所需的数据标注服务 并协助开发定制化AI应用 [1] - 正越来越多地招募博士 护士等高学历专家参与复杂模型的开发 [1] - 早期专注于标注汽车 交通信号灯和路标的图像以帮助训练自动驾驶汽车模型 后转向注释和管理构建支撑ChatGPT等聊天机器人所需的海量文本数据 [3] - 重点转向医疗法律等专业领域 例如提升AI处理各国税法差异的能力 [4] - 越来越多地转向聘请薪资更高的研究生学历承包商来优化AI系统 参与强化学习过程 [4] - 截至2025年初 在参与模型优化过程的公司贡献者中 12%拥有分子生物学等领域的博士学位 超40%拥有所在领域的硕士学位 法律学位或MBA学位 [4] Scale AI增长与影响 - 2024年营收约8.7亿美元 预计今年营收达20亿美元 [4] - 在DeepSeek崛起后 对专家网络的需求增加 因为更多公司投资于模仿人类推理 执行更复杂任务的模型 [4] - 28岁的Wang曾在国会听证会上提出建立"国家AI数据储备库" 保障数据中心供电等建议 获得两党议员认可 [3] - 通过国防合同深化与政府合作 公司前高管Michael Kratsios现已成为特朗普的核心科技顾问 [3] - 发展轨迹既受OpenAI引发的AI热潮影响 也反作用于这一趋势 [3]
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
语言模型对奖励噪音的鲁棒性研究 - 语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分奖励(如正确答案得0分,错误答案得1分),下游任务表现不受显著影响 [2] - 强化学习对下游任务的提升关键在于模型能否产生高质量的思考过程,而非奖励的绝对准确性 [2] - 仅通过奖励模型输出中关键思考词的出现频率(而非答案正确性),语言模型仍能取得高表现 [2] 思考模式奖励机制(RPR) - 设计极简奖励机制RPR,根据高频思考关键词(如"First, I need to"、"finally")的出现频次给予奖励 [6][7] - 仅使用RPR机制(不考虑答案正确性),Qwen-2-5-7B在MATH-500数据集上准确率从5%提升至70%以上 [11] - RPR可校准奖励模型输出,即使奖励模型准确率仅65%,校准后效果接近85%准确率模型的表现 [17] 奖励模型准确率与噪声耐受性 - 当奖励模型准确率超过75%时,不同模型训练结果的主观评测得分相似 [14] - 奖励模型准确率低于75%时训练效果显著下降,65%准确率时表现大幅劣化 [14] - RPR校准可帮助较小模型(如Qwen-2-5-3B)避免训练崩溃,在复杂开放任务中展现良好解题思路 [20][21] 强化学习的核心作用 - 强化学习主要改变语言模型输出风格并形成良好思考模式,而非教授新知识 [22] - 预训练阶段的能力提升仍至关重要,因其构成下游任务表现的基础瓶颈 [23] - 实验显示Llama3因预训练阶段思考路径质量不足,表现和抗噪音能力显著弱于Qwen模型 [23]