Workflow
强化学习
icon
搜索文档
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
语言模型对奖励噪音的鲁棒性研究 - 语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分奖励(如正确答案得0分,错误答案得1分),下游任务表现不受显著影响 [2] - 强化学习对下游任务的提升关键在于模型能否产生高质量的思考过程,而非奖励的绝对准确性 [2] - 仅通过奖励模型输出中关键思考词的出现频率(而非答案正确性),语言模型仍能取得高表现 [2] 思考模式奖励机制(RPR) - 设计极简奖励机制RPR,根据高频思考关键词(如"First, I need to"、"finally")的出现频次给予奖励 [6][7] - 仅使用RPR机制(不考虑答案正确性),Qwen-2-5-7B在MATH-500数据集上准确率从5%提升至70%以上 [11] - RPR可校准奖励模型输出,即使奖励模型准确率仅65%,校准后效果接近85%准确率模型的表现 [17] 奖励模型准确率与噪声耐受性 - 当奖励模型准确率超过75%时,不同模型训练结果的主观评测得分相似 [14] - 奖励模型准确率低于75%时训练效果显著下降,65%准确率时表现大幅劣化 [14] - RPR校准可帮助较小模型(如Qwen-2-5-3B)避免训练崩溃,在复杂开放任务中展现良好解题思路 [20][21] 强化学习的核心作用 - 强化学习主要改变语言模型输出风格并形成良好思考模式,而非教授新知识 [22] - 预训练阶段的能力提升仍至关重要,因其构成下游任务表现的基础瓶颈 [23] - 实验显示Llama3因预训练阶段思考路径质量不足,表现和抗噪音能力显著弱于Qwen模型 [23]
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
AI科技大本营· 2025-06-06 18:18
AI技术演进与经验时代 - 当前AI发展正从"人类数据时代"转向"经验时代",依赖静态人类数据的模式已接近极限,高质量数据源基本耗尽[9] - 真正的智能应源于动态经验交互而非预设数据,智能体需通过第一人称视角与环境持续互动获取成长性数据源[6][9][13] - AlphaGo的"神之一手"和AlphaProof数学推理证明经验交互的价值,游戏/数学等规则明确领域已实现突破[12] - 经验定义为传感器输入与执行器反馈的闭环,类似婴儿探索或运动员实时决策的高带宽感知-行动机制[10][11] 智能体AI的技术特征 - 智能本质在于预测与控制感官输入的能力,即预判环境反馈并制定策略的因果认知[6][13] - 持续学习(Continual Learning)是核心挑战,现有大语言模型缺乏与世界模型结合的规划能力[17][34] - AI智能体(Agentic AI)需具备目标导向、环境互动和记忆更新能力,当前强化学习尚未解决现实世界不确定性[13][34] - 从模拟时代(AlphaGo)→人类数据时代(GPT-3)→经验时代的技术演进路径已明确[14] 去中心化合作的社会模型 - 超级智能体或被增强的人类将带来净正面影响,技术失业等问题属转型阵痛[3][17] - 社会运作应基于多样目标个体的互惠协作,类似市场经济中差异化分工带来的高效系统[21][24] - 语言和货币是促进人类合作的关键发明,合作失败案例(战争/腐败)源于机制失效而非技术本身[23][25] - 中心化控制(蜂群模式)与去中心化合作存在根本张力,后者更具韧性和抗欺诈能力[24][25] AI治理与发展争议 - AI安全争论本质是"改变AI本身"与"改造社会环境"两种路径的分歧,后者更可持续[31] - 限制AI目标或算力的主张与政治领域的言论自由/贸易保护争议具有相似性[26] - 《苦涩的教训》指出可扩展计算优于人为规则,从人类数据转向经验数据印证这一观点[35][36] - AGI实现需突破持续学习和世界模型规划,预计时间跨度5-15年而非短期[34]
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 17:36
模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 12:01
核心观点 - 通义实验室推出自主信息检索智能体WebDancer,具备多步推理与连续动作执行能力,解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法(CRAWLQA、E2HQA)和两阶段训练策略(监督微调+强化学习),显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型,最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺(现有数据集如2WIKI仅支持浅层问题)、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - **CRAWLQA**:模拟人类浏览行为爬取权威网站(arXiv、Wikipedia),生成多样化真实问答对[6] - **E2HQA**:采用"由简到难"策略构建多步推理问答,通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容,确保逻辑性与多样性[9][10] 训练方法 - **监督微调(SFT)**:屏蔽Observation干扰,专注Thought-Action损失计算,提升鲁棒性[12] - **强化学习(RL)**:采用DAPO算法动态采样低利用率数据,优化奖励函数设计,降低训练成本[13][15] 实验结果 - **GAIA数据集**:WebDancer+QwQ-32B组合达到56.4% Level 1准确率,显著高于Qwen-2.5-32B(20.5%)[20] - **WebWalkerQA数据集**:中等难度任务中WebDancer表现最优(55.0% vs 基线35.0%)[20] - **BrowseComp数据集**:中文任务得分22.2,远超GPT-4o(6.2)[21][22] 未来方向 - 扩展工具集成(浏览器建模、Python沙盒)以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸,提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]
赛道Hyper | 字节跳动VMR²L系统实现工程秒级推理
华尔街见闻· 2025-06-06 11:22
作者:周源/华尔街见闻 VMR²L是一种虚拟机重调度系统,全称Versatile Multi-agent Reinforcement Learning with Real-time Reasoning,直译就是:具备实时推理能力的、通用多智能体强化学习系统。 此外还有两阶段智能体架构,通过显式约束过滤非法动作,自然满足资源容量、亲和性限制等工业级调 度规则,在不同负载场景下泛化误差小于5%。 测试数据显示,在典型云计算集群中,VMR²L可将资源利用率提升18%-22%,迁移时间从分钟级降至 秒级,为高密度数据中心的实时资源调度提供了可行方案。 6月5日,字节跳动技术团队微信公众号发文称,由字节跳动ByteBrain团队主导,联合加州大学默塞德 分校(UC Merced)与伯克利分校(UC Berkeley),提出了VMR²L,研发出一套基于深度强化学习的 VMR系统:在保持近似最优性能的同时,将推理时间压缩至1.1秒,成功实现系统性能与工业可部署性 的统一。 通过深度强化学习技术,VMR²L将虚拟机资源调度的推理时间压缩至1.1秒,同时保持与传统混合整数 规划(MIP)方法相近的资源优化效果,为云计算、数据中 ...
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 08:58
核心观点 - DeepTheorem是首个基于自然语言的数学定理证明框架与数据集,通过12.1万道IMO级难度数学题训练AI模型,使7B参数模型在定理证明性能上比肩或超越部分开源模型和商业模型(如Claude3.7)[1][2][4] 数据集特点 - 数据集规模达121K,难度等级为5-9级,显著大于现有数学定理数据集且难度更高,与国际数学奥赛级别测试集难度分布相似[6] - 数据经过严格五阶段去污染流程,包括嵌入相似性搜索和LLM-Judge消除与14个通用数学及STEM基准的重叠,确保评估完整性[9][11] - 每条数据包含问题、最终答案(真/假)、难度标注、分层主题分类及o3-mini生成的证明过程,支持监督微调与强化学习训练[15] 方法创新 - 引入可验证奖励强化学习(RLVR),通过自动化方法对每个定理生成可证明或证伪的变体,将原始121K定理扩展至242K变体[17][19] - 采用基于GRPO的RLVR训练,模型需判断定理真伪并通过二值奖励函数(正确得1分,错误得0分)优化性能[20][21] 评估框架 - 测试集整合FIMO(172题)、HMMT(205题)和PutnamBench(281题),通过手工扩展变体形成658个总测试样本[22][24] - 评估指标包含结果评价(模型需正确判断所有变体)和过程评价(GPT-4o从逻辑正确性等四个维度打分)[25][26] 性能表现 - DeepTheorem-7B模型在三个测试集上平均结果评价达47.22%,过程评价达34.04%,在18个模型中排名第五,超越Claude3.7-Sonnet(31.44%)等商业模型[28] - 模型性能仅次于o1系列、o3-mini及Gemini2.5-Pro等强推理模型,显著优于参数量相近的定理证明模型(如DeepSeek-Prover)和更大参数模型(如Qwen2.5-72B)[28] 行业意义 - 框架突破传统形式语言定理证明范式,充分利用大模型自然语言能力,为AI在数学推理领域应用开辟新思路[31] - 推动AI从封闭计算向复杂数学证明迈进,助力构建更通用、认知更复杂的智能系统[32]
Gemini2.5弯道超车背后的灵魂人物
虎嗅· 2025-06-05 11:14
Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段,过去一年行业重点转向对齐阶段,特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验,并更加重视强化学习的作用,引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点,Anthropic在预训练阶段优先投入高质量代码数据,使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势,在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择,Anthropic专注编程导致其他能力稍弱,OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角,分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合,前者擅长大规模资源调度和预训练,后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode",显著提升团队士气和工作强度,推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力,为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态,避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行,拥有动态调度大规模集群的独家优势,OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势,API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间,Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先,Anthropic通过代码能力突破建立优势,Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升,各家在不同领域轮流领跑:写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出,反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点,Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]
人形机器人“擂台赛”,南京这样“打”
南京日报· 2025-06-05 08:21
技术发展 - 人形机器人采用强化学习技术实现自我优化 通过正负奖励机制调整行为策略 例如成功迈步获正奖励 摔倒则得负奖励 [2] - 电动伺服技术应用成熟但负载能力受限 电液伺服功率密度大且适应复杂环境 如灾害救援等场景 [3][4] - 集萃智造同时开发电动伺服和电液伺服机器人 电液伺服四足机器人行走速度达每小时5公里 相当于人类快走速度 [4] - 机器人腿部关节设计6个自由度 对应胯部/膝盖/脚踝 需解决空间智能大模型作为"大脑"及续航瓶颈问题 [3][6] 应用场景 - 短期聚焦工业制造细分领域 如天创电子推出全球首款防爆人形机器人"天魁1号" 针对危化防爆场景 已获数千万元意向订单 [6] - 中期拓展至农业/建筑等复杂场景 长期目标覆盖商务/家居/养老等领域 埃斯顿医疗已将其康复机器人延伸至5家社区及医养集团 [6][7] - 亿嘉和优化具身智能人形机器人运动控制 目标2027年前将养老场景服务成本降低60% [7] 产业链布局 - 南京在核心零部件领域形成竞争力 如因克斯智能关节模组被超过50%马拉松参赛机器人采用 关节成本占整机超50% [8] - 南京计划打造"1+N+1"整机体系 包括前瞻布局人形机器人产业 构筑通用整机平台 建立小批量生产能力 [10] - 设立机器人产业攻坚推进办公室 举办供需对接会 9家企业展示前沿技术成果 推动场景应用落地 [10] 行业趋势 - 人形机器人体育赛事热度提升 8月将举办世界首个人形机器人运动会 涵盖田径/足球等项目 旨在提高社会关注度 [1][6] - 专家预计人形机器人进入千家万户需10年 需解决制造成本高/数据质量/操作泛化性等挑战 [6] - 建议设立合作基金撬动社会资本 形成"技术突破-量产降本-场景扩展"良性循环 初创企业与龙头分工协作 [9][10]
高新技术助力新能源发电系统高质量运行
新华日报· 2025-06-05 04:56
电气自动化技术特点 - 电气自动化技术融合电子技术、计算机技术、控制技术等多学科知识,具有智能化、高效化、网络化和环保化等特点 [1] - 该技术对促进新能源发电系统高质量运行具有重要意义 [1] 储能系统优化 - 引入模型预测控制(MPC)算法,根据实时光照强度预测光伏发电功率变化,结合电网负荷需求和储能系统荷电状态(SOC)建立精确数学模型 [2] - 应用强化学习优化储能系统充放电过程,以SOC、充放电功率等作为状态变量,通过反馈信号增强稳定性和可靠性 [2] - 储能设备选型需综合考虑能量密度、功率密度、循环寿命、成本等因素,满足能量存储和快速响应需求 [2] - 储能设备布局应靠近新能源发电设备,减少输电线路损耗,提高能量传输效率和供电可靠性 [2] 智能电网技术 - 智能电网基于集成、高速双向通信网络,融合传感技术、设备技术、控制方法和决策支持系统 [3] - 配电自动化系统利用智能电表、分布式传感器实时采集数据,通过通信网络传输至主站,实现智能化运行和管理 [3] - 变电站自动化系统采用先进控制算法和智能策略,支持远程操作断路器、隔离开关等设备,提高操作准确性和效率 [3] 能源管理系统(EMS)优化 - EMS深度优化可提升对新能源发电和电网负荷的精准管理能力 [4] - 引入高精度功率传感器和高速通信网络,实时监测新能源发电功率并精确到小数点后两位,数据以毫秒级传输 [4] - 利用遗传算法、粒子群算法等智能算法和模型预测控制技术,优化调度策略,合理分配新能源与传统能源发电比例 [4] 发电设备智能化诊断与维护 - 太阳能发电站运用物联网技术安装传感器,实时采集光伏组件温度、输出电流等参数,通过通信模块传输至云平台进行故障诊断 [5] - 风力发电场为机组配备传感器监测风速、叶片转速等参数,支持远程控制叶片桨距角和启停风机 [5] - 基于物联网远程监控系统对关键部件进行健康监测和故障预测,利用机器学习建立健康模型,降低故障率和维护成本 [5] - 制定预防性维护计划,结合设备健康模型和使用年限,安排定期巡检、保养和部件更换 [5] - 运维人员使用智能穿戴设备和便携式检测仪器采集数据,技术专家可远程指导维护工作 [6]
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 08:17
技术突破 - 提出全新训练框架General-Reasoner,显著提升Qwen系列大模型的跨领域推理准确率近10% [1][2] - 在多个基准测试中超越GPT-4o,如General-Reasoner-Qwen3-14B在GPQA任务准确率达56.1%,TheoremQA达54.4% [15] - 强化学习(RL)被视为提升模型推理能力的关键手段,但现有方法如Zero-RL局限于数据丰富、答案结构清晰的领域 [3] 方法创新 - 构建全领域推理数据集WebInstruct-verified,覆盖物理、化学、金融等领域约23万个高质量可验证推理问题 [5][9] - 开发生成式答案验证器General-Verifier,以1.5B参数小型模型取代传统规则式验证,显著提高跨领域答案验证准确率 [13] - 数据筛选过程严格,剔除模糊或过于简单的问题,确保数据集质量 [12] 数据集构建 - 初始数据来源于WebInstruct,包含约500万个从StackExchange和教育门户网站爬取的自然指令 [6] - 通过Gemini-1.5-Pro筛选出100万个候选问题,再经Gemini-2.0-Flash标注元数据并平衡数据 [7] - 最终数据集涵盖23万道具有不同答案格式和主题的推理问题 [9] 性能表现 - General-Reasoner在12个基准测试中表现优异,Qwen2.5-7B-Base在MMLU-Pro准确率达58.9%,高于基础模型的47.7% [15] - 在数学推理任务中略优于专业框架SimpleRL [15] - 生成式验证器与Gemini-2.0-Flash高度一致,鲁棒性与泛化能力显著超越传统方法 [13] 未来方向 - 研究团队计划优化模型性能,扩展更多领域的高质量推理数据,提升验证器鲁棒性 [17] - 推动大语言模型在复杂现实任务中的广泛应用 [17]