强化学习

搜索文档
赛道Hyper | 字节跳动VMR²L系统实现工程秒级推理
华尔街见闻· 2025-06-06 11:22
作者:周源/华尔街见闻 VMR²L是一种虚拟机重调度系统,全称Versatile Multi-agent Reinforcement Learning with Real-time Reasoning,直译就是:具备实时推理能力的、通用多智能体强化学习系统。 此外还有两阶段智能体架构,通过显式约束过滤非法动作,自然满足资源容量、亲和性限制等工业级调 度规则,在不同负载场景下泛化误差小于5%。 测试数据显示,在典型云计算集群中,VMR²L可将资源利用率提升18%-22%,迁移时间从分钟级降至 秒级,为高密度数据中心的实时资源调度提供了可行方案。 6月5日,字节跳动技术团队微信公众号发文称,由字节跳动ByteBrain团队主导,联合加州大学默塞德 分校(UC Merced)与伯克利分校(UC Berkeley),提出了VMR²L,研发出一套基于深度强化学习的 VMR系统:在保持近似最优性能的同时,将推理时间压缩至1.1秒,成功实现系统性能与工业可部署性 的统一。 通过深度强化学习技术,VMR²L将虚拟机资源调度的推理时间压缩至1.1秒,同时保持与传统混合整数 规划(MIP)方法相近的资源优化效果,为云计算、数据中 ...
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 08:58
DeepTheorem团队 投稿 量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题",让AI学会像人类一样 推导数学证明 ! "特训"过后,模型定理证明性能大涨 ,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型 。 "特训题"为 Deep Theore m ,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。 团队表示,定理证明是数学前沿的重要组成部分,但当前大语言模型 (LLM) 在数学推理,特别是通过强化学习 (RL) 进行训练时,往往 需要可以自动验证的答案,导致大模型无法像数学家那样通过自然语言进行定理证明。 图(b)展示经过强化学习训练的DeepTheorem-7B模型性能,比肩或超越现有的开源模型和商业模型 (Gemini2.0-flash, Qwen2.5-72B- Instruct, Claude3.7 等 ) ,仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度:专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...
Gemini2.5弯道超车背后的灵魂人物
虎嗅· 2025-06-05 11:14
Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段,过去一年行业重点转向对齐阶段,特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验,并更加重视强化学习的作用,引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点,Anthropic在预训练阶段优先投入高质量代码数据,使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势,在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择,Anthropic专注编程导致其他能力稍弱,OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角,分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合,前者擅长大规模资源调度和预训练,后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode",显著提升团队士气和工作强度,推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力,为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态,避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行,拥有动态调度大规模集群的独家优势,OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势,API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间,Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先,Anthropic通过代码能力突破建立优势,Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升,各家在不同领域轮流领跑:写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出,反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点,Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]
人形机器人“擂台赛”,南京这样“打”
南京日报· 2025-06-05 08:21
技术发展 - 人形机器人采用强化学习技术实现自我优化 通过正负奖励机制调整行为策略 例如成功迈步获正奖励 摔倒则得负奖励 [2] - 电动伺服技术应用成熟但负载能力受限 电液伺服功率密度大且适应复杂环境 如灾害救援等场景 [3][4] - 集萃智造同时开发电动伺服和电液伺服机器人 电液伺服四足机器人行走速度达每小时5公里 相当于人类快走速度 [4] - 机器人腿部关节设计6个自由度 对应胯部/膝盖/脚踝 需解决空间智能大模型作为"大脑"及续航瓶颈问题 [3][6] 应用场景 - 短期聚焦工业制造细分领域 如天创电子推出全球首款防爆人形机器人"天魁1号" 针对危化防爆场景 已获数千万元意向订单 [6] - 中期拓展至农业/建筑等复杂场景 长期目标覆盖商务/家居/养老等领域 埃斯顿医疗已将其康复机器人延伸至5家社区及医养集团 [6][7] - 亿嘉和优化具身智能人形机器人运动控制 目标2027年前将养老场景服务成本降低60% [7] 产业链布局 - 南京在核心零部件领域形成竞争力 如因克斯智能关节模组被超过50%马拉松参赛机器人采用 关节成本占整机超50% [8] - 南京计划打造"1+N+1"整机体系 包括前瞻布局人形机器人产业 构筑通用整机平台 建立小批量生产能力 [10] - 设立机器人产业攻坚推进办公室 举办供需对接会 9家企业展示前沿技术成果 推动场景应用落地 [10] 行业趋势 - 人形机器人体育赛事热度提升 8月将举办世界首个人形机器人运动会 涵盖田径/足球等项目 旨在提高社会关注度 [1][6] - 专家预计人形机器人进入千家万户需10年 需解决制造成本高/数据质量/操作泛化性等挑战 [6] - 建议设立合作基金撬动社会资本 形成"技术突破-量产降本-场景扩展"良性循环 初创企业与龙头分工协作 [9][10]
高新技术助力新能源发电系统高质量运行
新华日报· 2025-06-05 04:56
电气自动化技术特点 - 电气自动化技术融合电子技术、计算机技术、控制技术等多学科知识,具有智能化、高效化、网络化和环保化等特点 [1] - 该技术对促进新能源发电系统高质量运行具有重要意义 [1] 储能系统优化 - 引入模型预测控制(MPC)算法,根据实时光照强度预测光伏发电功率变化,结合电网负荷需求和储能系统荷电状态(SOC)建立精确数学模型 [2] - 应用强化学习优化储能系统充放电过程,以SOC、充放电功率等作为状态变量,通过反馈信号增强稳定性和可靠性 [2] - 储能设备选型需综合考虑能量密度、功率密度、循环寿命、成本等因素,满足能量存储和快速响应需求 [2] - 储能设备布局应靠近新能源发电设备,减少输电线路损耗,提高能量传输效率和供电可靠性 [2] 智能电网技术 - 智能电网基于集成、高速双向通信网络,融合传感技术、设备技术、控制方法和决策支持系统 [3] - 配电自动化系统利用智能电表、分布式传感器实时采集数据,通过通信网络传输至主站,实现智能化运行和管理 [3] - 变电站自动化系统采用先进控制算法和智能策略,支持远程操作断路器、隔离开关等设备,提高操作准确性和效率 [3] 能源管理系统(EMS)优化 - EMS深度优化可提升对新能源发电和电网负荷的精准管理能力 [4] - 引入高精度功率传感器和高速通信网络,实时监测新能源发电功率并精确到小数点后两位,数据以毫秒级传输 [4] - 利用遗传算法、粒子群算法等智能算法和模型预测控制技术,优化调度策略,合理分配新能源与传统能源发电比例 [4] 发电设备智能化诊断与维护 - 太阳能发电站运用物联网技术安装传感器,实时采集光伏组件温度、输出电流等参数,通过通信模块传输至云平台进行故障诊断 [5] - 风力发电场为机组配备传感器监测风速、叶片转速等参数,支持远程控制叶片桨距角和启停风机 [5] - 基于物联网远程监控系统对关键部件进行健康监测和故障预测,利用机器学习建立健康模型,降低故障率和维护成本 [5] - 制定预防性维护计划,结合设备健康模型和使用年限,安排定期巡检、保养和部件更换 [5] - 运维人员使用智能穿戴设备和便携式检测仪器采集数据,技术专家可远程指导维护工作 [6]
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 08:17
技术突破 - 提出全新训练框架General-Reasoner,显著提升Qwen系列大模型的跨领域推理准确率近10% [1][2] - 在多个基准测试中超越GPT-4o,如General-Reasoner-Qwen3-14B在GPQA任务准确率达56.1%,TheoremQA达54.4% [15] - 强化学习(RL)被视为提升模型推理能力的关键手段,但现有方法如Zero-RL局限于数据丰富、答案结构清晰的领域 [3] 方法创新 - 构建全领域推理数据集WebInstruct-verified,覆盖物理、化学、金融等领域约23万个高质量可验证推理问题 [5][9] - 开发生成式答案验证器General-Verifier,以1.5B参数小型模型取代传统规则式验证,显著提高跨领域答案验证准确率 [13] - 数据筛选过程严格,剔除模糊或过于简单的问题,确保数据集质量 [12] 数据集构建 - 初始数据来源于WebInstruct,包含约500万个从StackExchange和教育门户网站爬取的自然指令 [6] - 通过Gemini-1.5-Pro筛选出100万个候选问题,再经Gemini-2.0-Flash标注元数据并平衡数据 [7] - 最终数据集涵盖23万道具有不同答案格式和主题的推理问题 [9] 性能表现 - General-Reasoner在12个基准测试中表现优异,Qwen2.5-7B-Base在MMLU-Pro准确率达58.9%,高于基础模型的47.7% [15] - 在数学推理任务中略优于专业框架SimpleRL [15] - 生成式验证器与Gemini-2.0-Flash高度一致,鲁棒性与泛化能力显著超越传统方法 [13] 未来方向 - 研究团队计划优化模型性能,扩展更多领域的高质量推理数据,提升验证器鲁棒性 [17] - 推动大语言模型在复杂现实任务中的广泛应用 [17]
AGI的不归之途
虎嗅APP· 2025-06-03 21:52
大模型与智能体进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等大模型密集发布 智能体协议MCP、A2A的融合推动AGI进程加速 [3] - 硅谷研究机构METR数据显示智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 初级白领岗位面临大规模替代风险 [3] - Anthropic创始人预测2026年将出现"一人独角兽公司" 智能体技术正在突破鲍莫尔病对服务业效率的限制 [3] 科技巨头战略调整 - 美国科技七雄大幅增加AI基础设施投入 同时裁撤可替代岗位 OpenAI年化收入达百亿美元 Anthropic收入半年内从10亿增至30亿美元 [4] - 中国科技巨头创始人深度参与技术变革 阿里、腾讯、字节等企业成为创新引擎 [10] - ChatGPT用户增长爆发 显示技术优势与用户体验并非完全正相关 [22] 中美AI竞争格局 - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro 逼近OpenAI o3 在开源模型领域建立成本优势 [5] - 中美前沿大模型差距从ChatGPT发布时的2年缩短至2025年上半年的不足3个月 [11] - 中国在开源社区和国家级基础设施方面快速推进 形成与美国全面对标的竞争态势 [11][36] 下一代技术突破 - OpenAI计划将GPT-5打造为推理与生成统一的原生多模态模型 已陆续拆分部分功能提前发布 [17] - DeepSeek下一代模型V4/R2将采用NSA稀疏注意力机制 支持端到端训练 提升长期记忆能力 [18][19] - 文本扩散生成技术取得进展 Gemini Diffusion实现每秒1500 token输出 中国高校及企业推出LlaDA-8B等创新模型 [31][32] AGI探索新路径 - OpenAI前成员创立SSI(估值320亿)和Thinking Machines Lab(估值90亿) 探索强化学习与思维链等新范式 [24][25] - 程序合成技术被视为突破传统范式局限的关键 AlphaEvolve已展示解决复杂数学问题的能力 [29][30] - 研究显示AI"思考时长"与"思考方式"同等重要 需建立自我规划思考深度的机制 [26] 商业化与生态演进 - AI行业呈现高增长+高投入特征 中国科技大厂增加资本支出准备大规模商业化 [35] - 智能体时代商业模式可能打破"赢家通吃" 横向平台与垂直专家的融合成为关键 [35] - 变现逻辑从使用频率转向注意力、语境与控制权的争夺 地缘竞争成为核心变量 [36]
AGI的不归之途
虎嗅· 2025-06-03 07:53
大模型技术进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等前沿大模型密集发布 智能体MCP、A2A等协议推动应用加速发展 [1] - 智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 正从初级白领工作开始逐步接管更多人类任务 [1][2] - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro并逼近OpenAI o3 在缺乏算力基础上通过后训练实现性能跃升 且具有开源和成本优势 [3] - 中国在开源领域确立优势 通义千问2024年9月超越Llama 3 DeepSeek R1 2025年初赶上o1 Llama 4推出未改变中企领跑格局 [4] - GPT-5将整合推理与生成功能 成为原生多模态模型 OpenAI已逐步拆分发布其部分功能 可能受DeepSeek竞争压力影响 [16] 行业竞争格局 - OpenAI年化收入达百亿美元 Anthropic半年内从10亿增至30亿美元 AI应用在编程、设计、医疗等领域初现规模产出 [2] - 美国科技七雄和中国阿里、腾讯等巨头创始人深度参与AI革命 中国响应速度明显快于1995年互联网时代 [8][9] - 中美前沿大模型差距从ChatGPT发布时的两年缩短至不足三个月 中国已建立全面对标的竞争态势 [10] - ChatGPT用户增长爆发显示技术优势不等于应用体验优势 开源模型如何打造杀手级应用成为中国AI创新者挑战 [22] - AI商业化将呈现高增长+高投入态势 中国科技大厂增加资本支出准备放手一搏 [35] 技术突破方向 - DeepSeek下一代模型可能采用原生多模态架构 聚焦代码、数学和自然语言 已探索数学证明模型Prover和多模态模型Janus [17] - DeepSeek研发NSA稀疏注意力机制和BSBR技术 支持端到端训练和长期记忆检索 提升代码生成和多轮互动能力 [18] - 程序合成技术成为AGI新探索方向 可通过少量示例实现问题泛化 谷歌AlphaEvolve已展示其在数学解题中的潜力 [27][28] - 文本扩散生成技术取得进展 Gemini Diffusion达每秒1500token 中国多所高校和企业推出相关模型探索技术边界 [30][31] 地缘政治影响 - AI领导力可能带来地缘政治领导力 中国在开源社区和国家级基础设施方面快速推进 形成与美国差异化优势 [9][39] - 全球AI竞争核心是美中战略博弈 两国都将AI视为经济杠杆和地缘政治影响力来源 [40] - ChatGPT主要用户来自亚洲人口大国 美国比中国更依赖全球市场 [11]
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 11:40
核心观点 - 熵最小化(EM)是一种无监督方法,仅用一条无标签数据和10步训练即可显著提升大语言模型(LLM)性能,甚至超越使用大量数据的强化学习(RL)方法 [1] - EM通过最小化模型预测分布的熵来优化模型,无需标注数据或外部监督,与预训练目标完全兼容 [4][8] - 在数学推理任务上,EM方法将Qwen2.5-Math-7B的准确率从53%提升到78.8%(MATH500测试集),从11%提升到35.3%(Minerva Math测试集),从44.1%提升到70.3%(AMC23测试集) [13][14] - EM与RL对模型置信度的影响方向相反:EM导致Logits分布右移,强化模型自信;RL导致左移,受真实信号引导 [15][16][17][18][19] - EM适合未经过大量RL调优的基础模型、需要快速部署或资源有限的场景,但可能对已深度调优的RL模型产生负面影响 [30][31][34] 从RL到EM:LLM微调的困境与新思路 - 当前LLM后训练主流方法是强化学习(RL),特别是结合可验证奖励的RL(RLVR) [2] - RL方法面临高质量标注数据依赖、复杂奖励函数设计、额外奖励模型需求和巨额计算开销等问题 [3][4] - EM提出全新思路,仅依赖模型自身预测分布的熵进行优化,无需外部监督 [4][8] 熵最小化(EM)的实现方法 - EM通过最小化标记级别的熵来减少模型预测不确定性,核心公式涉及条件熵和总体EM损失 [5][6][7] - 该方法鼓励模型提高对自身预测的信心,不依赖外部监督信号或奖励函数 [8] - EM成功依赖示例选择,研究者采用基于模型表现方差的筛选方法,挑选预测不一致性高的示例 [9][10][11] 实验结果 - 仅用一条示例和10步训练,EM方法使Qwen2.5-Math-7B在多个数学推理任务上性能大幅提升 [12][13] - 在MATH500测试集准确率提升25.8个百分点,Minerva Math提升24.3个百分点,AMC23提升26.2个百分点 [14] - EM方法缩小了与先进RL模型的差距,在AMC23基准测试中达到70.3分 [14] EM与RL的对比分析 - EM训练导致Logits分布右移,强化模型自信,增加高概率候选token数量 [16][17] - RL训练导致Logits分布左移,受真实信号引导,减少高概率路径数量 [18][19][20] - 这种差异通过Logits分布偏度量化:EM提高偏度呈现右偏,RL降低偏度甚至导致左偏 [21] EM的局限性 - 存在"过度自信"陷阱,训练约10步后性能达到顶峰,继续训练反而导致性能下降 [26] - EM训练具有显著随机性,相同设置下因种子不同平均得分可能相差高达两倍 [29] EM适用场景 - 适合未进行大量RL调优的基础模型或仅经过SFT的模型 [30] - 适合需要快速部署、资源有限的场景,对数据需求极低 [31] - 可作为现有后训练范式的补充或起点,在RL之前应用能带来增益 [32][33] - 对已深度调优的RL模型可能产生负面影响 [34] 未来研究方向 - 需要探索训练稳定性与鲁棒性,如早停标准或自适应调度机制 [35] - 研究泛化能力与跨领域应用,如对话、摘要、代码生成等领域 [36] - 探索与现有技术(SFT、RLHF等)的融合,构建更强大混合方法 [37] - 深入研究EM作为轻量级信心校准方法的潜力 [38][39]
见证历史!DeepSeek 跃居全球第二 AI 实验室,R1 登顶开源王座,R2 全网催更
程序员的那些事· 2025-06-01 10:04
模型性能升级 - DeepSeek-R1-0528在数学、编程、通用逻辑性能上媲美最强o3和Gemini 2.5 Pro [1][2] - 在AIME 2025测试中准确率从70%提升至87.5% [16] - MMLU-Pro (EM)得分从84.0提升至85.0,GPQA-Diamond (Pass@1)从71.5提升至81.0 [17] 技术优化亮点 - 幻觉率降低45%-50%,尤其在改写润色、总结摘要等场景表现更可靠 [24][25] - 支持JSON输出和函数调用,工具调用能力在Tau-Bench测评达airline 53.5%/retail 63.9% [7][31] - 前端代码生成能力增强,可快速生成完整应用(如单词复习卡片APP) [33][34] 开源模型突破 - 基于Qwen3-8B Base微调的DeepSeek-R1-0528-Qwen3-8B性能超越Qwen3-235B,参数仅为其1/30 [36][38] - 在AIME 2024测试中得分86.0,超越Gemini-2.5-Flash的82.3 [39][40] - 数学性能强于Phi-4 14B,与Qwen3-235B相当 [37][39] 行业地位提升 - DeepSeek成为全球第二大AI实验室,开源模型领导者 [9][44] - 智能指数从60分跃升至68分,进步幅度与OpenAI o1到o3相当 [46] - 性能超越xAI Grok 3 mini、Meta Llama 4 Maverick等,与Gemini 2.5 Pro并驾齐驱 [47] 训练与基准表现 - 基于DeepSeek V3 Base训练,后训练阶段增加计算资源与算法优化 [14] - 在AIME测试中平均token消耗从12K增至23K,Pass@2得分达70.7%与Claude 4 Opus相当 [18] - Codeforces-Div1评分从1230提升至1930,SWE Verified解决率从49.2%提升至57.6% [17]