强化学习

搜索文档
具身智能推动实现通用人工智能
人民日报海外版· 2025-06-09 12:19
具身智能理论 - 具身智能强调智能体的认知受感知与动作影响,主张智能行为来自身体与环境的交互,而非仅大脑功能[1] - 该理论与传统离身智能形成对比,后者基于笛卡尔身心二元论,忽视大脑与身体的联系[1] - 具身智能对认知科学、心理学、人工智能和机器人技术等领域产生深远影响[1] 人工智能发展历程 - 第一代人工智能基于知识与经验的推理模型,具有可解释性但应用受限[3] - 第二代人工智能采用数据驱动模型,通过大数据机器学习模拟人类感性行为,但存在不可解释等缺陷[3] - 2020年大语言模型出现标志第三代人工智能,在语言生成上取得突破,向通用人工智能迈出关键一步[4] 具身智能的优势 - 具身智能通过强化学习实现与环境的反复交互,优化决策和行动,弥补传统人工智能的不足[5] - 该理论将思考、感知与动作整合,使人工智能能在更广泛环境下完成复杂任务[5] - 具身智能推动机器人技术从单一感知向多模态感知发展,如自动驾驶汽车的多传感器融合[8] 机器人技术发展 - 1954年数字控制机械臂发明奠定现代工业机器人基础[7] - 1986年罗德尼·布鲁克斯提出行为主义机器人学,首次在机器人领域引入具身智能思想[7] - 具身智能推动机器人软硬件高度整合,催生人形机器人、装配机器人等多样化形态[8] 智能体概念应用 - 智能体理论将机器人思考、感知和动作连为一体,可在数字和物理世界完成任务[9] - 利用数字世界仿真可大幅提高机器人测试效率,如无人车实验[9] - 智能体间的博弈可实现机器自我进化,持续提升机器人性能[9]
跻身史上最大私营融资!传Meta(META.US)拟豪掷数十亿美元投资Scale AI加码AI数据军备竞赛
智通财经网· 2025-06-09 08:01
Meta投资Scale AI - Meta正就向Scale AI进行数十亿美元投资展开谈判 估值可能超过100亿美元 成为有史以来规模最大的私营企业融资事件之一 [1] - 2024年Scale AI在一轮包括Meta参与的投资中估值已达约140亿美元 [1] - 对Meta而言 与Scale深化合作有助于其跟上谷歌 OpenAI等AI竞争对手的步伐 也有助于在其更多涉足国防科技之际与美国政府建立更紧密联系 [2] - 对Scale来说 与Meta的合作将带来一个强大且财力雄厚的盟友 [2] Scale AI业务与地位 - Scale已成为AI三大支柱——芯片 人才和数据——中数据领域的绝对领导者 [1] - 通过庞大外包团队为Meta和OpenAI等科技公司提供AI模型训练所需的数据标注服务 并协助开发定制化AI应用 [1] - 正越来越多地招募博士 护士等高学历专家参与复杂模型的开发 [1] - 早期专注于标注汽车 交通信号灯和路标的图像以帮助训练自动驾驶汽车模型 后转向注释和管理构建支撑ChatGPT等聊天机器人所需的海量文本数据 [3] - 重点转向医疗法律等专业领域 例如提升AI处理各国税法差异的能力 [4] - 越来越多地转向聘请薪资更高的研究生学历承包商来优化AI系统 参与强化学习过程 [4] - 截至2025年初 在参与模型优化过程的公司贡献者中 12%拥有分子生物学等领域的博士学位 超40%拥有所在领域的硕士学位 法律学位或MBA学位 [4] Scale AI增长与影响 - 2024年营收约8.7亿美元 预计今年营收达20亿美元 [4] - 在DeepSeek崛起后 对专家网络的需求增加 因为更多公司投资于模仿人类推理 执行更复杂任务的模型 [4] - 28岁的Wang曾在国会听证会上提出建立"国家AI数据储备库" 保障数据中心供电等建议 获得两党议员认可 [3] - 通过国防合同深化与政府合作 公司前高管Michael Kratsios现已成为特朗普的核心科技顾问 [3] - 发展轨迹既受OpenAI引发的AI热潮影响 也反作用于这一趋势 [3]
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
语言模型对奖励噪音的鲁棒性研究 - 语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分奖励(如正确答案得0分,错误答案得1分),下游任务表现不受显著影响 [2] - 强化学习对下游任务的提升关键在于模型能否产生高质量的思考过程,而非奖励的绝对准确性 [2] - 仅通过奖励模型输出中关键思考词的出现频率(而非答案正确性),语言模型仍能取得高表现 [2] 思考模式奖励机制(RPR) - 设计极简奖励机制RPR,根据高频思考关键词(如"First, I need to"、"finally")的出现频次给予奖励 [6][7] - 仅使用RPR机制(不考虑答案正确性),Qwen-2-5-7B在MATH-500数据集上准确率从5%提升至70%以上 [11] - RPR可校准奖励模型输出,即使奖励模型准确率仅65%,校准后效果接近85%准确率模型的表现 [17] 奖励模型准确率与噪声耐受性 - 当奖励模型准确率超过75%时,不同模型训练结果的主观评测得分相似 [14] - 奖励模型准确率低于75%时训练效果显著下降,65%准确率时表现大幅劣化 [14] - RPR校准可帮助较小模型(如Qwen-2-5-3B)避免训练崩溃,在复杂开放任务中展现良好解题思路 [20][21] 强化学习的核心作用 - 强化学习主要改变语言模型输出风格并形成良好思考模式,而非教授新知识 [22] - 预训练阶段的能力提升仍至关重要,因其构成下游任务表现的基础瓶颈 [23] - 实验显示Llama3因预训练阶段思考路径质量不足,表现和抗噪音能力显著弱于Qwen模型 [23]
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
AI科技大本营· 2025-06-06 18:18
AI技术演进与经验时代 - 当前AI发展正从"人类数据时代"转向"经验时代",依赖静态人类数据的模式已接近极限,高质量数据源基本耗尽[9] - 真正的智能应源于动态经验交互而非预设数据,智能体需通过第一人称视角与环境持续互动获取成长性数据源[6][9][13] - AlphaGo的"神之一手"和AlphaProof数学推理证明经验交互的价值,游戏/数学等规则明确领域已实现突破[12] - 经验定义为传感器输入与执行器反馈的闭环,类似婴儿探索或运动员实时决策的高带宽感知-行动机制[10][11] 智能体AI的技术特征 - 智能本质在于预测与控制感官输入的能力,即预判环境反馈并制定策略的因果认知[6][13] - 持续学习(Continual Learning)是核心挑战,现有大语言模型缺乏与世界模型结合的规划能力[17][34] - AI智能体(Agentic AI)需具备目标导向、环境互动和记忆更新能力,当前强化学习尚未解决现实世界不确定性[13][34] - 从模拟时代(AlphaGo)→人类数据时代(GPT-3)→经验时代的技术演进路径已明确[14] 去中心化合作的社会模型 - 超级智能体或被增强的人类将带来净正面影响,技术失业等问题属转型阵痛[3][17] - 社会运作应基于多样目标个体的互惠协作,类似市场经济中差异化分工带来的高效系统[21][24] - 语言和货币是促进人类合作的关键发明,合作失败案例(战争/腐败)源于机制失效而非技术本身[23][25] - 中心化控制(蜂群模式)与去中心化合作存在根本张力,后者更具韧性和抗欺诈能力[24][25] AI治理与发展争议 - AI安全争论本质是"改变AI本身"与"改造社会环境"两种路径的分歧,后者更可持续[31] - 限制AI目标或算力的主张与政治领域的言论自由/贸易保护争议具有相似性[26] - 《苦涩的教训》指出可扩展计算优于人为规则,从人类数据转向经验数据印证这一观点[35][36] - AGI实现需突破持续学习和世界模型规划,预计时间跨度5-15年而非短期[34]
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 17:36
模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 12:01
核心观点 - 通义实验室推出自主信息检索智能体WebDancer,具备多步推理与连续动作执行能力,解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法(CRAWLQA、E2HQA)和两阶段训练策略(监督微调+强化学习),显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型,最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺(现有数据集如2WIKI仅支持浅层问题)、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - **CRAWLQA**:模拟人类浏览行为爬取权威网站(arXiv、Wikipedia),生成多样化真实问答对[6] - **E2HQA**:采用"由简到难"策略构建多步推理问答,通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容,确保逻辑性与多样性[9][10] 训练方法 - **监督微调(SFT)**:屏蔽Observation干扰,专注Thought-Action损失计算,提升鲁棒性[12] - **强化学习(RL)**:采用DAPO算法动态采样低利用率数据,优化奖励函数设计,降低训练成本[13][15] 实验结果 - **GAIA数据集**:WebDancer+QwQ-32B组合达到56.4% Level 1准确率,显著高于Qwen-2.5-32B(20.5%)[20] - **WebWalkerQA数据集**:中等难度任务中WebDancer表现最优(55.0% vs 基线35.0%)[20] - **BrowseComp数据集**:中文任务得分22.2,远超GPT-4o(6.2)[21][22] 未来方向 - 扩展工具集成(浏览器建模、Python沙盒)以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸,提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]
赛道Hyper | 字节跳动VMR²L系统实现工程秒级推理
华尔街见闻· 2025-06-06 11:22
作者:周源/华尔街见闻 VMR²L是一种虚拟机重调度系统,全称Versatile Multi-agent Reinforcement Learning with Real-time Reasoning,直译就是:具备实时推理能力的、通用多智能体强化学习系统。 此外还有两阶段智能体架构,通过显式约束过滤非法动作,自然满足资源容量、亲和性限制等工业级调 度规则,在不同负载场景下泛化误差小于5%。 测试数据显示,在典型云计算集群中,VMR²L可将资源利用率提升18%-22%,迁移时间从分钟级降至 秒级,为高密度数据中心的实时资源调度提供了可行方案。 6月5日,字节跳动技术团队微信公众号发文称,由字节跳动ByteBrain团队主导,联合加州大学默塞德 分校(UC Merced)与伯克利分校(UC Berkeley),提出了VMR²L,研发出一套基于深度强化学习的 VMR系统:在保持近似最优性能的同时,将推理时间压缩至1.1秒,成功实现系统性能与工业可部署性 的统一。 通过深度强化学习技术,VMR²L将虚拟机资源调度的推理时间压缩至1.1秒,同时保持与传统混合整数 规划(MIP)方法相近的资源优化效果,为云计算、数据中 ...
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 08:58
DeepTheorem团队 投稿 量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题",让AI学会像人类一样 推导数学证明 ! "特训"过后,模型定理证明性能大涨 ,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型 。 "特训题"为 Deep Theore m ,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。 团队表示,定理证明是数学前沿的重要组成部分,但当前大语言模型 (LLM) 在数学推理,特别是通过强化学习 (RL) 进行训练时,往往 需要可以自动验证的答案,导致大模型无法像数学家那样通过自然语言进行定理证明。 图(b)展示经过强化学习训练的DeepTheorem-7B模型性能,比肩或超越现有的开源模型和商业模型 (Gemini2.0-flash, Qwen2.5-72B- Instruct, Claude3.7 等 ) ,仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度:专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...
Gemini2.5弯道超车背后的灵魂人物
虎嗅· 2025-06-05 11:14
Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段,过去一年行业重点转向对齐阶段,特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验,并更加重视强化学习的作用,引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点,Anthropic在预训练阶段优先投入高质量代码数据,使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势,在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择,Anthropic专注编程导致其他能力稍弱,OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角,分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合,前者擅长大规模资源调度和预训练,后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode",显著提升团队士气和工作强度,推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力,为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态,避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行,拥有动态调度大规模集群的独家优势,OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势,API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间,Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先,Anthropic通过代码能力突破建立优势,Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升,各家在不同领域轮流领跑:写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出,反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点,Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]
人形机器人“擂台赛”,南京这样“打”
南京日报· 2025-06-05 08:21
技术发展 - 人形机器人采用强化学习技术实现自我优化 通过正负奖励机制调整行为策略 例如成功迈步获正奖励 摔倒则得负奖励 [2] - 电动伺服技术应用成熟但负载能力受限 电液伺服功率密度大且适应复杂环境 如灾害救援等场景 [3][4] - 集萃智造同时开发电动伺服和电液伺服机器人 电液伺服四足机器人行走速度达每小时5公里 相当于人类快走速度 [4] - 机器人腿部关节设计6个自由度 对应胯部/膝盖/脚踝 需解决空间智能大模型作为"大脑"及续航瓶颈问题 [3][6] 应用场景 - 短期聚焦工业制造细分领域 如天创电子推出全球首款防爆人形机器人"天魁1号" 针对危化防爆场景 已获数千万元意向订单 [6] - 中期拓展至农业/建筑等复杂场景 长期目标覆盖商务/家居/养老等领域 埃斯顿医疗已将其康复机器人延伸至5家社区及医养集团 [6][7] - 亿嘉和优化具身智能人形机器人运动控制 目标2027年前将养老场景服务成本降低60% [7] 产业链布局 - 南京在核心零部件领域形成竞争力 如因克斯智能关节模组被超过50%马拉松参赛机器人采用 关节成本占整机超50% [8] - 南京计划打造"1+N+1"整机体系 包括前瞻布局人形机器人产业 构筑通用整机平台 建立小批量生产能力 [10] - 设立机器人产业攻坚推进办公室 举办供需对接会 9家企业展示前沿技术成果 推动场景应用落地 [10] 行业趋势 - 人形机器人体育赛事热度提升 8月将举办世界首个人形机器人运动会 涵盖田径/足球等项目 旨在提高社会关注度 [1][6] - 专家预计人形机器人进入千家万户需10年 需解决制造成本高/数据质量/操作泛化性等挑战 [6] - 建议设立合作基金撬动社会资本 形成"技术突破-量产降本-场景扩展"良性循环 初创企业与龙头分工协作 [9][10]