多智能体强化学习

搜索文档
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
机器之心· 2025-06-25 14:50
RSS 2024获奖论文概览 杰出Demo论文奖 - 提出MuJoCo Playground开源机器人学习框架,支持单GPU分钟级策略训练,简化仿真环境搭建到现实迁移全流程[5] - 框架兼容四足机器人、人形机器人、灵巧手及机械臂等多平台,支持零样本迁移[6] - 技术栈集成物理引擎、批量渲染器与训练环境,由UC伯克利、Google DeepMind等机构联合开发[7][8] 杰出系统论文奖 - 开发SBA公式与XM优化引擎,通过凸半有限规划松弛实现三维重建全局最优解,速度显著提升[13] - XM引擎1小时内处理10,155帧数据达到全局最小值,重建质量优于现有SfM流程[15] - 哈佛大学团队成果,应用于运动结构重建领域[17] 杰出学生论文奖 - 提出Def-MARL算法解决多机器人系统协作安全问题,定义"零约束违反"标准[19][20] - 在8项模拟任务中性能最优,并通过四旋翼飞行器实体实验验证安全性[22] - MIT团队采用集中训练-分散执行架构,提升复杂任务协调能力[24] 杰出论文奖 - 开发FEAST进餐辅助系统,模块化设计支持进食、饮水、擦嘴功能切换[31] - 结合网页界面、头部姿势识别等多模态交互,适应残障用户个性化需求[31] - 康奈尔大学团队成果,参数化行为树架构支持LLM驱动的安全调整[29][32] 时间检验奖 - 2009年论文《Cooperative Manipulation with Aerial Robots》获奖,开创空中机器人协作运输研究[36] - 论文由宾夕法尼亚大学团队发表,奠定多无人机协同操作理论基础[39]
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法
AI前线· 2025-06-20 10:47
AICon全球人工智能开发与应用大会北京站 - 大会将于6月27日-28日举办,聚焦AI前沿技术与落地实践 [1] - 汇聚腾讯、阿里、百度、字节跳动等头部大厂及50+资深专家 [1] - 设置AI Agent、多模态应用、推理性能优化等10多个专题论坛 [1][4] 京东集团算法总监韩艾的主题分享 - 演讲主题为《JDAgents-R1:基于强化学习的异构多智能体联合进化算法》 [2] - 提出JDAgents-R1框架,首次将GRPO应用于异构多智能体联合训练 [2] - 通过迭代优化LLMs与自适应记忆机制实现决策与记忆能力动态均衡 [2] - 在通用和商家定制化场景中达到与大规模语言模型相媲美的性能 [2] 韩艾的专业背景 - 中科院与康奈尔大学联合培养博士,北京大学双学士 [3] - 现任京东集团算法总监,京东零售数据与算法通道委员 [3] - 在国际顶级期刊发表数十篇论文,专注AI技术创新 [3] - 主持设计Multi-Agent Planning算法架构并落地京东商家智能助手 [3] 演讲内容框架 - 涵盖多智能体训练技术、应用案例、LLM决策与Memory进化等 [3][5] - 重点介绍GRPO联合训练算法技术和Memory更新技术 [3][5] - 探讨多模型联合训练的信息通信难题和memory进化评估 [5] 大会其他亮点 - 设置AI Agent构建、多模态实践、大模型助力研发等专题论坛 [4] - 50+专家将分享前沿技术洞察和一线实践经验 [4] - 报名可享9折优惠,单张门票立省580元 [4]
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 15:41
强化学习研究发展历程 - 强化学习从推荐系统起步,逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合,推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮,华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统,降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成,引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型,获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目,探索多智能体解决方案 [28] - 开发决策大模型DB1(参数量10亿+,数据量100T)验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区,累计组织30+学者授课,单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册,居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队,推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究,发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业,早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破,技术路线后被多家机器人公司采用 [31][35]
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]