多智能体强化学习 - 财报，业绩电话会，研报，新闻

多智能体强化学习

搜索文档

机器之心· 2025-07-30 13:13

核心观点 - 研究团队提出SPIRAL框架，通过零和游戏自对弈提升语言模型的推理能力，摆脱对人工监督的依赖[3] - 游戏作为推理训练场，通过输赢结果提供廉价可验证的奖励，无需人工标注[6] - 仅通过库恩扑克训练，模型数学推理能力平均提升8.7%，在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现，通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏：井字棋（空间模式识别）、库恩扑克（概率计算）、简单谈判（多步规划）[12] - 自对弈保持50-52%胜率，确认对手与学习者同步进化[13] - 训练阶段胜率变化：Step 16（0% vs Gemini，52.3%自对弈），Step 128（37.5%，51.7%），Step 384（62.5%，50.9%）[14] 推理模式迁移 - 发现三种核心推理模式：期望值计算（使用率从15%增长到78%）、逐案分析（出现率72%）、模式识别（使用率35%到45%）[16][18][19] - 不同游戏培养专门化能力：井字棋专家在空间游戏Snake上56%胜率，扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应：Liar's Dice上单一专家12-25%胜率，多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统，实现全参数更新的在线自对弈[24] - 角色条件优势估计（RAE）防止思维崩溃，保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL，性能从59.7%提升到61.7%，AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路：无需高质量推理数据，只需设计合适游戏环境[35] - 验证关键假设：强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限：游戏环境依赖、计算资源需求（8块H100 GPU运行25小时）、性能瓶颈[38] - 评估局限：主要集中在学术基准测试，需进一步验证现实任务影响[39]

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

机器之心· 2025-07-03 11:26

大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架，通过多智能体强化学习实现大语言模型的"元思维"能力，即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构，通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中，ReMA平均性能优于基线方法，如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**：采用层级化多智能体系统(MAS)，相比单智能体方法(如DeepSeek R1)降低探索难度，避免动作空间过大问题 [8][12] - **训练机制**： - 单轮场景使用GRPO和REINFORCE++算法优化，奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术，提升训练稳定性 [20][22][23] - **数据生成**：从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**： - Llama3-8B在7个数学基准平均提升6.68%，Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著，如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**： - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE)，小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍，轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性，测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501)，代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型，测试覆盖MATH、GSM8K等12个基准数据集 [27][28]

多智能体强化学习

大模型元思考

元思维

Artificial Intelligence

Artificial Intelligence

ReMA框架

Llama3

京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法

AI前线· 2025-06-20 10:47

AICon全球人工智能开发与应用大会北京站 - 大会将于6月27日-28日举办，聚焦AI前沿技术与落地实践 [1] - 汇聚腾讯、阿里、百度、字节跳动等头部大厂及50+资深专家 [1] - 设置AI Agent、多模态应用、推理性能优化等10多个专题论坛 [1][4] 京东集团算法总监韩艾的主题分享 - 演讲主题为《JDAgents-R1：基于强化学习的异构多智能体联合进化算法》 [2] - 提出JDAgents-R1框架，首次将GRPO应用于异构多智能体联合训练 [2] - 通过迭代优化LLMs与自适应记忆机制实现决策与记忆能力动态均衡 [2] - 在通用和商家定制化场景中达到与大规模语言模型相媲美的性能 [2] 韩艾的专业背景 - 中科院与康奈尔大学联合培养博士，北京大学双学士 [3] - 现任京东集团算法总监，京东零售数据与算法通道委员 [3] - 在国际顶级期刊发表数十篇论文，专注AI技术创新 [3] - 主持设计Multi-Agent Planning算法架构并落地京东商家智能助手 [3] 演讲内容框架 - 涵盖多智能体训练技术、应用案例、LLM决策与Memory进化等 [3][5] - 重点介绍GRPO联合训练算法技术和Memory更新技术 [3][5] - 探讨多模型联合训练的信息通信难题和memory进化评估 [5] 大会其他亮点 - 设置AI Agent构建、多模态实践、大模型助力研发等专题论坛 [4] - 50+专家将分享前沿技术洞察和一线实践经验 [4] - 报名可享9折优惠，单张门票立省580元 [4]

投资界· 2025-03-04 15:41

强化学习研究发展历程 - 强化学习从推荐系统起步，逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合，推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮，华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统，降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成，引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型，获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目，探索多智能体解决方案 [28] - 开发决策大模型DB1（参数量10亿+，数据量100T）验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区，累计组织30+学者授课，单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册，居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队，推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究，发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业，早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破，技术路线后被多家机器人公司采用 [31][35]

Artificial Intelligence

Artificial Intelligence

UCL强化学习派：汪军与他的学生们

雷峰网· 2025-02-27 18:15

强化学习研究发展 - 强化学习作为AI领域重要分支持续创新，在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究，成立RL China培养青年人才，推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法，结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战（深度学习、环境交互、多智能体博弈），研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战，比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法，处理百万级智能体系统，降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式，首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力，参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师，累计十万人次观看，推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册，配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络，覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向，团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术，布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]

平均场博弈（Mean Field Game）

平均场博弈（Mean Field Game）

基于人类反馈的强化学习（RLHF）