平均场博弈

搜索文档
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 15:41
强化学习研究发展历程 - 强化学习从推荐系统起步,逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合,推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮,华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统,降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成,引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型,获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目,探索多智能体解决方案 [28] - 开发决策大模型DB1(参数量10亿+,数据量100T)验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区,累计组织30+学者授课,单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册,居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队,推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究,发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业,早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破,技术路线后被多家机器人公司采用 [31][35]
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]