Workflow
生成式对抗网络(GAN)
icon
搜索文档
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]