强化学习研究发展历程 - 强化学习从推荐系统起步,逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合,推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮,华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统,降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成,引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型,获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目,探索多智能体解决方案 [28] - 开发决策大模型DB1(参数量10亿+,数据量100T)验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区,累计组织30+学者授课,单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册,居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队,推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究,发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业,早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破,技术路线后被多家机器人公司采用 [31][35]
中国AI门派:汪军与他的学生们
投资界·2025-03-04 15:41