Workflow
多智能体强化学习
icon
搜索文档
天南海北新年味|刷新“亲吻数”纪录的“新年礼物” 揭秘PackingStar背后的科学浪漫
新华财经· 2026-02-15 15:41
核心观点 - 上海科学智能研究院联合高校团队利用多智能体强化学习系统PackingStar,在数学的“亲吻数”问题上取得系统性突破,标志着科学智能进入“人机协作”互促进化的2.0新范式 [1][3][6] 技术突破与科学意义 - 团队设计的PackingStar系统在多个维度刷新了困扰数学界数百年的“亲吻数”纪录,实现了数学结构领域的系统性突破 [1] - 该系统解决了高维组合优化问题,其找到的解拥有明确的几何规则,却破坏了全局对称性,蕴含着新的数学构造逻辑 [3] - 此次突破的意义超越了数据本身,在于开启了一种“人机”互促进化的科研新范式:人类提供直觉和洞察,AI构造结构和搜索证明,人类再理解结果并抽象理论,进而改进直觉和AI系统 [3] - 对比依赖海量已知数据的“科学智能1.0”代表AlphaFold,PackingStar面对几乎没有现成训练数据的数学问题,实现了在“无中生有”的过程中搜索、生成与合成数据以逼近未知结构,是科学智能2.0的代表 [4] 研发方法与团队协作 - 项目成功的关键在于“工程+算力”,利用人工智能这一工程性平台,以工程化的稳定性来对冲科学发现的不确定性,从而加速数学发现过程 [6] - 研发过程形成了“AI—科学—工程”三位一体的紧密协同模式:科学家提供问题理解与判断边界,AI专家设计搜索与学习机制,工程团队支撑规模化计算与系统实现 [6] - 团队由平均年龄约30岁的跨界年轻人组成,成员背景涵盖物理、人工智能、数学等,没有学科界限,体现了跨界的碰撞与协作 [7] - 团队名称“PackingStar”具有双层含义:既指高维空间填充的球体像星星,也喻指团队中每一位跨界的年轻人都是新星 [7] 行业影响与范式转变 - 此次突破证明了人工智能能够解决有意义的数学问题,挑战了行业里一些大数学家认为AI短期内不可能做到这一点的断言 [5] - 人工智能将数学家从繁琐的计算和构造证明的尝试中解放出来,使其角色转变为“数学观察者”和“直觉设计者” [3] - 这标志着科学研究范式转变为人类定义问题、AI协助解决的“人机协作”模式,AI从工具转变为合作伙伴,让人类能更快更深入地探索奥秘 [8] - 这种创造诞生于“科技与人文的十字路口”,AI不再是冰冷工具,上海在此过程中展现了其独特的人文底色 [8]
情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录
量子位· 2026-02-14 16:13
文章核心观点 - 由上海科学智能研究院、北京大学、复旦大学组成的联合团队,利用名为PackingStar的强化学习系统,在困扰人类300多年的高维“亲吻数”数学难题上取得系统性重大突破,标志着AI for Science进入由AI自主探索未知的2.0新阶段 [10][49][55][60] 研究背景与问题定义 - “亲吻数”问题研究在n维空间中,一个球体周围最多能有多少个同等大小的球体与其相切而不重叠,该问题源自1694年牛顿与格雷戈里的争论,在三维空间中被证明为12个,但高维空间求解极其困难 [2][5][6] - 高维空间球体排列方式呈指数级暴涨,人类几何直觉失灵,在过去近50年里,亲吻数构造仅有7次实质性进展,方法难以迁移 [9][17] 研究团队与核心成果 - 研究团队来自上海科学智能研究院、北京大学和复旦大学,其PackingStar系统一次性刷新了25至31维连续7个维度的世界纪录,并在其他多个维度及广义亲吻数问题上刷新纪录 [10] - 具体成果包括:在13维发现优于1971年以来所有有理结构,在14维等多个维度找到超过6000个新构型;将“两球亲吻数”中14维、17维纪录分别刷新至252和578;将“三球亲吻数”中12维、20维、21维纪录分别刷新至81、405和567 [11][13] - 这些成果获得了离散几何领域权威专家(如麻省理工Henry Cohn教授)的高度评价,并被收录至权威榜单,是该领域三百多年来罕见的系统性突破 [10][34][61] 技术创新与方法论 - 团队完成了关键问题转化,将高维球体堆积问题转化为余弦矩阵上的操作,使计算天生适配GPU大规模并行计算 [18] - 首创多智能体博弈框架,通过“填充”与“修剪”两个智能体协同的“填充—修剪—解构—再填充”机制,大幅降低高维探索难度 [21][24][25] - 方法具有开创性:零数据、零先验,首次系统性发掘出大量反人类直觉的“非对称”高维构型,打破了学术界长期依赖对称型构造的认知框架 [27][59][60] 基础设施与工程支撑 - 项目依赖上智院联合复旦大学和无限光年建设的“星河启智科学智能开放平台”,强大的AI基础设施(AI Infra)是解决此类复杂问题的决定性因素之一 [35][40][41] - 工程团队通过自研底层CUDA算子,将核心计算链路的端到端吞吐效率提升了数倍,并开发了高鲁棒自动容错机制,确保千卡级GPU长周期任务的稳定运行 [42][44][45][46] - 这种以科学家为中心的开放基础设施,让科研人员无需担忧算力稳定性,能专注于科学灵感,用工程的确定性对冲科学发现的不确定性 [47][48] 行业意义与发展阶段 - 该成果标志着AI for Science进入2.0阶段:AI不再依赖人类提供的海量数据和标准答案,而是能在没有先验逻辑的领域进行从无到有的自主探索,并启发科学家 [49][52][54][55] - 与DeepMind的AlphaFold(1.0阶段)、AlphaGeometry等相比,PackingStar直面的是人类尚未明确问题边界的挑战,其系统性产出开创了AI for Math的新范式 [57][58][59] - AI的角色从替代人类计算答案,转变为参与科学探索本身,成为科学家的协作工具,能赋能更多年轻研究者站在科研前沿 [64][65][69] 团队文化与协作模式 - 团队营造了独特的跨学科协作文化,如上智院内的“学术酒吧”,促进了数学家、生物学家、AI研究员之间的思想碰撞 [74][75] - 团队体现了深度的人机协作:AI在远超人类直觉的空间中学习求解,人类科学家则对AI的结果进行解读并提炼新数学规律,双方在互动中共同进步 [67][68][76]
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
机器之心· 2025-07-30 13:13
核心观点 - 研究团队提出SPIRAL框架,通过零和游戏自对弈提升语言模型的推理能力,摆脱对人工监督的依赖[3] - 游戏作为推理训练场,通过输赢结果提供廉价可验证的奖励,无需人工标注[6] - 仅通过库恩扑克训练,模型数学推理能力平均提升8.7%,在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现,通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏:井字棋(空间模式识别)、库恩扑克(概率计算)、简单谈判(多步规划)[12] - 自对弈保持50-52%胜率,确认对手与学习者同步进化[13] - 训练阶段胜率变化:Step 16(0% vs Gemini,52.3%自对弈),Step 128(37.5%,51.7%),Step 384(62.5%,50.9%)[14] 推理模式迁移 - 发现三种核心推理模式:期望值计算(使用率从15%增长到78%)、逐案分析(出现率72%)、模式识别(使用率35%到45%)[16][18][19] - 不同游戏培养专门化能力:井字棋专家在空间游戏Snake上56%胜率,扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应:Liar's Dice上单一专家12-25%胜率,多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统,实现全参数更新的在线自对弈[24] - 角色条件优势估计(RAE)防止思维崩溃,保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL,性能从59.7%提升到61.7%,AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路:无需高质量推理数据,只需设计合适游戏环境[35] - 验证关键假设:强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限:游戏环境依赖、计算资源需求(8块H100 GPU运行25小时)、性能瓶颈[38] - 评估局限:主要集中在学术基准测试,需进一步验证现实任务影响[39]
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法
AI前线· 2025-06-20 10:47
AICon全球人工智能开发与应用大会北京站 - 大会将于6月27日-28日举办,聚焦AI前沿技术与落地实践 [1] - 汇聚腾讯、阿里、百度、字节跳动等头部大厂及50+资深专家 [1] - 设置AI Agent、多模态应用、推理性能优化等10多个专题论坛 [1][4] 京东集团算法总监韩艾的主题分享 - 演讲主题为《JDAgents-R1:基于强化学习的异构多智能体联合进化算法》 [2] - 提出JDAgents-R1框架,首次将GRPO应用于异构多智能体联合训练 [2] - 通过迭代优化LLMs与自适应记忆机制实现决策与记忆能力动态均衡 [2] - 在通用和商家定制化场景中达到与大规模语言模型相媲美的性能 [2] 韩艾的专业背景 - 中科院与康奈尔大学联合培养博士,北京大学双学士 [3] - 现任京东集团算法总监,京东零售数据与算法通道委员 [3] - 在国际顶级期刊发表数十篇论文,专注AI技术创新 [3] - 主持设计Multi-Agent Planning算法架构并落地京东商家智能助手 [3] 演讲内容框架 - 涵盖多智能体训练技术、应用案例、LLM决策与Memory进化等 [3][5] - 重点介绍GRPO联合训练算法技术和Memory更新技术 [3][5] - 探讨多模型联合训练的信息通信难题和memory进化评估 [5] 大会其他亮点 - 设置AI Agent构建、多模态实践、大模型助力研发等专题论坛 [4] - 50+专家将分享前沿技术洞察和一线实践经验 [4] - 报名可享9折优惠,单张门票立省580元 [4]
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 15:41
强化学习研究发展历程 - 强化学习从推荐系统起步,逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合,推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮,华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统,降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成,引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型,获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目,探索多智能体解决方案 [28] - 开发决策大模型DB1(参数量10亿+,数据量100T)验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区,累计组织30+学者授课,单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册,居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队,推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究,发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业,早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破,技术路线后被多家机器人公司采用 [31][35]
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]