Workflow
沙普利值
icon
搜索文档
在AI社会抓「内鬼」?上海AI Lab推出首个多智能体极端事件解释框架
机器之心· 2026-03-04 17:15
多智能体系统极端事件研究的核心观点 - 由上海人工智能实验室联合多所高校的研究团队,开发了首个用于诊断多智能体系统极端事件的解释框架,旨在拆解数字镜像中“黑天鹅”事件的演化过程并找出诱发系统崩溃的“内鬼”[2] - 研究核心观点是:多智能体系统中出现的恶性通胀、股市崩盘等“黑天鹅”极端事件,并非源于代码漏洞,而是系统演化中自发涌现的结果,并且这些事件具有可解释的、稳定的系统性结构[2][7][17] 研究背景与问题 - 2023年斯坦福“模拟小镇”的流行开启了大语言模型驱动多智能体系统模拟人类社会的元年,如今已构建出模拟宏观经济、金融市场、社交网络等高度复杂的社会系统数字镜像[5][6] - 随着系统复杂度攀升,现实社会中的极端事件在AI多智能体系统中精准重演,但智能体间庞杂的非线性交互构成了一个巨大的涌现“黑盒”,使得难以追溯危机起源、关键驱动者及触发行为[7][12] - 研究需要解决三个溯源难题:极端事件从何时开始积累、由谁驱动、以及由何种具体行为模式促成[12][14] 研究方法与框架 - 研究团队推出了首个专门用于诊断多智能体系统极端事件的解释框架,其核心分析工具是博弈论中的沙普利值[13] - 该框架将系统爆发的灾难风险精准拆解并公平分摊到每个智能体在每一时刻的每个具体动作上,并沿时间、智能体、行为模式三个维度对风险贡献进行归纳聚类[13] - 团队进一步设计了五把量化风险的标尺来刻画极端事件的演化特征:风险潜伏期、智能体风险集中度、风险-不稳定性相关性、智能体风险同步性、行为风险集中度[13] 极端事件的五大演化规律 - **发现1(风起于青萍之末)**:极端事件的时间演化特征呈现两极分化,风险要么早已埋下伏笔蓄势待发,要么大部分源于当下瞬间引爆[19] - **发现2(害群之马)**:极端事件往往由少数高危智能体驱动[20] - **发现3(不稳定性)**:对系统崩溃贡献越大的智能体,其日常行为往往表现出极高的不稳定性[20] - **发现4(羊群效应)**:智能体之间会形成隐形默契,倾向于同步地增加或减少系统风险[20] - **发现5(毒瘤行为)**:导致系统崩盘的绝大部分风险,只源自极少数特定的行为模式[20] 实验验证与效果 - 实验在宏观经济、金融市场和社交网络三大场景中,对GPT-4o mini、Llama-3.1-8B-Instruct、Claude-3-Haiku、Qwen-Plus、DeepSeek-V3.2等多种大模型进行了测试[15][22] - 根据框架算出的风险归因分数,在系统中定向移除高贡献的“危险动作”后重演,整体系统崩溃风险出现断崖式下降[21] - 在多个场景的对比实验中,该团队的方法在降低风险方面普遍优于随机方法及其他现有方法,例如在TwinMarket场景中使用GPT-4o mini时,其方法使风险降低了`38.20%`(Top-3动作)和`60.05%`(Top-10动作),效果显著[22] 行业影响与未来展望 - 该研究意味着在风险演化的关键节点,通过精准监管并干预具有高危特征的智能体和行为模式,有望在AI模拟的数字世界乃至未来现实社会中实现真正的防患于未然[22] - 面对多智能体构建的现实镜像,掌握解释极端涌现现象的工具,是重新编译一个更加安全未来的关键[23]