破除水军机器人！北航团队发布全新对抗性框架SIAMD：用“结构信息”破译机器人伪装｜IEEE TPAMI

文章核心观点 - 北京航空航天大学彭浩团队提出了一种名为SIAMD的主动式社交机器人检测对抗性框架，该框架通过模拟机器人行为来增强检测器的性能，在多个真实数据集上的实验表明，其在有效性、泛化性、鲁棒性和可解释性方面均显著优于当前最先进的基线模型 [2][3][43] 对抗性检测架构 - SIAMD架构包含四个主要阶段：社交网络分析（阶段I）、网络结构演化（阶段II）、网络内容演化（阶段III）和机器人检测优化（阶段IV）[4][6] - 阶段I构建用户与消息的异质交互网络并预训练一个图神经网络作为初始黑箱检测器 [7] - 阶段II为机器人账户定义了两个行为建模目标：最小化被检测概率和最大化消息传播的网络影响力 [8] - 阶段III利用大语言模型，根据建模的机器人行为、交互类型和目标账户生成相关的消息内容，并更新网络 [9] - 阶段IV在更新后的网络上微调检测器，并以对抗方式与行为建模目标对齐，优化后的模型用于下一次迭代，逐步提升主动检测性能 [10] SIAMD框架设计 - 框架包含四个核心模块：社交网络分析、网络结构演化、网络内容演化和对抗性机器人检测 [11][12] - 社交网络分析模块将历史交互组织为统一的异质图，整合了账户、消息顶点以及发布、转发、提及、回复、关注等多种交互边，并利用元路径和嵌入技术捕获语义与结构特征 [13][14][16] - 网络结构演化模块被分解为社交活动判定和目标账户选择两个关键任务，并采用多智能体强化学习进行模拟 [32][33] - 网络内容演化模块整合用户元数据、历史内容和社交结构，构建提示词驱动大语言模型生成上下文相关的新消息内容，从而更新网络 [39][40] 实验结果：检测性能 - 在Cresci-15、Cresci-17、TwiBot-20和TwiBot-22四个知名数据集上，SIAMD的检测性能全面超越三类最先进的基线方法（基于特征、基于内容、基于图）[43] - 在Cresci-15数据集上，SIAMD的准确率达到98.6%，F1分数达到98.9%，相比最佳基线RGT（准确率97.2%，F1分数97.8%）有显著提升 [44] - 在Cresci-17数据集上，SIAMD的准确率为96.7%，F1分数为98.1% [44] - 在TwiBot-20数据集上，SIAMD的准确率为90.7%，F1分数为91.9%，相比最佳基线SimpleHGN（准确率86.7%，F1分数88.3%）提升明显 [44] - 在更具挑战性的TwiBot-22数据集上，SIAMD的准确率为84.9%，F1分数为63.1%，仍大幅领先于其他基线模型 [44] 实验结果：泛化与鲁棒性 - 在引入大语言模型（LLaMA2-70B和ChatGPT）驱动的对抗性攻击后，SIAMD表现出最强的鲁棒性，性能下降幅度最小 [49] - 在TwiBot-20数据集上，遭受LLaMA2-70B攻击后，SIAMD的准确率从90.7%降至79.8%（平均下降9.0%），F1分数从91.9%降至80.4%（平均下降9.1%），下降幅度远小于其他基线模型 [50] - 遭受ChatGPT攻击后，SIAMD的准确率降至83.7%，F1分数降至85.3%，性能保持最佳 [50] 实验结果：可解释性与框架有效性 - 通过可视化建模机器人的行为，SIAMD框架提供了良好的可解释性，能够揭示不同机器人账户的行为策略（如模仿人类、表达观点、协作操纵舆论等）[51][52][54] - 敏感性分析表明，SIAMD框架的有效性不依赖于特定的大语言模型，其对抗性架构和网络演化过程是提升检测性能的关键 [56][57] - 完整的SIAMD框架性能优于其变体（SIAMD-SE和SIAMD-CE），而这两个变体又优于底层的图卷积网络检测算法，证明了框架设计的综合优势 [57]