Workflow
经验反思采样 (Experience Reflection Sampling)
icon
搜索文档
看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
机器之心· 2025-06-04 17:22
研究背景 - 大语言模型(LLMs)面临无法直接访问最新或领域特定信息的问题,RAG系统通过接入外部知识库解决这一痛点[5] - RAG系统知识库常包含私有或敏感信息,传统攻击方式依赖明显的恶意输入(如提示注入/越狱攻击),易被防御系统识别[5] 攻击方法创新 - 提出隐式知识提取攻击(IKEA),通过自然常规查询高效引导系统暴露私有信息,无需依赖异常指令[1] - IKEA攻击流程具备高度自然性与隐蔽性,核心步骤包括构建锚点概念、生成自然语言问题、优化攻击路径[8] - 采用两项关键机制:经验反思采样(动态筛选有效锚点概念)和可信域有向变异(定向扩展未覆盖知识区域)[17] 技术实现细节 - 锚点概念数据库初始化采用语义相似度阈值筛选,公式为$D_{\rm march}=\{w\in{\rm Gen}_{\rm concept}(w_{\rm logic})|s(w,w_{\rm logic})\geq\theta_{\rm logic}\}$[11] - 经验反思采样通过历史记录评估无效锚点,惩罚得分函数包含域外样本和不相关样本判断标准[14][19] - 可信域有向变异(TRDM)在语义邻域内搜索新锚点词,定义变异停止函数$F_{\mathrm{stop}}$控制探索边界[21] 实验结果 - 在医疗/小说/百科三类数据集测试中,IKEA在无防御/输入检测/输出过滤场景下平均提取效率达91%,攻击成功率96%[23] - 双重防御下提取的知识使问答准确率提升至92-95%(医疗93%/小说94%/百科92%),显著优于基线方法[28] - 构建的替代RAG系统在Pokémon数据集上评估显示,IKEA提取知识在MCQ/QA任务表现接近原始知识库[28] 研究意义 - 揭示RAG系统在表面正常交互下的严重隐私风险,提出首个不依赖异常指令的黑盒攻击范式[1][29] - 攻击方法对现有防御机制具有强鲁棒性,为后续防御体系设计提供关键参考[29]