AI编程助手竟成「内鬼」？SKILLJECT：当「技能包」变成「特洛伊木马」

研究核心观点 - 研究团队提出了首个针对AI编码智能体技能的自动化攻击框架SKILLJECT，该框架通过将恶意载荷隐藏于辅助脚本，并利用精心修改的技能文档进行诱导，能够以极高的成功率劫持受害者系统，揭示了模块化技能生态系统的重大安全隐患[2][48] - 实验表明，SKILLJECT攻击框架在多种主流大语言模型后端上平均攻击成功率高达95.1%，远超传统直接注入攻击的10.9%，并对现有防御机制表现出强大的穿透能力，彻底挑战了智能体架构天然稳健的假设[25][48] 研究背景与方法论 - 现代AI编码助手采用“技能”插件机制以增强能力，允许加载外部功能包，但此机制形成了比网页内容注入更高权限的攻击面，使第三方内容能直接进入智能体核心决策层[5] - SKILLJECT是一个由三个AI智能体协同工作的自动化攻击框架：攻击Agent负责生成带毒技能文档，编程Agent作为受害者执行被投毒的技能，评估Agent则判断攻击是否成功并提供反馈用于迭代优化[12][16] - 框架采用“载荷隐藏与诱导”的核心技术，将真正的恶意代码藏在辅助脚本中，仅在主技能文档中写入看似无害的诱导指令，利用编程智能体渐进式披露的设计，使其难以事前识别恶意意图[17][18] 实验设置与结果 - 研究构建了一个包含50种不同代理技能的基准数据集进行实验，攻击目标分为信息泄露、权限提升、未授权写入和后门注入四种高危后果[19][21] - 实验采用Claude Code作为受害者框架，并连接到Claude-4.5-Sonnet、GPT-5-mini、GLM-4.7、MiniMax-M2.1四个不同的后端大语言模型以评估攻击的可迁移性[20][21] - 攻击成功率计算采用严格的双层验证协议，需同时满足“调用检查”与“后果检查”才被视为成功[22][28] - 主要实验结果显示，SKILLJECT框架平均攻击成功率达到95.1%，而作为基线的直接注入方法平均成功率仅为10.9%[25] - 按攻击类别细分，对于信息泄露、权限提升和未授权写入这类高敏感性操作，基线方法成功率为0.0%，而SKILLJECT方法成功率大多超过94%[25] - 在后门注入场景中，攻击表现出强大的跨模型可迁移性，针对GLM-4.7生成的对抗性技能文档，在MiniMax-M2.1和Claude-4.5-Sonnet上分别达到86.0%和88.0%的攻击成功率[33][34] 攻击策略与消融分析 - 攻击Agent能自主进化出欺骗策略，例如通过结构模仿使恶意步骤看起来像常规工作流程，或利用视觉强调制造紧迫感以迫使受害代理执行脚本[31] - 消融研究表明，迭代优化循环是最关键的组件，移除后攻击成功率从98.0%下降至56.0%[37][38] - 生成约束的消融显示，结构对齐和最小编辑约束对于保持攻击隐蔽性至关重要，移除后攻击成功率分别下降至92.0%和94.0%[38][41] 防御评估与行业启示 - 使用SkillScan防御框架进行评估，结果显示其对信息泄露和权限提升攻击的检测率达90.0%，但对未授权写入和后门注入的检测率分别仅为30.0%和20.0%[42][43] - 研究发现当前基于静态分析和文本语义审计的防御机制存在盲点，难以应对SKILLJECT这类利用语义模糊性和上下文的社会工程攻击[44][49] - 研究结论强调，行业在追求AI系统可扩展性与功能灵活性的同时，必须重新审视技能共享机制的安全边界，未来设计需要更强的端到端防御，包括跨文件一致性检查、行为级审计和工具调用的运行时策略执行[44][46][48]