AI编程助手竟成「内鬼」?SKILLJECT:当「技能包」变成「特洛伊木马」
机器之心·2026-03-13 17:21

研究核心观点 - 研究团队提出了首个针对AI编码智能体技能的自动化攻击框架SKILLJECT,该框架通过将恶意载荷隐藏于辅助脚本,并利用精心修改的技能文档进行诱导,能够以极高的成功率劫持受害者系统,揭示了模块化技能生态系统的重大安全隐患[2][48] - 实验表明,SKILLJECT攻击框架在多种主流大语言模型后端上平均攻击成功率高达95.1%,远超传统直接注入攻击的10.9%,并对现有防御机制表现出强大的穿透能力,彻底挑战了智能体架构天然稳健的假设[25][48] 研究背景与方法论 - 现代AI编码助手采用“技能”插件机制以增强能力,允许加载外部功能包,但此机制形成了比网页内容注入更高权限的攻击面,使第三方内容能直接进入智能体核心决策层[5] - SKILLJECT是一个由三个AI智能体协同工作的自动化攻击框架:攻击Agent负责生成带毒技能文档,编程Agent作为受害者执行被投毒的技能,评估Agent则判断攻击是否成功并提供反馈用于迭代优化[12][16] - 框架采用“载荷隐藏与诱导”的核心技术,将真正的恶意代码藏在辅助脚本中,仅在主技能文档中写入看似无害的诱导指令,利用编程智能体渐进式披露的设计,使其难以事前识别恶意意图[17][18] 实验设置与结果 - 研究构建了一个包含50种不同代理技能的基准数据集进行实验,攻击目标分为信息泄露、权限提升、未授权写入和后门注入四种高危后果[19][21] - 实验采用Claude Code作为受害者框架,并连接到Claude-4.5-Sonnet、GPT-5-mini、GLM-4.7、MiniMax-M2.1四个不同的后端大语言模型以评估攻击的可迁移性[20][21] - 攻击成功率计算采用严格的双层验证协议,需同时满足“调用检查”与“后果检查”才被视为成功[22][28] - 主要实验结果显示,SKILLJECT框架平均攻击成功率达到95.1%,而作为基线的直接注入方法平均成功率仅为10.9%[25] - 按攻击类别细分,对于信息泄露、权限提升和未授权写入这类高敏感性操作,基线方法成功率为0.0%,而SKILLJECT方法成功率大多超过94%[25] - 在后门注入场景中,攻击表现出强大的跨模型可迁移性,针对GLM-4.7生成的对抗性技能文档,在MiniMax-M2.1和Claude-4.5-Sonnet上分别达到86.0%和88.0%的攻击成功率[33][34] 攻击策略与消融分析 - 攻击Agent能自主进化出欺骗策略,例如通过结构模仿使恶意步骤看起来像常规工作流程,或利用视觉强调制造紧迫感以迫使受害代理执行脚本[31] - 消融研究表明,迭代优化循环是最关键的组件,移除后攻击成功率从98.0%下降至56.0%[37][38] - 生成约束的消融显示,结构对齐和最小编辑约束对于保持攻击隐蔽性至关重要,移除后攻击成功率分别下降至92.0%和94.0%[38][41] 防御评估与行业启示 - 使用SkillScan防御框架进行评估,结果显示其对信息泄露和权限提升攻击的检测率达90.0%,但对未授权写入和后门注入的检测率分别仅为30.0%和20.0%[42][43] - 研究发现当前基于静态分析和文本语义审计的防御机制存在盲点,难以应对SKILLJECT这类利用语义模糊性和上下文的社会工程攻击[44][49] - 研究结论强调,行业在追求AI系统可扩展性与功能灵活性的同时,必须重新审视技能共享机制的安全边界,未来设计需要更强的端到端防御,包括跨文件一致性检查、行为级审计和工具调用的运行时策略执行[44][46][48]

AI编程助手竟成「内鬼」?SKILLJECT:当「技能包」变成「特洛伊木马」 - Reportify