Workflow
代码智能体
icon
搜索文档
第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
机器之心· 2025-08-23 18:51
AI代码模型安全漏洞研究 - 即使经过安全对齐的大语言模型也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患[2] - 恶意用户可利用这类模型显著加速恶意软件的构建与迭代,降低攻击门槛并缩短开发周期[2] - 许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题[2] 亚马逊Nova AI安全挑战赛 - 比赛分为红队和蓝队对抗形式,蓝队应用最新安全对齐实践,红队需在200轮对话内寻找模型安全漏洞[7] - 代码模型安全评估包含两个维度:符合安全代码规范(如避免SQL注入)和拒绝恶意软件开发请求[7] - 普渡大学PurCL团队作为红队以超过90%的攻击成功率获得第一名,赢得25万美元奖金[2][7] 传统AI安全评估局限性 - 传统安全评估基于静态预定义数据集(如禁止合成生化武器),未覆盖复杂真实领域场景[9] - 现有顶尖安全分类器对常见话题防御有效率达90%,但对网络安全领域话题的有效性骤降至10%以下[19] - 基于模型推理的防御方案存在不可靠性,模型在拒绝危险请求时常包含错误归因[20] AI认知建模框架 - 采用人类认知科学三分法建模:"问题"(用户请求)、"推演"(中间推理步骤)、"解决方案"(生成代码)[12][14] - 蓝队技术分为三类:危险输入识别(问题过滤)、推演步骤加强(如OpenAI的Deliberative Alignment)、危险输出识别(解决方案过滤)[16][17] PurCL红队系统技术创新 - 开发基于AI认知建模的全过程红队系统,耗时八个月和百万美元研发,现开放给研究者共享使用[3] - 系统包含领域知识建模和推理路径分析两大核心组件[21] - 领域知识建模通过Enumerator智能体构建领域知识图,覆盖2.28万亿和1×10²⁸量级的请求搜索空间[23] - 推理路径分析技术ASTRA通过构建"决策图"比对目标模型推理轨迹,系统性揭示推理漏洞[25] SOTA模型测试结果 - GPT-5在68.7%的情况下可能帮助构建恶意代码,GPT-OSS-120B在48.3%的情况下生成不安全代码[29] - 在具体攻击类型中,模型在Process Injection(进程注入)和Exploit Client Execution(客户端执行利用)等场景漏洞率超80%[29] - 安全编码规范方面,模型在Insecure Hashing(不安全哈希)场景漏洞率达100%,在Loose File Permissions(宽松文件权限)场景漏洞率最低约35-63%[30] 行业影响与研究意义 - 研究表明当前AI安全研究尚未解决真实世界中的模型安全问题,复杂领域的全面有效对齐仍是开放挑战[7] - 代码智能体如Claude可显著加速恶意勒索软件开发(实验后已安全删除)[32] - 模型对齐研究需超越防御越狱技术,重点解决复杂领域扩展问题和推理过程的安全可靠性[32]
代码智能体占领GitHub!自动修bug、加功能、写文档,一台手机就能指挥
量子位· 2025-05-20 09:02
GitHub Copilot Coding Agent核心功能 - 推出代码智能体Copilot Coding Agent,可实现bug自动修复、功能自动添加、文档自动编写[1] - 开发者反馈良好,已实际解决拖延问题[2] - 支持手机版APP全流程操作[3] - 用户只需分配任务,智能体即可自主执行[5] - GitHub内部已投入使用该智能体[6] 任务分配与执行机制 - 通过分配issue触发智能体工作流程,操作方式与人类开发者协作相同[7] - 智能体启动虚拟机后自动克隆分析代码库,实时保存修改并记录详细推理日志[9] - 任务完成后@人类审核,AI能自动处理审核意见[10] - 支持整合PR讨论上下文,理解任务意图及项目代码标准[11] - 官方建议应用于测试充分的代码库,处理低至中等复杂度任务(功能添加/错误修复/测试扩展/文档改进等)[11] - 支持多任务并行分配[12] 微软开发者大会相关更新 - 宣布VSCode中的GitHub Copilot将开源[16] - 新增Copilot Tuning功能,允许企业用专有数据微调AI模型以适配员工工作模式[20] - 推出NLWeb技术,实现自然语言交互网站[23] - 发布Microsoft Discovery加速科研,已在200小时内发现新型数据中心制冷剂原型(传统人工需数月数年)[24][25] 集成与部署特性 - 智能体可一键部署至Office、Slack等办公应用[22] - 提供完整功能文档与Quickstart指南[13][26]