Grok 3 mini
搜索文档
AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
36氪· 2025-11-03 19:08
思维链劫持攻击的核心发现 - 研究发现一种名为“思维链劫持”的新型越狱攻击方法,通过在有害指令前填充一长串无害的解谜推理序列,能成功绕过推理模型的安全防线 [1][2] - 该攻击的核心原理是良性的长推理链会稀释模型内部的拒绝信号,使其安全防备降至最低,从而让后续有害指令得以执行 [1][2][14] - 在HarmBench基准上,此方法对多个主流模型攻击成功率极高,分别为Gemini 2.5 Pro达99%、GPT o4 mini达94%、Grok 3 mini达100%、Claude 4 Sonnet达94%,远超基线方法 [2][8] 攻击方法与实验设计 - 思维链劫持被定义为一种基于提示的越狱方法,结构包含冗长的良性推理前言和一个最终答案提示 [3] - 团队采用自动化流程生成并优化攻击提示,通过黑盒反馈循环迭代评分,无需访问模型内部参数 [3] - 实验以HarmBench前100个样本为基准,对比了Mousetrap、H-CoT和AutoRAN等基线方法,评估指标为攻击成功率 [5][8] 攻击效果与模型稳健性 - 思维链劫持在所有测试模型上的攻击成功率均一致优于基线方法,表明扩展的推理序列是一个易被利用的新攻击面 [7][8] - 在GPT-5-mini上的进一步测试显示,攻击成功率在“低”推理投入设置下最高,达76%,表明更长的推理链并不必然带来更强稳健性,有时反而降低稳健性 [9][11][12] 攻击机制分析 - 研究发现大型推理模型的拒绝行为可由激活空间中的一个单一“拒绝方向”表征 [13] - 攻击机制在于,长链良性推理使得有害token在注意力上下文中占比很小,导致拒绝信号被稀释到阈值以下,此效应称为“拒绝稀释” [14] - 模型的拒绝行为主要由一个脆弱的低维信号控制,当推理链变长时,良性内容会稀释拒绝激活,注意力会偏离有害token [14][15] 对行业的影响与挑战 - 该发现直接挑战“更多推理带来更强稳健性”的假设,延长推理链可能反而加剧安全失效 [15] - 研究质疑了依赖浅层拒绝启发式但未能随推理深度扩展安全机制的对齐策略的可靠性 [15] - 现有防御措施多局限于特定领域,仅修补提示不足以防范此类攻击,有效的防御需将安全性嵌入推理过程本身 [15]
AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
机器之心· 2025-11-03 16:45
思维链劫持攻击概述 - 思维链劫持是一种新型的AI越狱攻击方法,通过在有害指令前填充一长串无害的解谜推理序列,系统性地稀释模型的安全防线,使其对后续有害指令的拒绝率降低[1][5] - 该方法对主流大型推理模型的攻击成功率极高,在HarmBench基准上对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率分别达到99%、94%、100%和94%,远超基线方法[2][11][15] - 攻击的核心机制被定义为“拒绝稀释”,即良性推理token会削弱拒绝方向的信号,使得有害token在长推理链中仅占很小一部分,从而导致安全机制失效[23][24] 攻击方法与实验设计 - 攻击设计包含两个关键组件:一个冗长的良性推理前言和一个最终答案提示,通过自动化流程生成并优化攻击提示[4][5][6] - 实验在HarmBench基准的前100个样本上进行,目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet,使用统一的评判协议[10][11] - 在GPT-5-mini上的进一步测试显示,攻击成功率在“低推理投入”设置下最高,达到76%,表明推理投入与CoT长度是相关但不同的变量,更长的推理链并不总是增强稳健性[16][18][19] 攻击机制与模型安全性影响 - 研究发现大型推理模型的拒绝行为可由激活空间中的一个低维“拒绝方向”控制,该方向在第25层、位置-4处表现最强[21][22] - 思维链推理在提升模型准确性的同时,引入了新的安全漏洞,直接挑战了“更多推理带来更强稳健性”的假设[26] - 现有基于浅层拒绝启发式的对齐策略在长推理链面前可靠性受质疑,有效的防御需将安全性嵌入推理过程本身,如跨层监控拒绝激活或抑制信号稀释[26]
微软将xAI的Grok 3纳入Azure AI Foundry模型列表
快讯· 2025-05-20 09:15
微软AI平台扩展 - 微软于5月19日宣布扩展AzureAIFoundry平台模型列表 [1] - 新增xAI的Grok3和Grok3mini模型 [1] - 模型由微软直接托管和计费 [1] - 通过AzureAIFoundry服务提供给微软产品团队和客户 [1]
微软Build大会宣告进入AI智能体时代 Microsoft 365 Copilot、GitHub编码升级,马斯克xAI模型纳入微软云
华尔街见闻· 2025-05-20 07:18
微软Build 2025开发者大会核心发布 - 公司宣布将Windows转变为AI智能体核心平台 原生支持Model Context Protocol协议并推出Windows AI Foundry [2] - 公司展示如何将"AI助理"升级为"AI开发伙伴" 推动AI应用开发与企业运营进入"代理时代" [2] - 公司推出多项AI开发者平台包括Copilot Studio Windows AI Studio等 [4] GitHub Copilot升级 - GitHub Copilot从代码编辑器助手进化为具备Agentic能力的AI智慧伙伴 新增异步代码代理功能 [2] - GitHub Models新增提示管理 轻量级评估机制与企业级控管功能 [2] - 公司开源GitHub Copilot Chat in VS Code 覆盖1.5亿开发者 [3] Microsoft 365 Copilot增强 - 引入Copilot Tuning能力 允许企业用自有数据训练模型 [5] - 新增multi-agent orchestration功能 支持多智能体协同处理复杂任务 [5][7] - 智能体可在Microsoft 365服务内安全执行领域专业任务 [5] Azure AI Foundry更新 - 新增xAI的Grok 3和Grok 3 mini模型 由微软直接托管和计费 [6] - 平台提供超过1900种AI模型 包括OpenAI Meta和DeepSeek的模型 [6] - 推出Model Leaderboard和Model Router工具 自动选择最佳AI模型 [9] Windows AI Foundry平台 - 重新品牌化Windows Copilot Runtime服务 成为本地AI开发统一平台 [10] - 自动检测硬件并获取必要软件组件 保持组件最新状态 [10] - 支持完整AI开发者生命周期 可管理开源LLM或导入专有模型 [10] Edge浏览器AI能力 - 推出新API允许开发者整合AI功能到Web应用 使用内置模型 [10] - 提供Phi 4 mini模型访问 该模型拥有38亿参数且在数学表现优异 [11] - 新增PDF翻译工具支持70多种语言 下月全面可用 [11] NLWeb项目 - 简化构建AI聊天机器人过程 通过几行代码实现对话界面 [13] - 允许网站选择AI模型和自有数据创建语义化交互体验 [15] - 支持MCP协议 使内容可被AI平台发现和访问 [15] MCP协议整合 - 将Anthropic的MCP协议整合到Windows系统 实现AI应用深度交互 [16] - MCP服务器可访问文件系统 窗口管理等功能 [16] - 目标使智能体成为操作系统工作负载的一部分 [16] 开源举措 - 开源命令行文本编辑器Edit 今夏通过Windows Insider计划安装 [18] - 开源GitHub Copilot in VS Code和Windows Linux子系统 [19] - 允许开发者访问源代码并根据用例进行修改 [19]
Microsoft is bringing Elon Musk's AI models to its cloud
TechXplore· 2025-05-20 03:43
微软AI生态合作 - 微软将xAI的Grok 3及Grok 3 mini模型纳入Azure AI Foundry平台 扩大AI模型选择范围[3][11] - Azure云服务已提供超过1900种AI模型变体 包括OpenAI Meta和DeepSeek等合作伙伴模型[5] - 平台仍缺少谷歌和Anthropic等知名AI公司的模型[5] 云计算市场竞争格局 - 微软与亚马逊 谷歌在云计算租赁算力市场激烈竞争 争夺AI应用构建和部署平台地位[4] - 竞争焦点集中在托管最新AI模型和构建精密使用管控系统[4] - 公司AI套件(含云基础设施和AI应用)年收入预计达130亿美元[12] 开发者工具与标准建设 - 在Build开发者大会上推出模型性能排行榜 自动模型选择工具及企业自建AI模型服务[9][10] - Windows系统及其他产品将支持Anthropic的Model Context Protocol交互标准[6] - 微软与GitHub加入MCP指导委员会 推动AI系统交互标准化[7] AI战略投资与产品整合 - 通过对OpenAI的重大投资巩固AI工具领导地位 将AI深度集成至企业办公和开发者产品[8] - 重点开发代理管理产品 帮助AI工具代表用户执行操作[6] - 技术高层强调需实现AI代理与万物互联的能力[7]