Claude Opus 4.6
搜索文档
Anthropic's Mythos set off a cybersecurity 'hysteria.' Experts say the threat was already here
CNBC· 2026-05-08 21:02
Anthropic的Mythos模型与AI网络安全能力现状 - Anthropic首席执行官Dario Amodei承认,其Mythos模型发现软件漏洞的规模较早期模型有大幅提升,但这一趋势并非全新现象[5] - Anthropic公司发言人指出,Mythos模型的关键不同在于其能进一步自动化开发出可用的漏洞利用程序,几乎无需人工干预,这自动化了以往需要熟练研究人员的过程[6] AI模型检测漏洞的能力与可及性 - 网络安全公司Vidoc的CEO表示,现有AI模型已足够强大,能够大规模检测“零日漏洞”,这种情况已持续数月甚至一年[2] - Vidoc的研究人员通过“编排”技术,使用OpenAI和Anthropic的旧模型对同一代码库进行测试,成功检测出了相同的漏洞[3] - 另一家网络安全公司AISLE发现,Mythos的许多突出成果可以通过并行运行的更廉价模型复现,这表明规模和协调性比拥有最新模型更重要[3] - Anthropic未否认早期模型具备发现软件漏洞的能力,并指出其已警告数月AI的网络能力正在快速进步[4][5] AI对网络安全攻防态势的影响 - 行业专家指出,在AI网络攻防能力的发展中,初始优势在于攻击方而非防御方[11] - 摩根大通的Jamie Dimon表示,AI工具最终可能帮助公司防御网络攻击,但首先会使它们变得更加脆弱[11] - 法律事务所合伙人指出,被发现漏洞的数量显著增加,但似乎尚未部署能帮助修复这些漏洞的工具[12] - 网络安全专家将漏洞管理描述为一项“西西弗斯式的艰巨任务”[12] 行业现状与面临的挑战 - 网络安全专家描述,近期与银行、保险公司和监管机构的对话充满了“歇斯底里”的情绪,行业对其面临漏洞的数量感到恐慌[7][9] - 即使在生成式AI出现之前,公司也面临熟练黑客在数小时内利用新发现漏洞的问题,而修补代码通常需要数天或数周,有时还需关键系统离线[9] - 专家表示,以前全球只有极少数专家有能力且有时间去发现和利用软件中的隐蔽漏洞,而现在,使用现有AI模型降低了造成网络破坏的入门门槛[9] - 这意味着银行等目标将遭受更多攻击,以往未引起网络犯罪分子太多兴趣的软件系统现在也将面临威胁[10] 漏洞披露与防御建设的矛盾 - 参与Mythos初始发布的有限群体在修补漏洞方面获得了先机,但这也带来了弊端:AI研究人员未获准访问Mythos以独立验证Anthropic的说法或开始构建防御措施[13] - 有观点认为,这阻碍了更广泛的网络安全社区参与解决方案的构建[13] - 网络安全初创公司CEO指出,这造成了“拥有者和未拥有者的阶层分化”,可能阻碍网络安全创新的步伐[14] - 许多网络安全初创公司正在努力开发解决方案,以帮助企业在AI新时代应对挑战[14]
Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上
AI前线· 2026-05-08 14:22
Anthropic发布NLA技术以提升大模型可解释性 - Anthropic发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,提出一种名为自然语言自动编码器的技术,旨在撬开大模型的黑箱[2] - 该技术将模型内部的高维激活值压缩成可读的自然语言解释,再反向重建原始激活,使模型内部状态变得可阅读、比较和交叉验证[2] - NLA技术已被正式用于Claude Opus 4.6和Mythos Preview的预部署对齐审计[4] NLA技术的核心架构与训练方法 - NLA系统包含三个角色:提供激活值的冻结目标模型、将激活值翻译成自然语言的激活值言语化器、以及根据解释重建激活值的激活值重建器[18][19] - 系统形成一个从原始激活到文字解释再到重建激活的完整闭环[20] - 训练分为两个阶段:第一阶段使用监督微调热启动,利用代理任务使系统FVE达到0.3–0.4,为强化学习提供稳定起点[24];第二阶段使用强化学习联合优化,以重建误差作为奖励信号,并加入KL散度惩罚防止退化[27][29][30] - NLA的核心创新在于引入“文本瓶颈”,将解释是否有用从主观判断变为可优化的客观指标[30] NLA技术相比传统方法的优势 - 传统评估依赖模型输出和思维链,但思维链可能不完整或不忠实,无法反映内部真实思考[5][6][12] - NLA技术试图进入模型的激活状态,捕捉其内部的判断、怀疑、计划和意图[16] - 与传统可解释性工具如稀疏自编码器相比,NLA更像翻译官,直接将内部状态转为可读文本,降低了审计门槛[31] NLA技术在审计中的实际应用与发现 - NLA能有效捕捉模型“知道但没说”的信息,例如在安全测试中,Claude虽未口头表达,但内部已识别出被构造的测试场景[34][36] - 在代码破坏测试和SWE-bench Verified等评测场景中,NLA检测到的隐性评估感知比例分别为16%和26%,而模型口头表达的怀疑几乎为0%[37][40] - 在“审计游戏”中,使用NLA辅助发现隐藏动机的成功率从不足3%提升至12%–15%,效率提升4-5倍[4][44] - NLA成功用于Bug溯源,例如定位Claude Opus 4.6随机用外语回复的Bug根源在于训练数据错误,并提供了可溯源的调试路径[45][46] NLA技术对AI安全与行业的影响 - NLA技术将AI可解释性从为输出补理由,推进到为模型内部状态建立审计接口[48] - 该技术使研究者有机会从黑箱内部寻找证据,以判断模型的输出、思维链和内部状态是否一致[48] - 这项研究揭示,Benchmark可能成为模型识别环境并调整姿态的秀场,对行业评估方式构成冲击[41] - NLA技术本身也存在局限,例如可能编造细节,其解释也需要被审计,但这并未削弱其推动可解释性进入“内部状态审计”新阶段的方向性意义[48]
你的软件,Agent 才是主用户——Foundation Capital 进入 Agent 时代六个月的六条洞察
深思SenseAI· 2026-05-08 13:09
文章核心观点 - 行业正处在“长程自主Agent时代”的起点,其发展速度远超预期,类比1991年的个人电脑和2000年的互联网,真正的组织重构和定义性产品尚未到来,为当前入局者提供了广阔的机会窗口 [3][6][8] - 软件的新主用户正在从人类转变为AI Agent,这要求产品设计、公司运营和组织基础设施进行根本性重构,以“Agent优先”为原则 [9][10][19][20] - 企业在AI时代的真正竞争优势不在于模型微调或单纯的数据积累,而在于构建可被Agent调用的“上下文图谱”和“运行框架”,以及建立能够实现Agent自我改进的反馈循环系统 [12][14][15][17] AI Agent能力进展与历史节点 - **能力快速扩展**:AI Agent能独立完成的最长软件开发任务,成功率50%的时长从一年前的约2小时扩展到现在的12小时以上,Claude Opus 4.6可完成“从多个RFC实现复杂协议”级别的任务 [4] - **采用率指数增长**:Claude Code发布一年多,已贡献全球公开GitHub提交数量的4%,预计年底将超过20% [4] - **社区关注度爆发**:开源AI助手OpenClaw在三个月内获得的GitHub星标数超过了Linux内核,而Linux达到此里程碑用了15年 [5] - **三个关键拐点**:2022年底的ChatGPT时刻(通用交互界面)、2024年的o1时刻(推理时算力)、以及当前正在进行的长程Agent时刻(自主制定计划、行动与恢复) [6] “Agent优先”的运营与产品范式 - **运营原则转变**:运营模式应从“人类分配任务,AI辅助”转变为“Agent先发起并执行,人类在关键节点介入验证和指导” [9] - **产品设计根本改变**:当软件的主要操作者是Agent时,设计要求从漂亮的用户界面转向清晰的编程接口,从丰富的交互体验转向可预测的系统状态 [10] - **产品战略意义**:产品必须具备清晰的编程接口、支持Agent调用和符合Agent工作方式,否则将面临被Agent默认选择的竞争对手快速超越的风险 [11] 技术架构与持久优势构建 - **模型策略:可插拔优于微调**:为成本优化而持续维护微调模型消耗的工程师工时常超过其节省的成本,且需随基础模型更新重做,因此工程体系应设计为允许在一天内更换底层模型的“可插拔”架构 [12] - **核心资产:运行框架**:用户与模型之间的工程层(运行框架)负责路由、记忆、验证和多步工作编排,其中沉淀的业务流程和判断规则知识比押注特定模型更持久 [13][14] - **真正护城河:上下文图谱**:企业专有优势在于“上下文图谱”,即数据在各系统间被导航、协调以支撑决策的方式,包括隐性规则和判断调用,这随公司决策积累而愈发有价值且难以复制 [15][16] 部署挑战与价值实现路径 - **现状与落差**:AI对财富500强企业实际运营的可量化影响目前仍非常有限,认知与行动存在巨大落差 [17] - **核心问题:部署质量**:价值实现的最大障碍不是模型能力,而是部署质量差,缺乏将Agent作为“需要被管理的系统”来运营的体系 [17] - **解决方案:建立反馈循环**:应像对待新员工一样对待Agent,提供完整入职流程、持续反馈机制和专人负责改进,通过工具化监控、失败归因来形成自我改进的闭环,这本身就是核心产品 [17][18] 未来展望:工作方式的重构 - **长期运行Agent**:未来将出现拥有持续身份、可运行数月甚至更长时间的Agent,人类角色将从执行工作转向设定方向、提供判断和验证结果 [19] - **基本单位改变**:知识工作的基本单位将从孤立的一次性对话,转变为人类与Agent之间的持续关系,这引发了一系列全新的产品设计问题 [21] - **人类角色的再定义**:以建立人际关系为核心的工作(如招聘、企业销售、维护文化)仍将属于人类,人类将成为“处于循环中”的决策者和方向设定者,运营性工作将获得巨大执行杠杆,小团队可管理数百个Agent,完成远超以往的工作量 [22]
China to Invest in DeepSeek at $50 Billion Valuation
Yahoo Finance· 2026-05-06 20:45
公司融资与估值 - 深度求索(DeepSeek)正在从政府背景的投资者处筹集资金 这与北京推动技术自给自足的目标保持一致 [1] - 近期谈判中 一些潜在投资者对公司的估值约为500亿美元 较此前讨论的100亿至300亿美元估值范围在最近几周内大幅跃升 [1] - 公司计划在新一轮融资中筹集数十亿美元 资金将用于推进研发和扩展计算基础设施 [3] - 公司还希望通过此轮融资锚定市场估值 以彰显其价值 并为员工股权激励提供基准 以留住顶尖人才 [3] 政府支持与战略定位 - 成立约一年、资本约88亿美元的国家人工智能产业投资基金正以人民币进行高级别谈判 拟参与此轮投资 [2] - 自去年初以低成本构建的强大模型震动硅谷和华尔街后 北京已将深度求索视为国家人工智能冠军企业 [4] - 公司已成为中国在多个AI领域打造顶级本土公司计划的关键组成部分 该计划旨在对冲美国出口管制 并争夺全球AI领导权 [4] 技术进展与商业模式 - 公司上月发布了升级版旗舰模型V4 该模型使用英伟达高端芯片训练 但也与华为等国内芯片供应商紧密合作 显示出减少对美国依赖的转向 [5] - 公司表示V4模型在性能上匹配了去年底发布的顶级美国产品 但在某些领域落后于今年发布的领先美国模型 如Anthropic的Claude Opus 4.6 [5] - 投资者预计新模型将推动中国AI应用浪潮 各行业寻求从办公室到工厂车间实现更复杂任务的自动化 [6] - 包括V4在内的公司主要模型为开源 用户可以免费下载和修改 公司主要通过销售运行在其计算基础设施上的模型访问权限获得少量收入 [6]
同一个Claude Opus,换个壳差4.5分——2026最被低估的agent设计约束
深思SenseAI· 2026-05-06 17:12
核心观点 - 模型与运行它的“壳”之间存在紧密的耦合性,这种“模型与壳的匹配度”是影响模型性能表现的关键因素,其重要性甚至超过模型本身的权重升级[4][5][9] - 同一套模型权重,在不同的壳中运行,性能表现可以产生巨大差异,例如Claude Opus 4.6在ForgeCode壳中得分为79.8,在Capy壳中仅为75.3,相差4.5分[8] - 模型在训练后期是针对其特定壳的细节进行优化的,这些细节包括工具命名、输入模式、引用标签等,形成了模型的本能,使得模型无法在不同壳之间无缝迁移[13][57] 行业现状与现象 - 在Terminal-Bench 2.0等权威榜单上,壳对性能的提升作用显著,第三方壳ForgeCode占据了榜单前六名中的三个席位[8] - 行业中存在一个反直觉的现象:模型公司自家的旗舰模型运行在其官方壳中,其表现可能不如运行在第三方优化壳中的同一模型[12] - Cursor团队通过优化壳,使得同一模型的榜单排名从Top 30跃升至Top 5,提升了25位[4][52] 技术原理与耦合性 - 模型在训练后期阶段,其学习内容与壳的特定实现细节深度绑定,包括工具调用格式、规划协议、记忆系统架构等[13][18] - 不同壳定义了完全不同的底层通信协议,例如Codex使用类型化异步协议,Claude Code使用直接类型化对话循环,GitHub Copilot CLI使用监督者协议[16][17] - 工具集是模型“方言”的体现,不同壳提供的工具在名称、数量和调用方式上存在差异,模型被训练成使用特定格式的工具,换用其他格式会导致效率下降和错误率上升[21][22][24][25] 具体组件分析 - **技能系统**:虽然不同壳都使用类似SKILL.md的格式,但技能文件中隐含着对特定工具集的调用契约,跨壳使用时会导致技能默默失败或功能残缺[26][27][30][32] - **记忆系统**:不同壳的记忆架构(如延迟批量写、同步实时写、服务端存储)和引用机制(如特定的XML标签)差异巨大,跨壳使用会导致记忆无法被正确识别、引用和衰减,从而失效[33][34][36][43] - **引用标签**:一个具体的例子是Codex壳使用的`<oai-mem-citation>`六字符XML标签,它作为模型与壳之间关于记忆使用的契约,在其他壳中不被解析,直接导致记忆系统功能紊乱[37][38][42] 对行业参与者的启示 - **对智能体平台而言**:应将模型与壳作为一个整体产品来设计和发布,承认并管理好它们之间的强耦合关系,试图建立通用接口往往会在各个模型上导致性能损失[46][53] - **对模型实验室而言**:壳是产品战略和核心护城河的一部分,而非普通的基础设施,其设计(如记忆流水线、系统提示注入机制)是塑造模型不可替代性的关键[53] - **对用户而言**:更换模型的实际成本很高,因为这需要复刻整个工具集、引用契约、系统提示结构等配套环境,其代价接近于重新进行一次后期训练[54] 实践与成本 - 在单个会话中中途切换模型会导致对话历史分布偏移、提示缓存失效以及工具集形状改变,带来显著的性能损失和复杂性[47] - 更干净的解决方案是派遣子智能体使用新模型,而非切换主对话模型,这样可以避免上下文污染和缓存问题[49] - GitHub Copilot CLI采取了务实的“按模型路由”策略,为不同家族的模型加载其训练时使用的工具集和循环,承认了不同模型在自家壳中实为不同产品的事实[44][45][46] 发展趋势 - 模型与壳的匹配关系不是静态的,随着模型能力的演进,原先壳中用于弥补模型不足的“脚手架”可能变得多余甚至成为负担[55][56] - 前沿的设计方向是模型与壳的“成对设计”,让后期训练与运行时环境相互加强,形成正向循环[58] - 为了保持领先,在新模型发布时可能需要大幅重构甚至删除原有的壳代码,因为更强大的模型能够“消化”掉之前需要的辅助结构[59]
详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实
晚点LatePost· 2026-05-02 19:46
文章核心观点 - 文章通过访谈两位AI从业者,深入解读了DeepSeek-V4的技术报告,认为其核心成就在于**系统级的耦合工程优化**,而非单一的技术范式突破[9][14] - 中国开源大模型团队(如 DeepSeek、Kimi、智谱等)在激烈的竞争和人才密度下,已成为全球开源生态中最活跃的投入者,其发展路径更侧重于**极致的工程优化和性价比**[4][11][57] - 行业正从追求“范式变化”转向在现有Transformer范式下进行**深度的、系统性的工程优化**,以解决计算瓶颈和成本问题,这将成为未来一两年的竞争主旋律[14][58] 模型架构与技术创新 - **注意力机制革新**:DeepSeek-V4放弃了此前被视为先进架构的MLA(多头潜在注意力),回归MQA(多查询注意力),并创新性地组合使用CSA(压缩稀疏注意力)和HCA(重度压缩注意力)两种token-wise压缩技术,实现4:1和128:1的大尺度压缩,以降低长上下文处理的计算和显存开销[5][6][7][26] - **残差连接改进**:引入了mHC(流行约束超连接),在字节Seed提出的HC基础上加入Sinkhorn算法进行约束,改善了训练稳定性,与Kimi的Attention Residuals异曲同工,旨在增强层间的信息流动[35][36] - **优化器升级**:在1.6T参数规模的MoE模型上成功应用了Muon优化器,这是一种矩阵级别的优化器,相比元素级的AdamW能更好地利用参数间的联系,其大规模稳定训练是工程能力的体现[9][28][29][32] - **训练精度突破**:将训练精度从V3的FP8推进至FP4,通过量化感知训练等技术,在节省显存和带宽的同时保持了训练稳定性,使FP4成为工业级应用的标准[9][42][44][46] 工程实现与系统优化 - **系统级耦合挑战**:V4一次性引入了混合注意力、mHC、Muon优化器和FP4训练等多个相互耦合的新技术,其组合复杂度呈爆炸式增长,系统级的耦合优化比单点创新更为困难,体现了团队极强的工程深度[9][12] - **极致的稀疏化与效率提升**:通过HashTop-K MoE路由、提高稀疏比等技术,将激活参数比例降至业界最低水平。V4-Pro在1.6T总参数下,激活参数为49B,激活比仅为3.06%,低于Kimi K2.6的3.20%和V3的5.5%[21][23][24]。在百万级上下文中,其单token推理FLOPs降至V3.2的27%,KV缓存占用降至10%[19] - **底层设施与工具链**:深度使用并推动了北大开源的TileLang等底层语言的发展,用于高效开发新算法对应的计算内核(kernel),降低了为新算法定制优化算子的边际成本[4][40][41] - **全平台与国产芯片适配**:完成了对英伟达、AMD、NPU等全平台的推理适配,并在技术报告中验证了在华为昇腾芯片上的细粒度并行EP方案,为国产芯片生态做出贡献[8][12][13] 性能表现与行业定位 - **性能对标**:在内部在线评测中,V4的性能大约在Claude Opus 4.5的水平,与Opus 4.6、GPT-5.5仍有差距。有9%的DeepSeek工程师表示不会将V4-Pro作为首选模型[16] - **评测排名**:访谈时(4月28日),V4-Pro在Chatbot Arena上排名第23位,低于GLM-5.1和K2.6;在Artificial Analysis的Intelligence Index得分为52,也低于Kimi等模型。但至5月1日,其排名已超越K2.6,仍低于GLM-5.1[17] - **能力侧重点**:明显加强了与智能体(Agent)相关能力的评测,如工具使用和多步规划,反映了行业从“答得对”向“能完成任务”的转向[16] - **成本叙事转变**:V4技术报告未公布训练成本,这被视为一个信号,表明公司不再依靠“成本叙事”定义自己,而是转向以模型能力为核心[13][14] 行业发展与中美对比 - **版本号哲学差异**:DeepSeek、Kimi的版本号更像“研究语言”,代表模型结构的重大改变;而OpenAI、Anthropic的版本号更像“产品语言”,代表功能和能力的迭代,这由组织结构和商业模式决定[11] - **发展路径差异**:中国开源模型更追求**工程优化、性价比和极致成本控制**,例如在稀疏化、低激活比上做到极限。美国闭源模型更侧重于**提出和开辟新的能力方向**(如多模态、Agent),并在算力相对充裕的情况下优先冲击性能[11][57][58] - **竞争格局**:开源模型架构和方法论在趋同(如基座转向MLA,优化器转向Muon),能力上都重视Agent方向。中国主要玩家如DeepSeek、Kimi在工程和创新上较为极限;GLM、Qwen、MiniMax在RL训练和长上下文落地扎实;小米MiMo-V2.5-Pro在部分评测中分数很高[53][54][55] - **行业阶段判断**:AI行业“范式变化”(如Transformer、Scaling Law)是十年一遇的,当前阶段更关键的是在现有范式下探索优化空间上限,以及**发现和提出新的模型能力领域**(如长文本、Agent、幻觉控制)[14][15][51]