模型发布与核心定位 - Anthropic公司深夜发布Claude Opus 4.6模型,被描述为全球最强编程AI,在编程能力和智能体任务执行上实现“降维打击”[2][3] - 该模型在前代Opus 4.5基础上大幅提升编码技能,并具备更强的自我纠错能力,如精准的代码审查和调试[4][9] - 该模型是Anthropic首款在beta阶段支持100万token上下文的Opus级模型[10] 性能基准与行业对比 - 在多项基准测试中,Claude Opus 4.6编程实力几乎全方位领先,竞争对手Gemini 3 Pro和GPT-5.2望尘莫及[11] - 在ARC-AGI-2测试中,Opus 4.6获得68.8%的高分,超过GPT-5.2-xhigh[14] - 在GDPval-AA知识工作性能评估中,Opus 4.6比GPT-5.2高出约144 Elo分,比上一代Opus 4.5高出190分[45] - 在智能体编程评估Terminal-Bench 2.0中,Opus 4.6获得65.4%的分数,高于Opus 4.5的59.8%和Sonnet 4.5的51.0%[40][53] - 在智能体工具使用T2-bench测试中,Opus 4.6在零售和电信领域分别获得91.9%和99.3%的近满分成绩[52][53] - 在智能体搜索BrowseComp基准上,Opus 4.6以84.0%的表现完胜任何模型[48][53] - 在金融分析任务中,Opus 4.6比几个月前业界顶尖的Sonnet 4.5提升了23%以上[25] - 在长上下文处理能力上,Opus 4.6在MRCR v2的8-needle 1M变体测试中得分为76%,远高于Sonnet 4.5的18.5%,表明其在保持峰值性能时可用上下文数量的质的飞跃[55][60] 产品集成与办公应用 - 新模型已在Excel、PPT中的Claude插件、Claude Code以及API中同步上线[14] - 在Excel中,模型可以遍历文件夹下所有表格抓出差错并同步绘制折线图,处理多表财务模型[15][16][37] - 在PPT中,模型能实时调用,确保从布局、字体到母板的内容符合品牌规范[18] - 模型可通过Claude网页端、开发者平台及各大平台直接使用[18] - 全球约有15亿人在Office全家桶上办公,Opus 4.6正在引发深层的办公效率变革[30] 智能体团队(Agent Swarms)功能 - Claude Code深度集成Opus 4.6,开发者可组建智能体团队协同处理任务,即“智能体群”[66][67][68] - “主智能体”可将任务分发给多个“Claude团队成员”,其他AI可并行开展调研、调试和开发工作,并实时保持沟通协作[71] - 开发者可以越过负责人直接与团队中任何一个成员进行交互,这与运行在单一会话内、只能向主智能体汇报的“子智能体”不同[77] - 智能体团队适用于需要讨论和协作的复杂工作,但token成本更高,因为每个队友都是一个独立的Claude实例[78] 实验与极限测试 - 一项实验中,16个Claude Opus 4.6在无人类干预下并行协作,从零开始用Rust语言编写一个C编译器,目标是能编译Linux内核[83][84] - 该实验消耗了近20亿个输入Token,API成本约2万美元[85] - 最终AI战队编写出一个10万行代码的编译器,能成功编译Linux 6.9内核(支持x86、ARM和RISC-V架构),并能跑通《毁灭战士》、PostgreSQL、Redis等复杂项目[89] 技术特性与定价 - Opus 4.6具备更强的长上下文信息处理能力,能在数十万Token中保存和跟踪信息,漂移更少,并能捕捉到Opus 4.5也会错过的深埋细节[54][61] - 模型引入了“自适应思考”功能,可根据上下文线索感知何时需要使用扩展思考,并提供全新的“思考力度”控制,让开发者对智能、速度和成本拥有更多掌控权[100] - API定价方面,Claude Opus 4.6输入价格为5美元/百万token,输出价格为25美元/百万token[101] - 对于超过200k Token的提示词,将按高级费率计费(每百万输入/输出 Token分别为10美元/37.5美元)[103] - Opus 4.6支持高达128k Token的输出,无需将任务分解为多个请求即可完成更大输出量的任务[104] 行业影响与公司观点 - Anthropic负责人Alex Albert表示,Claude在2025年颠覆了编程,在2026年将彻底重塑知识型工作,尤其是支撑金融和咨询等核心产业的表格、PPT和长文档处理工作[24] - 以前分析师需要忙活好几周的建财务模型、做路演PPT、搞并购分析等工作,现在眨眼间就能完成[27] - 公司内部使用Claude来构建Claude,工程师每天都使用Claude Code编写代码,每一款新模型都会首先在内部工作中进行测试[92][93] - 一场生产力的范式转移已箭在弦上,AI不仅抹平了开发的门槛,也将重塑每一位知识工作者的能力边界[35][36]
Claude Opus 4.6 登顶编程之王! 杀入 Office 全家桶, 15 亿打工人变天
程序员的那些事·2026-02-07 09:35