Claude新模型4.6来了，更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

市场反应与行业影响 - Anthropic发布Claude Opus 4.6模型后，金融数据服务商FactSet盘中暴跌10%，标普全球、穆迪、纳斯达克公司股价下跌，引发各大指数全线跳水[1] - 这是该公司本周第二次搅动市场，几天前其自动化法律工作插件上线，直接引爆了万亿美元级别的软件股暴跌[3] - 投资者的恐慌聚焦于AI颠覆性风险，导致对可能被颠覆的公司进行抛售[4] 模型核心性能与定价 - 新模型Claude Opus 4.6在财务分析、研究及Office办公套件等知识工作领域表现突出[6] - 在评估金融、法律等领域经济价值知识工作的GDPval-AA指标上，Opus 4.6比行业下一最佳模型OpenAI GPT-5.2高出144个Elo，这意味着其在大约70%的情况下得分更高[8] - 编程能力依旧领先，在Agent编程评估Terminal-Bench 2.0中取得最高分，并在“人类最后考试”中领先所有其他前沿模型[11] - 模型定价保持原有标准，为每百万token输入5美元、输出25美元，实现加量不加价[14][34] 技术能力升级 - 模型首次在Opus级别引入1M Token超大上下文窗口，极大改善了处理长文本时的“上下文衰减”情况[14] - 在MRCR v2 8-needle 1M基准测试中，Opus 4.6得分76%，而Claude Sonnet 4.5只有18.5%[16] - 搜索能力显著提升，在BrowseComp评测（评估在线检索难获取信息的能力）中排名行业第一[17] - 引入自适应思考功能，模型可自主判断何时需要深度推理，并配套提供低、中、高（默认）、最高四档“努力程度”参数供开发者调整[20] - 新增上下文压缩（测试版）功能，在对话接近上下文窗口上限时自动摘要并替换旧内容[20] - 单次输出最高支持128K token[21] 关键场景性能评测对比 - 官方评测数据显示，Opus 4.6在编码、知识工作、搜索、推理等核心场景有显著突破，多项成绩超越前代及行业竞品[22][23] - 在Agentic terminal coding (Terminal-Bench 2.0)中得分65.4%，高于GPT-5.2的64.7%[23] - 在Agentic financial analysis (Finance Agent)中得分60.7%，高于GPT-5.2的56.6%[23] - 在Office tasks (GDPVal-AA Elo)中得分1606，高于GPT-5.2的1462[23] - 在多学科推理测试“人类最后的考试”中领先所有前沿模型[29] - 在法律领域，在40%为满分的BigLaw Bench上得分90.2%[29] 编程与办公应用能力 - 编程能力支持多语言编码，能处理跨语言软件工程问题，可像高级工程师一样完成数百万行代码库迁移，且用时减少一半[26] - 积极入侵传统办公领地，能直接在Excel中处理非结构化数据并推断表格结构，能记忆公司PPT模板风格以确保生成内容自然[26] 推理与安全性 - 在金融、法律等经济价值导向任务评测GDPval-AA中，以144 Elo超越竞品GPT-5.2[29] - 推理理解深度达到目前前沿模型的顶峰，且没有以牺牲安全性为代价，在对齐水平极高的同时，欺骗、奉承等负面行为极低[29] - 解决了AI圈普遍的“过度拒绝”问题，在面对正常、无害的请求时，比以往任何模型都更少表现出死板拒绝[30] 多智能体协作与成本案例 - 新模型核心能力升级包括Agent Teams，即多个Claude实例可并行协作，无需人类实时监督[36] - 一项压力测试显示，16个Agent在两周内，通过近2000次Claude Code会话，消耗20亿输入Token和1.4亿输出Token，总成本不到2万美元，从零开始用Rust编写了一个能编译Linux内核的C编译器[36][37] - 最终产出的编译器有10万行代码，能在x86、ARM和RISC-V架构上编译Linux 6.9，并能运行游戏《毁灭战士》[38] 网络安全能力 - 在发布前的测试中，Opus 4.6在沙箱环境中自行发现了超过500个此前未知的高危零日漏洞，每个都经过验证[41][42] - 具体案例包括在GhostScript中发现可导致崩溃的漏洞，在OpenSC和CGIF中发现缓冲区溢出漏洞，并主动编写概念验证代码证明漏洞存在[43] - 公司为此增加了六套新的网络安全探测机制，未来可能上线实时拦截系统来阻止恶意流量[43] 可用性与公司内部使用 - Opus 4.6已在官网、API和所有主流云平台上线[33] - 使用10M token上下文测试版本时，提示词超过200k token会有额外付费[35] - 调用API需明确指定模型标识“Claude-opus-4-6”[35] - 公司内部已实现“用Claude构建Claude”，工程师每天使用Claude Code编写代码，每个新模型首先在自身工作环境中测试[44]