Claude新模型4.6来了,更多饭碗没了:华尔街财务、编译器、安全白帽、PPT…通通失守
36氪·2026-02-06 19:24

市场反应与行业影响 - Anthropic发布Claude Opus 4.6模型后,金融数据服务商FactSet盘中暴跌10%,标普全球、穆迪、纳斯达克公司股价下跌,引发各大指数全线跳水[1] - 这是该公司本周第二次搅动市场,几天前其自动化法律工作插件上线,直接引爆了万亿美元级别的软件股暴跌[3] - 投资者的恐慌聚焦于AI颠覆性风险,导致对可能被颠覆的公司进行抛售[4] 模型核心性能与定价 - 新模型Claude Opus 4.6在财务分析、研究及Office办公套件等知识工作领域表现突出[6] - 在评估金融、法律等领域经济价值知识工作的GDPval-AA指标上,Opus 4.6比行业下一最佳模型OpenAI GPT-5.2高出144个Elo,这意味着其在大约70%的情况下得分更高[8] - 编程能力依旧领先,在Agent编程评估Terminal-Bench 2.0中取得最高分,并在“人类最后考试”中领先所有其他前沿模型[11] - 模型定价保持原有标准,为每百万token输入5美元、输出25美元,实现加量不加价[14][34] 技术能力升级 - 模型首次在Opus级别引入1M Token超大上下文窗口,极大改善了处理长文本时的“上下文衰减”情况[14] - 在MRCR v2 8-needle 1M基准测试中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%[16] - 搜索能力显著提升,在BrowseComp评测(评估在线检索难获取信息的能力)中排名行业第一[17] - 引入自适应思考功能,模型可自主判断何时需要深度推理,并配套提供低、中、高(默认)、最高四档“努力程度”参数供开发者调整[20] - 新增上下文压缩(测试版)功能,在对话接近上下文窗口上限时自动摘要并替换旧内容[20] - 单次输出最高支持128K token[21] 关键场景性能评测对比 - 官方评测数据显示,Opus 4.6在编码、知识工作、搜索、推理等核心场景有显著突破,多项成绩超越前代及行业竞品[22][23] - 在Agentic terminal coding (Terminal-Bench 2.0)中得分65.4%,高于GPT-5.2的64.7%[23] - 在Agentic financial analysis (Finance Agent)中得分60.7%,高于GPT-5.2的56.6%[23] - 在Office tasks (GDPVal-AA Elo)中得分1606,高于GPT-5.2的1462[23] - 在多学科推理测试“人类最后的考试”中领先所有前沿模型[29] - 在法律领域,在40%为满分的BigLaw Bench上得分90.2%[29] 编程与办公应用能力 - 编程能力支持多语言编码,能处理跨语言软件工程问题,可像高级工程师一样完成数百万行代码库迁移,且用时减少一半[26] - 积极入侵传统办公领地,能直接在Excel中处理非结构化数据并推断表格结构,能记忆公司PPT模板风格以确保生成内容自然[26] 推理与安全性 - 在金融、法律等经济价值导向任务评测GDPval-AA中,以144 Elo超越竞品GPT-5.2[29] - 推理理解深度达到目前前沿模型的顶峰,且没有以牺牲安全性为代价,在对齐水平极高的同时,欺骗、奉承等负面行为极低[29] - 解决了AI圈普遍的“过度拒绝”问题,在面对正常、无害的请求时,比以往任何模型都更少表现出死板拒绝[30] 多智能体协作与成本案例 - 新模型核心能力升级包括Agent Teams,即多个Claude实例可并行协作,无需人类实时监督[36] - 一项压力测试显示,16个Agent在两周内,通过近2000次Claude Code会话,消耗20亿输入Token和1.4亿输出Token,总成本不到2万美元,从零开始用Rust编写了一个能编译Linux内核的C编译器[36][37] - 最终产出的编译器有10万行代码,能在x86、ARM和RISC-V架构上编译Linux 6.9,并能运行游戏《毁灭战士》[38] 网络安全能力 - 在发布前的测试中,Opus 4.6在沙箱环境中自行发现了超过500个此前未知的高危零日漏洞,每个都经过验证[41][42] - 具体案例包括在GhostScript中发现可导致崩溃的漏洞,在OpenSC和CGIF中发现缓冲区溢出漏洞,并主动编写概念验证代码证明漏洞存在[43] - 公司为此增加了六套新的网络安全探测机制,未来可能上线实时拦截系统来阻止恶意流量[43] 可用性与公司内部使用 - Opus 4.6已在官网、API和所有主流云平台上线[33] - 使用10M token上下文测试版本时,提示词超过200k token会有额外付费[35] - 调用API需明确指定模型标识“Claude-opus-4-6”[35] - 公司内部已实现“用Claude构建Claude”,工程师每天使用Claude Code编写代码,每个新模型首先在自身工作环境中测试[44]

Claude新模型4.6来了,更多饭碗没了:华尔街财务、编译器、安全白帽、PPT…通通失守 - Reportify