NVIDIA GB200 NVL72 系统
搜索文档
刚刚,ChatGPT 和 Claude 同时大更新,不会给 AI 当老板的打工人要被淘汰
36氪· 2026-02-06 07:04
OpenAI发布GPT-5.3-Codex - 模型具备自我进化能力,在创造自身过程中发挥了关键作用,标志着AI开始能够自己写代码、找Bug并训练下一代AI [4] - 在模拟人类操作电脑的OSWorld-Verified基准测试中,准确率从前代模型的38.2%大幅提升至64.7% [4] - 在覆盖四种编程语言的SWE-Bench Pro基准测试中,表现出SOTA水准,且使用的Token比以往任何模型都少 [9] - 展示了独立构建复杂软件的能力,例如在几天内从零构建了一款包含多张地图的赛车游戏v2和一款管理氧气系统的深海潜水游戏 [12] - 具备出色的模糊意图理解能力,例如在构建落地页时能自动将年度计划换算为打折后的月付价格并补充用户评价轮播,无需明确指令 [14] - 模型的设计、训练和部署均在NVIDIA GB200 NVL72系统上完成 [14] - 在Agentic terminal coding Terminal-Bench 2.0测试中,自我报告准确率为64% [18] - 在Agentic coding SWE-bench Verified测试中,准确率为80.0% [18] - 在Agentic tool use T2 bench测试中,准确率为98.7% [18] - 在Scaled tool use MCP Atlas测试中,准确率为60.6% [18] - 在Agentic search BrowseComp测试中,准确率为36.6% [18] - 在Multidisciplinary reasoning Humanity's Last Exam测试中,无工具辅助准确率为50.0%,有工具辅助准确率为56.6% [18] - 在Office tasks GDPVal-AA Elo测试中,得分为1462 [18] - 在Novel problem-solving ARC AGI 2测试中,准确率为54.2% [18] - 在Graduate-level reasoning GPQA Diamond测试中,准确率为93.2% [18] - 在Visual reasoning MMMU Pro测试中,无工具辅助准确率为80.4% [18] - 在Multilingual Q&A MMMLU测试中,准确率为89.6% [18] - 知名评测人评价其具有高可靠性和低方差特性,推理速度提升25%,在LFG Benchmark中得分为7.5/10 [36] Anthropic发布Claude Opus 4.6 - 模型专注于提升思考力和可靠性,是Anthropic的“超大杯”版本 [15][17] - 在MRCR v2长文本召回测试中,召回率高达76%,远高于前代Sonnet 4.5的18.5% [19] - 首次引入真正可用的1M上下文窗口,并能支持最高128k的输出Token [19][23] - 在GDPval-AA金融等高价值任务评估中,Elo得分达到1606,比业界第二的GPT-5.2高出144分,比前代高出190分 [23] - 在复杂的多学科推理测试Humanity's Last Exam中领先所有前沿模型 [23] - 在测试寻找互联网难找信息能力的BrowseComp中表现最优 [23] - 在Agentic terminal coding Terminal-Bench 2.0测试中,准确率为65.4% [18] - 在Agentic coding SWE-bench Verified测试中,准确率为80.8% [18] - 在Agentic computer use OSWorld测试中,准确率为72.7% [18] - 在Agentic tool use T2 bench测试中,准确率为99.3% [18] - 在Scaled tool use MCP Atlas测试中,准确率为59.5% [18] - 在Agentic search BrowseComp测试中,准确率为40.0% [18] - 在Multidisciplinary reasoning Humanity's Last Exam测试中,无工具辅助准确率为53.1%,有工具辅助准确率为60.7% [18] - 在Office tasks GDPVal-AA Elo测试中,得分为1606 [18] - 在Novel problem-solving ARC AGI 2测试中,准确率为68.8% [18] - 在Graduate-level reasoning GPQA Diamond测试中,准确率为91.3% [18] - 在Visual reasoning MMMU Pro测试中,无工具辅助准确率为77.3% [18] - 在Multilingual Q&A MMMLU测试中,准确率为91.1% [18] - 集成至Excel和PowerPoint,能根据Excel数据直接生成保留排版风格的PPT,并在Claude Cowork协作环境中进行自主多任务处理 [26] - 在Claude Code中推出实验性Agent Teams功能,支持角色分工、独立作战和并行赛马,例如一个团队在两周内自主进行了2000多个编程会话,从零手写了一个10万行代码的C语言编译器 [26][27] - 该AI编写的编译器成功编译了Linux 6.9内核并跑通了Doom游戏 [28] - 模型具备Adaptive Thinking能力,并新增“智能强度”控制档位 [29] - 定价维持在每百万Token $5/$25的基础水平,以抢占企业级市场 [29] - 具体定价为:输入Token(≤200K)$5/MTok,输出Token(≤200K)$25/MTok;输入Token(>200K)$10/MTok,输出Token(>200K)$37.50/MTok [30] - 提示缓存定价:≤200K Token写入$6.25/MTok,读取$0.50/MTok;>200K Token写入$12.50/MTok,读取$1/MTok [30] - 知名评测人评价其具有高上限和高方差特性,在LFG Benchmark中得分为9.25/10,但偶尔会过度自信 [33] 行业竞争格局与趋势 - OpenAI和Anthropic几乎同时发布重磅模型更新,竞争白热化 [1] - OpenAI的GPT-5.3-Codex展现了强大的行动力和自动化编码能力,旨在成为能掌控方向的“司机”而非“副驾驶” [14] - Anthropic的Claude Opus 4.6则在处理复杂商业决策、法律文书或金融分析领域建立优势,与OpenAI形成差异化竞争 [26] - 行业正从提示词工程向智能体管理演变,用户需要学会以管理者身份定义目标、审核结果和分配任务给AI [38] - 基础模型定价竞争激烈,Anthropic维持具有竞争力的价格以争夺企业市场 [29]