Workflow
模型参数量
icon
搜索文档
马斯克说漏嘴了!Claude Opus参数5T,Sonnet 1T
量子位· 2026-04-10 13:17
文章核心观点 - 马斯克在讨论其公司xAI的超算训练计划时,疑似“手滑”泄露了Anthropic公司Claude系列模型的关键参数信息,即Sonnet模型参数量为1万亿(1T),Opus模型参数量为5万亿(5T)[1][6][10] - 尽管Anthropic官方对模型参数严格保密,但行业及社区通过多种方法(如成本反推、性能对标、技术逆向工程等)对Claude各版本参数进行了持续估算与推测,最新推测结果与马斯克泄露的信息高度吻合[12][14][56] - 大语言模型的发展趋势正从盲目追求参数规模转向提升现有参数的利用效率,表现为通过模型蒸馏、架构优化(如MoE)等方式,在保持或提升性能的同时显著降低推理成本和提升速度[44][45][59] xAI的超算与模型训练计划 - xAI正在其Colossus 2超算上训练7个模型,其中参数量最大的一款达到10万亿(10T)[2][3] - Colossus 2超算第一阶段已部署11万个英伟达GB200 NVL72 GPU,冷却能力约200MW,最终目标是部署超过55万个GPU,峰值功率需求预计超过1.1GW[3][4] - 训练一个10万亿参数的模型,预训练阶段大约需要2个月时间[6] - xAI当前已发布的Grok 4.2模型总参数量为5000亿(0.5T),仅为在训最大模型(10T)的5%[6][7] Claude系列模型参数规模社区推测汇总 - 社区对Claude各版本参数的推测主要基于四类方法:推理成本与吞吐量反推法、性能基准对标法、内部文件泄露与传闻分析法、架构特性分析法[17] - 根据汇总的社区推测表格,关键版本参数估计如下: - Claude 3 Haiku: 总参数约200亿(20B)[15][20] - Claude 3 Sonnet: 总参数估计存在分歧,约700亿(70B)或1500-2500亿(150-250B)[15][20][21] - Claude 3 Opus: 总参数约2万亿(2T)[15][20] - Claude 3.5 Sonnet: 总参数约1750亿(175B)或4000亿(400B)[15][29] - Claude 4 Sonnet: 总参数估计范围宽,约50-1000亿(50B-1T)[15] - Claude 4/4.1 Opus: 总参数估计约6万亿(6T)(MoE架构)或3000-5000亿(300-500B)[15][46][60] - Claude 4.5 Sonnet: 总参数约1.7-2万亿(1.7-2T)[15] - Claude 4.5 Opus: 总参数约2万亿(2T)[15][46][59] - Claude 4.6 Sonnet: 总参数约1-2万亿(1-2T)[14][15] - Claude 4.6 Opus: 总参数约1.5-2.5万亿(1.5-2.5T)或2-5万亿(2-5T)[14][15] - 未发布的Claude Mythos: 传闻总参数达10万亿(10T)[15][64] Claude各代模型性能与迭代分析 - **Claude 3系列**:形成Haiku、Sonnet、Opus清晰产品矩阵,性能与成本依次递增,在MMLU、GPQA、GSM8K等多个基准测试中表现强劲[16][18] - **Claude 3.5 Sonnet**:速度是Claude 3 Opus的两倍,成本仅为后者的五分之一,在多项推理、代码和数学基准上表现优异[24][25] - **Claude 4系列**:跳过了3.5 Opus,直接发布Opus 4和Sonnet 4,在Agent编程(SWE-bench)、终端编码、工具使用等任务上能力显著[32][35] - **Claude Opus 4.1**:编程性能超越Opus 4,是一次小规模更新,旨在替代Opus 4[38][39][40] - **Claude 4.5系列**:通过蒸馏技术优化,Opus 4.5运行速度比Opus 4快约3倍,API调用成本仅为三分之一,Sonnet 4.5在计算机操作(OSWorld)测试中得分比Sonnet 4提升近一半[44][49][50] - **Claude 4.6系列**:最新版本,Sonnet 4.6在复杂计算机操作任务上接近人类水平,Opus 4.6在金融法律知识任务(GDPval-AA)上比GPT-5.2高出144 Elo,并在编程基准测试中领先[52][53][55] 模型架构与效率优化趋势 - 行业估算显示,GPT-4参数约1.76万亿(1.76T),而后续的GPT-4o参数约2000亿(200B),表明参数规模并非持续扩大[30] - Claude Opus 4/4.1可能采用混合专家(MoE)架构,参数量较大(约5T-6T),而后续的4.5/4.6版本通过蒸馏等技术大幅缩小了规模(约1.5T-2T),提升了效率[43][46][59][60] - 技术逆向工程分析通过Token吞吐数据推算,Claude Opus 4.6在FP8精度下的激活参数量约为930-1050亿(93–105B),若采用混合精度配置,激活参数量约为1270-1540亿(127–154B)[58][59] - API定价变化印证效率提升:Claude Opus 4.1定价为每百万Token 15美元(输入)/75美元(输出),而Claude Opus 4.5/4.6定价降至5美元/25美元,降幅达三分之二[59]