Workflow
不可压缩知识探针
icon
搜索文档
有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了
机器之心· 2026-05-01 13:04
研究背景与核心方法 - 研究人员提出“不可压缩知识探针”框架,旨在仅通过黑盒API调用逆向估算任意大语言模型的参数规模 [1] - 研究灵感源于一项持续三年的非正式测试,通过向各代主流大模型提出同一个冷门问题,观察模型对世界知识认知的发展 [3] - 研究团队利用AI Agent历时四天自主构建了完整的IKP正式数据集,包含1400个问题,按信息稀缺程度划分为7个层级,并在涵盖27家厂商的188个模型上进行了全面测试 [4] - 核心假设在于:模型的逻辑推理能力可被压缩,但对冷门“事实性知识”的记忆容量无法大幅压缩,主要取决于模型的物理参数规模 [4] - 研究者在89个参数量已知的开源模型上拟合出事实准确率与参数量的对数线性关系,拟合优度R² = 0.917,并据此对闭源模型进行参数估算 [4] 对主要闭源模型的参数估算结果 - 根据该方法估算,GPT-5.5参数规模约为9万亿,Claude Opus 4.7参数规模约为4万亿 [5] - 该方法估算的90%置信区间约为0.3至3倍 [5] - 其他模型估算结果:GPT-5.4参数规模约2.2万亿,Claude Sonnet 4.6参数规模约1.7万亿,Gemini 2.5 Pro参数规模约1.2万亿 [9] 研究中的其他发现 - 模型更倾向于记住那些产生了领域性影响的工作,而非高产但影响相对分散的学者,引用数量和h指数并不能有效预测研究者是否被模型记住 [6] - 跨越三年的96个开源模型数据显示,事实记忆容量的时间系数在统计上接近于零,这与“Densing Law”所预测的效率随时间提升的规律相悖 [6] - 研究者据此认为推理能力基准趋于饱和,而事实容量仍主要受制于参数规模 [6] 技术社区的讨论与争议 - 有观点基于估算数据,结合Claude Opus 4.7在部分长文本任务中的主观体验波动,推测Anthropic因算力储备不足,被迫将Opus 4.7的参数量从上一代的5.3T“反向升级”至4T [8] - 同时推测OpenAI凭借充足算力将GPT-5.5堆到9T,从而实现了体验上的反转 [8] - 多位研究者和从业者对估算数字及方法论提出质疑,认为GPT-5.5约9万亿参数的估算与实际服务能力不符,若规模真达到此量级,OpenAI现有基础设施恐难支撑 [12] - 有观点指出GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距并不匹配,认为两者规模比约在2倍左右更为合理 [12] - 定向引入“合成数据”进行微调,同样能显著提升模型对冷门知识的掌握度,这会直接干扰“事实知识不可压缩”的核心前提 [13] - 业内长期流传的GPT-4规模约1.7T,这与论文估算的结果出入极大 [14] - 有讨论发起者补充说明,估算数字不应被视为事实,置信区间非常大,某些模型的估算可能相差甚远 [15] 建设性的技术探讨 - 有观点认为MoE架构和稠密模型在知识压缩效率上可能存在本质不同,建议将这两类模型分开统计以观察趋势 [15]