稠密模型 - 财报，业绩电话会，研报，新闻

稠密模型

搜索文档

机器之心· 2026-05-01 13:04

研究背景与核心方法 - 研究人员提出“不可压缩知识探针”框架，旨在仅通过黑盒API调用逆向估算任意大语言模型的参数规模 [1] - 研究灵感源于一项持续三年的非正式测试，通过向各代主流大模型提出同一个冷门问题，观察模型对世界知识认知的发展 [3] - 研究团队利用AI Agent历时四天自主构建了完整的IKP正式数据集，包含1400个问题，按信息稀缺程度划分为7个层级，并在涵盖27家厂商的188个模型上进行了全面测试 [4] - 核心假设在于：模型的逻辑推理能力可被压缩，但对冷门“事实性知识”的记忆容量无法大幅压缩，主要取决于模型的物理参数规模 [4] - 研究者在89个参数量已知的开源模型上拟合出事实准确率与参数量的对数线性关系，拟合优度R² = 0.917，并据此对闭源模型进行参数估算 [4] 对主要闭源模型的参数估算结果 - 根据该方法估算，GPT-5.5参数规模约为9万亿，Claude Opus 4.7参数规模约为4万亿 [5] - 该方法估算的90%置信区间约为0.3至3倍 [5] - 其他模型估算结果：GPT-5.4参数规模约2.2万亿，Claude Sonnet 4.6参数规模约1.7万亿，Gemini 2.5 Pro参数规模约1.2万亿 [9] 研究中的其他发现 - 模型更倾向于记住那些产生了领域性影响的工作，而非高产但影响相对分散的学者，引用数量和h指数并不能有效预测研究者是否被模型记住 [6] - 跨越三年的96个开源模型数据显示，事实记忆容量的时间系数在统计上接近于零，这与“Densing Law”所预测的效率随时间提升的规律相悖 [6] - 研究者据此认为推理能力基准趋于饱和，而事实容量仍主要受制于参数规模 [6] 技术社区的讨论与争议 - 有观点基于估算数据，结合Claude Opus 4.7在部分长文本任务中的主观体验波动，推测Anthropic因算力储备不足，被迫将Opus 4.7的参数量从上一代的5.3T“反向升级”至4T [8] - 同时推测OpenAI凭借充足算力将GPT-5.5堆到9T，从而实现了体验上的反转 [8] - 多位研究者和从业者对估算数字及方法论提出质疑，认为GPT-5.5约9万亿参数的估算与实际服务能力不符，若规模真达到此量级，OpenAI现有基础设施恐难支撑 [12] - 有观点指出GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距并不匹配，认为两者规模比约在2倍左右更为合理 [12] - 定向引入“合成数据”进行微调，同样能显著提升模型对冷门知识的掌握度，这会直接干扰“事实知识不可压缩”的核心前提 [13] - 业内长期流传的GPT-4规模约1.7T，这与论文估算的结果出入极大 [14] - 有讨论发起者补充说明，估算数字不应被视为事实，置信区间非常大，某些模型的估算可能相差甚远 [15] 建设性的技术探讨 - 有观点认为MoE架构和稠密模型在知识压缩效率上可能存在本质不同，建议将这两类模型分开统计以观察趋势 [15]

全网最强万字解读：DeepSeek-V4 掀翻了谁的桌子？

雷峰网· 2026-04-28 12:33

文章核心观点 - 文章核心观点认为，DeepSeek-V4的发布并非简单的价格战，而是一场持续四年的、以“极致效率”为核心的中国AI“效率革命”[2] 其通过革命性的技术方案，将百万上下文长文本的处理成本从“奢侈品”降至“日用品”级别，与海外主流模型形成了370倍的成本鸿沟[2] 这场效率领先的背后是复杂的技术取舍和生态绑定，标志着大模型产业竞争正从“模型竞赛”转向全栈的“系统战争”[20] 产业竞争与市场格局 - **成本颠覆性优势**：DeepSeek-V4的API定价为2.5元人民币/百万Token，而GPT-5.5“大杯版”为130美元/百万Token，两者成本相差370倍[2] 其定价仅为海外大厂的约1/10，形成了“降维打击”式的商业优势[18][24] - **竞争焦点演变**：大模型产业竞争正从单纯的“算力竞赛”和“打榜”转向以长上下文处理能力和综合推理成本为核心的“落地”阶段[20][25] 长上下文已成为支撑Agent等复杂应用的基础设施[35] - **中美技术路线分化**：国内“开源御三家”（DeepSeek、千问、Kimi）主要选择MoE路径，而OpenAI、Anthropic等美国巨头仍倾向于稠密模型[17] 这反映了中美在资源约束（算力封锁、预算受限）与资本驱动下的不同生存策略[17][39] - **商业化潜力分层**：未来市场将明显分层，绝大多数商业场景将流向DeepSeek这类具备10倍以上成本优势的实用模型，而OpenAI等则为对成本不敏感的高风险场景提供顶尖解决方案[49] 技术架构与效率突破 - **核心效率突破**：DeepSeek-V4通过CSA（压缩稀疏注意力）与HCA（混合注意力）的组合方案，将百万上下文（1M）的KV Cache压缩至传统方案的2%，计算复杂度从O(n^2)降至接近线性[9][26] 这使百万级长文本从“高门槛消耗”变为低成本“日用品”[9][26] - **训练成本极低**：公司历史版本已展现出极致效率，V3以不到600万美元训练出GPT-4o级别模型，R1以30万美元纯强化学习涌现出思维链能力[6][11] - **MoE架构的极致运用**：V4采用MoE架构，总参数达1.6T，但每个Token仅激活49B参数（约3%）[17] 通过极致的细粒度稀疏化，实现了以更小计算量处理海量参数[45] - **后训练路径优化**：V4放弃了R1的纯强化学习路径，转而采用OPD（在线策略蒸馏），先在特定领域训练专家模型，再蒸馏到统一模型中，以追求更高效、稳定的训练[31][33] 系统生态与国产化 - **深度软硬一体化绑定**：V4彻底适配了华为昇腾910B芯片并支持FP4精度，标志着从训练到推理实现了中国自主安全可控的闭环[11][24] 这被视为对CUDA生态壁垒的直接挑战[30] - **开源战略坚持**：在友商收紧开源协议的背景下，公司依然坚持最开放的MIT协议，不设商业化限制，形成了显著的生态和价值观优势[24][30] - **推动国产算力生态**：公司的实践为国产算力生态提供了关键牵引，例如利用Agent辅助工具，将国产芯片底层算子的编写时间从一两周缩短至10-20分钟，反向驱动了系统生态的进化[20][50] - **系统复杂性代价**：极致的效率优化带来了系统架构的复杂化，这可能在后续的跨平台迁移、不同芯片算子适配时带来极高的工程难度[12][27] 能力边界与技术取舍 - **长上下文策略的取舍**：公司走实用主义压缩路线，优势是成本极低，支持百万长度，适用于代码重构、长文档总结等场景[36] 代价是在128K长度后的检索性能会出现衰减，存在逻辑断层的可能，与Claude追求的“完美检索”路线不同[9][27] - **MoE的连贯性瓶颈**：在需要高度全局一致性的长程Agent任务（如复杂编程）中，MoE的动态路由机制可能导致逻辑断层，表现可能略逊于稠密模型[17][41] 例如在SWE-Bench测试中，V4（55.4%）略低于Claude 4.5（57.3%）[41] - **长上下文技术的半程**：当前技术主要解决了“记忆”问题，但模型无法在交互中持续更新权重、沉淀个性化知识，从“临时缓存”到“权重更新”的“学习”能力是尚未解决的另一半挑战[14] - **效率与能力的平衡**：公司的技术哲学是在“效率优先”下进行明确取舍，以10%的性能差距换取10倍以上的成本优势，从而将AI能力普及为基础设施[49]