DeepSeek V4 - 财报，业绩电话会，研报，新闻

DeepSeek V4

搜索文档

扎克伯格发文正式告别“默认开源”！网友：只剩中国 DeepSeek、通义和 Mistral 还在撑场面

AI前线· 2025-08-02 13:33

Meta的AI战略调整 - 扎克伯格提出"个人超级智能"愿景，目标是让每个人借助AI实现个人目标 [2] - 公司正在调整AI模型发布策略，从激进开源转向谨慎选择性开源，强调需管理超级智能带来的安全挑战 [3][6] - 此前Meta将开源视为核心优势，承诺打造性能媲美闭源的先进开源模型（如Llama系列），但最新表态显示开源不再是默认选项 [5][6][8] 开源策略的转变与行业影响 - 2024年扎克伯格曾明确表示"Meta致力于开源AI"，并预测Llama后续模型将成为业内最先进 [6] - 2025年立场变化：不再承诺开源所有成果，尤其涉及"能力质变"的模型可能闭源 [7][8] - 这一转变使DeepSeek、通义千问和Mistral成为全球少数坚持开源最先进模型（SOTA）的公司 [9][10] 商业化与资源投入 - Meta斥资143亿美元投资Scale AI并重组AI部门为"Meta Superintelligence Labs"，集中资源开发闭源模型 [11][12] - 公司暂停开源模型"Behemoth"测试，转向闭源开发，高薪组建独立团队推进AGI研究 [11][12][14] - 商业化路径明确：通过AR眼镜、VR头显等硬件产品推广"个人超级智能"服务 [14] 竞争格局与行业动态 - Meta认为开源不影响其广告核心收入，但闭源竞争对手（如OpenAI）依赖模型访问权限销售 [11] - Llama3开发期间，公司为超越GPT-4逐渐改变策略，最终转向闭源冲刺AGI [11] - 中国公司如DeepSeek-R1的成功激励行业坚持开源，而Meta的退出可能强化中国在开源领域的影响力 [10][17]

Meta Platforms(US:META)

人工智能开源

个人超级智能

通用人工智能（AGI）

Artificial Intelligence

Artificial Intelligence

Llama

GPT - 4

DeepSeek V4 借实习生获奖论文“起飞”？梁文峰剑指上下文：处理速度提10倍、要“完美”准确率

AI前线· 2025-07-31 13:02

中国作者在ACL获奖论文中的表现 - 2025年ACL获奖论文中中国作者比例超过51% 美国作者占比仅为14% [1] - DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获得Best Paper奖 [1] - 论文第一作者袁境阳在撰写论文时仅为DeepSeek实习生 [1] NSA技术创新与设计 - 提出NSA（Natively trainable Sparse Attention）机制结合算法创新与硬件优化以实现高效长上下文建模 [4] - NSA采用动态分层稀疏策略结合粗粒度token压缩和细粒度token选择保留全局上下文感知和局部精度 [4] - 引入两项核心创新：算术强度平衡的算法设计实现显著加速高效算法和反向算子实现稳定端到端训练 [6] NSA性能表现 - 在270亿参数Transformer骨干网络上预训练使用2600亿token 激活参数为30亿 [8] - 在9项指标中的7项上超过全注意力模型在内的所有基线 DROP提升0.042 GSM8K提升0.034 [8] - 在64k上下文"大海捞针"测试中实现完美检索准确率解码、前向传播和反向传播速度显著提升 [9] - 在多跳问答任务（HPQ和2Wiki）上比全注意力模型分别提升0.087和0.051 代码理解任务（LCC）超出基线0.069 [10] 计算效率优势 - 在64k上下文长度下前向速度提升高达9.0倍反向速度提升高达6.0倍 [15] - 解码长度增加时延迟显著降低 64k上下文长度下提速高达11.6倍 [15] DeepSeek下一代模型规划 - 论文成果将应用于DeepSeek下一代前沿模型支持100万tokens上下文长度 [1][17] - DeepSeek R2发布计划可能与V4相关创始人梁文锋对当前模型性能不满意导致推迟 [17]

稀疏注意力机制

长上下文建模

Artificial Intelligence

Artificial Intelligence

虎嗅APP· 2025-07-16 08:05

行业竞争格局 - 国内大模型行业竞争加剧，"AI六小龙"中的阶跃星辰、智谱AI计划7月底发布新一代基础大模型，科大讯飞也将推出全新模型 [1] - Kimi K2模型发布后成为国内首个总参数量达1万亿的MoE架构开源模型，在代码和数学推理任务上反超DeepSeek [7] - 阿里、字节、百度等科技大厂通过推出更低价的API模型，正在夺走DeepSeek的性价比标签 [7] DeepSeek市场表现 - DeepSeek月活跃用户规模从1月爆发式增长后，4月开始下滑，5月MAU为1.69亿，环比下降5.1% [1] - 官网访问量下降29%，用户使用率从年初7.5%峰值回落至5月底的3% [2] - 苹果App Store免费应用下载榜排名从榜首跌至30名开外 [2] 技术发展动态 - DeepSeek近期仅进行小版本升级，如DeepSeek-R1-0528仍基于2024年12月的V3 Base模型微调，未推出新一代V4模型 [6] - Kimi K2支持128K上下文窗口，MiniMax-M1支持100万上下文输入，远超DeepSeek R1的64K窗口 [10] - DeepSeek是主流AI助手中唯一暂不支持多模态功能的产品，缺乏语音、图片生成等能力 [13] 算力与供应链 - 英伟达H20芯片因美国出口管制被禁售，导致DeepSeek算力储备紧缺，影响R2模型上线 [3] - 7月15日英伟达公告正在申请重新销售H20芯片，美国政府已承诺授予许可证 [4] - MiniMax-M1模型训练仅用512块H800三周时间，租赁成本53.47万美元，远低于DeepSeek V3模型的557万美元 [8] 商业模式与策略 - DeepSeek选择开源路线但忽视C端应用，专注AGI研发，导致产品体验落后竞争对手 [10] - OpenAI通过高频更新保持热度，GPT-4.1系列发布后份额迅速增至10%，而DeepSeek R1使用率从7%峰值降至3% [12] - 第三方平台托管的DeepSeek R1与V3模型使用量自发布以来增长近20倍，显示开发者生态活跃 [9]

Artificial Intelligence

AGI

通用Agent

Artificial Intelligence

DeepSeek R1

DeepSeek R2

Artificial Intelligence

AGI

通用Agent

Artificial Intelligence

DeepSeek R1

DeepSeek R2