DeepSeek V4

搜索文档
扎克伯格发文正式告别“默认开源”!网友:只剩中国 DeepSeek、通义和 Mistral 还在撑场面
AI前线· 2025-08-02 13:33
Meta的AI战略调整 - 扎克伯格提出"个人超级智能"愿景,目标是让每个人借助AI实现个人目标 [2] - 公司正在调整AI模型发布策略,从激进开源转向谨慎选择性开源,强调需管理超级智能带来的安全挑战 [3][6] - 此前Meta将开源视为核心优势,承诺打造性能媲美闭源的先进开源模型(如Llama系列),但最新表态显示开源不再是默认选项 [5][6][8] 开源策略的转变与行业影响 - 2024年扎克伯格曾明确表示"Meta致力于开源AI",并预测Llama后续模型将成为业内最先进 [6] - 2025年立场变化:不再承诺开源所有成果,尤其涉及"能力质变"的模型可能闭源 [7][8] - 这一转变使DeepSeek、通义千问和Mistral成为全球少数坚持开源最先进模型(SOTA)的公司 [9][10] 商业化与资源投入 - Meta斥资143亿美元投资Scale AI并重组AI部门为"Meta Superintelligence Labs",集中资源开发闭源模型 [11][12] - 公司暂停开源模型"Behemoth"测试,转向闭源开发,高薪组建独立团队推进AGI研究 [11][12][14] - 商业化路径明确:通过AR眼镜、VR头显等硬件产品推广"个人超级智能"服务 [14] 竞争格局与行业动态 - Meta认为开源不影响其广告核心收入,但闭源竞争对手(如OpenAI)依赖模型访问权限销售 [11] - Llama3开发期间,公司为超越GPT-4逐渐改变策略,最终转向闭源冲刺AGI [11] - 中国公司如DeepSeek-R1的成功激励行业坚持开源,而Meta的退出可能强化中国在开源领域的影响力 [10][17]
DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提10倍、要“完美”准确率
AI前线· 2025-07-31 13:02
中国作者在ACL获奖论文中的表现 - 2025年ACL获奖论文中中国作者比例超过51% 美国作者占比仅为14% [1] - DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获得Best Paper奖 [1] - 论文第一作者袁境阳在撰写论文时仅为DeepSeek实习生 [1] NSA技术创新与设计 - 提出NSA(Natively trainable Sparse Attention)机制 结合算法创新与硬件优化以实现高效长上下文建模 [4] - NSA采用动态分层稀疏策略 结合粗粒度token压缩和细粒度token选择 保留全局上下文感知和局部精度 [4] - 引入两项核心创新:算术强度平衡的算法设计实现显著加速 高效算法和反向算子实现稳定端到端训练 [6] NSA性能表现 - 在270亿参数Transformer骨干网络上预训练 使用2600亿token 激活参数为30亿 [8] - 在9项指标中的7项上超过全注意力模型在内的所有基线 DROP提升0.042 GSM8K提升0.034 [8] - 在64k上下文"大海捞针"测试中实现完美检索准确率 解码、前向传播和反向传播速度显著提升 [9] - 在多跳问答任务(HPQ和2Wiki)上比全注意力模型分别提升0.087和0.051 代码理解任务(LCC)超出基线0.069 [10] 计算效率优势 - 在64k上下文长度下 前向速度提升高达9.0倍 反向速度提升高达6.0倍 [15] - 解码长度增加时延迟显著降低 64k上下文长度下提速高达11.6倍 [15] DeepSeek下一代模型规划 - 论文成果将应用于DeepSeek下一代前沿模型 支持100万tokens上下文长度 [1][17] - DeepSeek R2发布计划可能与V4相关 创始人梁文锋对当前模型性能不满意导致推迟 [17]
梁文锋等来及时雨
虎嗅APP· 2025-07-16 08:05
行业竞争格局 - 国内大模型行业竞争加剧,"AI六小龙"中的阶跃星辰、智谱AI计划7月底发布新一代基础大模型,科大讯飞也将推出全新模型 [1] - Kimi K2模型发布后成为国内首个总参数量达1万亿的MoE架构开源模型,在代码和数学推理任务上反超DeepSeek [7] - 阿里、字节、百度等科技大厂通过推出更低价的API模型,正在夺走DeepSeek的性价比标签 [7] DeepSeek市场表现 - DeepSeek月活跃用户规模从1月爆发式增长后,4月开始下滑,5月MAU为1.69亿,环比下降5.1% [1] - 官网访问量下降29%,用户使用率从年初7.5%峰值回落至5月底的3% [2] - 苹果App Store免费应用下载榜排名从榜首跌至30名开外 [2] 技术发展动态 - DeepSeek近期仅进行小版本升级,如DeepSeek-R1-0528仍基于2024年12月的V3 Base模型微调,未推出新一代V4模型 [6] - Kimi K2支持128K上下文窗口,MiniMax-M1支持100万上下文输入,远超DeepSeek R1的64K窗口 [10] - DeepSeek是主流AI助手中唯一暂不支持多模态功能的产品,缺乏语音、图片生成等能力 [13] 算力与供应链 - 英伟达H20芯片因美国出口管制被禁售,导致DeepSeek算力储备紧缺,影响R2模型上线 [3] - 7月15日英伟达公告正在申请重新销售H20芯片,美国政府已承诺授予许可证 [4] - MiniMax-M1模型训练仅用512块H800三周时间,租赁成本53.47万美元,远低于DeepSeek V3模型的557万美元 [8] 商业模式与策略 - DeepSeek选择开源路线但忽视C端应用,专注AGI研发,导致产品体验落后竞争对手 [10] - OpenAI通过高频更新保持热度,GPT-4.1系列发布后份额迅速增至10%,而DeepSeek R1使用率从7%峰值降至3% [12] - 第三方平台托管的DeepSeek R1与V3模型使用量自发布以来增长近20倍,显示开发者生态活跃 [9]