DeepSeek V3/R1

搜索文档

量子位· 2025-05-19 12:37

华为昇腾技术突破 - 华为昇腾在超大规模MoE模型推理性能上全面超越英伟达Hopper架构，实现"英伟达含量为0"的突破 [1] - 通过"以数学补物理"策略，利用数学理论、算法和建模弥补硬件局限，最大化发挥芯片和系统能力 [1] - 具体产品性能： - CloudMatrix 384超节点在50ms时延下单卡Decode吞吐达1920 Tokens/s [1][18] - Atlas 800I A2推理服务器在100ms时延下单卡吞吐达808 Tokens/s [1][21] 技术开源与披露 - 公司将全面开源昇腾超大规模MoE模型推理部署技术，包括技术报告和核心代码 [2] - 技术披露周活动将展示最新进展，相关资源可通过指定链接获取 [40][41] 行业趋势与挑战 - 大模型发展重心从训练转向推理应用落地，企业竞争焦点转向推理效率 [5][6] - 超大规模MoE模型（如6710亿参数的DeepSeek V3）带来三大挑战： - 内存压力：单个专家2.5G，64GB内存硬件难以承载 [7] - 通信开销：跨芯片数据传输耗时超过计算时间 [8] - 架构创新负担：如MLA机制导致中间变量激增 [9] 技术解决方案硬件部署优化 - 采用PD分离部署解耦Prefill和Decode时延约束 [10] - CloudMatrix 384超节点采用144卡EP并行部署，128卡专用于路由专家 [17] - Atlas 800I A2采用多节点互联，2机16卡Prefill+4机32卡Decode [20] 框架与模型优化 - 基于vLLM框架适配DP/EP并行策略，优化调度分桶和分层传输 [12] - 采用A8W8C16量化策略（INT8+BF16），差异化部署不同机型 [13] - API Server横向扩展方案提升高并发场景QPS，动态负载均衡技术解决显存占用问题 [22] 通信优化 - FlashComm方案降低25%通信量并提升10%推理性能 [25] - 层内并行转换方案消除节点内卡间求和操作 [26] - 计算通信并发机制最大化硬件利用率，MLA层计算性能提升10% [27] 算子优化 - AMLA算法将乘性计算转为加性等价形式，减少数据搬运 [31] - L1/L2缓存精细化管理提升命中率，K-buffer流水排布掩盖计算耗时 [31] - 通算融合算子实现Token粒度流水排布，降低卡间同步开销 [31] 性能实测数据 - Prefill阶段：16K序列端到端耗时631ms，卡均吞吐1622 Tokens/s [34][36] - Decode阶段： - 2K输入+2K输出场景下吞吐达808 Tokens/s（90%接受率） [32] - 1K输入+2K输出场景下吞吐达876 Tokens/s（90%接受率） [32] - SiliconLLM框架部署DeepSeek-R1实现单卡1920 Tokens/s，等效H100性能 [38][39]

以数学补物理

OpenAI 罕见宣布将开源推理模型！DeepSeek 给逼的

创业邦· 2025-04-01 17:42

OpenAI开放权重语言模型计划 - 公司将在未来几个月内推出具备推理能力的开放权重语言模型这是自GPT-2以来首次计划发布此类模型 [3] - 开放权重指公开AI模型的训练参数允许公众使用和修改是介于闭源和开源之间的折中方案 [4] - 公司依据"准备框架"评估模型安全性与可靠性并针对可能修改开展额外测试优化 [6] 开发者生态与安全策略 - 计划举办全球开发者活动收集反馈首场在旧金山启动后续扩展至欧洲和亚太地区 [7] - 安全性是开发核心从预训练到发布遵循严格框架避免推出可能引发灾难性风险的模型 [7] - 研究员强调开放模型面临独特挑战但对安全控制措施充满信心 [7] 市场竞争与战略调整 - GPT-4o多模态功能推动用户增长过去五天新增100万用户导致GPU资源紧张 [9] - CEO承认封闭策略存在历史错误深刻认识到开源的战略意义 [12] - 将面临Llama 4和DeepSeek R2等竞争此次开放权重被视为重要反击手段 [12] 用户反馈与行业动态 - 网友热议OpenAI o1 mini模型 Hugging Face CEO现身评论区参与讨论 [7] - 社区对DeepSeek R1/R2模型关注度高涨相关讨论充斥评论区 [8] - CEO透露GPT-5将免费使用反思此前隐藏功能导致竞争对手获得传播机会 [10]

开源

开放权重

Artificial Intelligence

Artificial Intelligence

DeepSeek V3/R1

DeepSeek R2

GPT-2

两台运行“满血版”DeepSeek，第四范式推出大模型推理一体机解决方案SageOne IA

IPO早知道· 2025-02-28 12:11

大模型应用成本降低 - 第四范式推出大模型推理一体机解决方案SageOne IA，显著降低大模型推理成本，满血版DeepSeek V3/R1仅需两台一体机即可使用 [2] - 解决方案集成智能算力池化技术，支持主流大模型如DeepSeek V3/R1、QWen2.5、LLama3.3，GPU利用率提升30%以上，推理性能平均提升5-10倍 [2] SageOne IA核心优势智能算力池化 - 通过第四范式GPU资源池化（vGPU）技术，实现算力和显存智能切分及任务调度，GPU利用率提升30%以上 [4] - 支持多任务共享存储及处理优化，推理性能平均提升5-10倍，具备千卡级别分布式调度与管理能力 [4] 集成大模型工具链 - 开发平台包含数百个开放模型服务及全生命周期管理工具，支持可视化workflow编排和Agent智能体框架 [5] - 开发周期普遍缩短95%以上，企业开发者可数周内搭建生成式AI应用 [5] 内置AI应用套件 - 预装AIGC、智能办公、数字员工等丰富AI应用套件，支持主流大模型按需选择 [6] - 提供开箱即用的AI工具如模型仓库、智能体Agent平台等，加速企业AI落地 [6] 公司业绩与产品动态 - 第四范式前三季度营收同比增长26.1%，超40款AI产品推动长期增长 [11] - 先知AIOS 5.1新增GPU资源池化能力，算力资源利用率进一步提高 [11] - Q1核心业务收入增长84.8%，行业大模型规模效应显著 [11]

大模型推理

生成式AI

Artificial Intelligence

SageOne IA大模型推理一体机解决方案

Artificial Intelligence

SageOne IA大模型推理一体机解决方案

DeepSeek V3/R1

QWen2.5