DeepEP

搜索文档
AI动态汇总:英伟达Llama-Nemotron模型表现优异,小米Mi-BRAG智能引擎亮相
中邮证券· 2025-05-14 21:08
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Llama-Nemotron** - **模型构建思路**:通过神经架构搜索(NAS)和垂直压缩技术优化推理效率,结合知识蒸馏和强化学习提升模型推理能力[14][15][16] - **具体构建过程**: 1. **神经架构搜索阶段**:使用Puzzle框架进行块级局部蒸馏,构建Transformer模块库,通过混合整数规划(MIP)求解器选择最优配置 $$ \text{MIP目标函数:} \min \sum_{i=1}^{n} c_i x_i \quad \text{s.t.} \quad Ax \leq b $$ (其中$c_i$代表模块计算成本,$x_i$为选择变量)[16][17] 2. **FFN融合技术**:识别连续FFN块并替换为更宽的并行层,减少序列深度[19][20] 3. **知识蒸馏与预训练**:使用Llama 3.1-405B-Instruct作为参考模型恢复质量损失[21] 4. **监督微调**:采用带推理轨迹的合成数据训练,构建"推理开关"指令响应机制[22][23] 5. **强化学习**:采用GRPO算法进行14万H100小时的STEM领域训练[24] - **模型评价**:在GPQA-Diamond基准测试中实现57.1%准确率,推理效率较DeepSeek-R1提升30%[15][23][26] 2. **模型名称:VPP(Video Prediction Policy)** - **构建思路**:基于AIGC视频扩散模型开发两阶段学习框架,解决机器人动作预测与执行问题[36][38] - **具体构建过程**: 1. **第一阶段**:视频扩散模型学习预测性视觉表征,提取单步去噪的中间层特征[40] 2. **第二阶段**:通过Video Former和DiT扩散策略生成动作指令,控制频率达50Hz[38][40] 3. **多本体适配**:直接学习不同机器人/人类视频数据,消除动作维度限制[41] - **模型评价**:在Calvin ABC-D测试中任务完成长度达4.33(满分5.0),真机成功率67%[42][44] 模型的回测效果 1. **Llama-Nemotron模型** - GPQA-Diamond准确率:57.1%(5-shot CoT)[53] - MMLU Pro准确率:77.2%(5-shot CoT)[53] - 推理延迟:较基线降低40%[16][20] 2. **VPP模型** - Calvin ABC-D任务长度:4.33/5.0[42] - 真机操作成功率:67%[42] - 预测频率:6-10Hz,控制频率50Hz[40] 量化因子与构建方式 1. **因子名称:FFN Fusion效率因子** - **构建思路**:通过前馈网络融合技术提升Transformer计算利用率[19][20] - **具体构建**: $$ \text{融合效率}=1-\frac{T_{\text{原始}}}{T_{\text{融合后}}} $$ 其中$T$代表序列计算步骤数,实测提升多GPU环境吞吐量28%[20] 2. **因子名称:视频扩散预测置信度** - **构建思路**:量化单步去噪特征包含的未来信息量[40] - **具体构建**: $$ \text{置信度}=\frac{\|F_{t+1}-F_{\text{pred}}\|}{\|F_{t+1}\|} $$ ($F$为特征向量,实测150ms预测窗口准确率达92%)[40][41] 因子的回测效果 1. **FFN Fusion效率因子** - 计算利用率提升:28%[20] - 跨GPU通信开销降低:35%[20] 2. **视频扩散预测置信度** - 动作预测准确率:92%[40] - 错误率衰减速度:每帧降低15%[41] 注:部分模型(如Mi-BRAG、NetMaster)因缺乏量化构建细节未列入,测试结果均来自原文基准数据集[53][42]
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
深圳商报· 2025-05-12 06:32
腾讯技术优化DeepEP通信框架 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化 在RoCE网络环境性能提升100% 在IB网络环境提升30% [2] - 优化后的技术方案获得DeepSeek公开致谢 被称为"huge speedup"代码贡献 [2] - 该技术已应用于腾讯混元大模型等项目的训练推理 在腾讯星脉与H20服务器构建的高性能环境中展现卓越通用性 [3] DeepEP通信框架原始性能 - DeepSeek开源DeepEP在内的五大代码库 展示如何利用有限硬件资源实现接近万卡集群性能 [2] - DeepEP凭借突破性方法提升300%通信效率 成功解决MoE架构大模型对英伟达NCCL的依赖问题 [2] - 原始技术在RoCE网络环境中表现不佳 限制了更广泛场景的应用 [2] 腾讯优化关键技术突破 - 通过拓扑感知的多QP建链技术 智能分配数据流 优化双端口网卡带宽利用率 避免带宽浪费 [3] - 基于IBGDA技术优化 解决GPU通信中CPU控制瓶颈问题 降低延迟和能耗 [3] - 提出"QP内时序锁"机制 使多个GPU间数据传输能精准按顺序完成 即使同时处理1000多个任务也能自动理顺顺序 [3] 技术应用与行业影响 - 腾讯优化使DeepEP在RoCE网络性能翻倍 反哺IB网络时通信效率再提升30% [3] - 该技术已全面开源 为AI大模型训练提供更高效解决方案 [2][3]
AI周报 | xAI新一轮融资后估值有望超1200亿美元;OpenAI重组计划生变
第一财经资讯· 2025-05-11 09:39
xAI融资动态 - xAI正洽谈新一轮融资 估值可能达到1200亿美元 潜在融资规模200亿美元[1] - 若融资完成 将成为史上第二大初创公司融资 仅次于OpenAI的400亿美元融资[1] OpenAI公司治理调整 - OpenAI撤回营利实体重组计划 非营利组织保持控制权 营利实体将转型为公益公司(PBC)[2] - 新架构下投资者持有普通股且增值不受限 旨在提升未来融资能力[2] 技术合作与开源进展 - 腾讯优化DeepSeek的DeepEP通信框架 RoCE网络性能提升100% IB网络提升30%[3] - 腾讯混元开源多模态视频生成工具HunyuanCustom 主体一致性优于现有开源方案[8] 行业竞争格局变化 - 苹果计划在Safari引入AI搜索选项 谷歌母公司Alphabet股价单日跌7% 市值蒸发1500亿美元[4] - AI编程工具Cursor开发商Anysphere完成9亿美元融资 估值达90亿美元 较去年12月增长246%[5][6] 高管变动与人才战略 - OpenAI任命Instacart CEO菲吉·西莫为应用主管 强化商业化能力[7] 人形机器人技术迭代 - 逐际动力发布31自由度人形机器人CL-3 云深处推出四足机器人M20[9] - 行业持续优化运动性能 8月将举办世界人形机器人运动会[9]
苹果或将发布AI日历功能;DeepSeek公开致谢腾讯丨AIGC日报
创业邦· 2025-05-11 09:06
DeepSeek与腾讯技术合作 - DeepSeek公开致谢腾讯技术团队对其开源通信框架DeepEP的优化 优化使性能在RoCE网络环境下提升高达100% 在InfiniBand网络环境下提升约30% [1] 苹果收购MaydayLabs - 苹果收购加拿大初创公司MaydayLabs 收购时间为2024年4月3日 核心资产涉及AI日历功能 适用于Mac、iOS和iPad 该应用已于2024年5月1日停用 [1] 英伟达修改版H20芯片 - 英伟达计划在7月为中国市场推出修改版H20芯片 主要面向云计算领域巨头公司 修改版芯片性能将显著降级 包括大幅降低内存容量 [1] 字节跳动开源Deep Research项目 - 字节跳动技术团队开源Deep Research项目DeerFlow 基于LangStack 功能包括深度研究、MCP集成、报告AI增强编辑以及播客生成 [1]
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
新浪科技· 2025-05-07 19:12
技术优化 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化,在RoCE网络环境性能提升100%,IB网络环境提升30% [1] - 优化后的技术方案获得DeepSeek公开致谢,被称为"huge speedup"代码贡献 [1] - 腾讯星脉网络团队发现DeepEP两大关键瓶颈:双端口网卡带宽利用率不足和CPU控制面交互时延 [2] - 技术优化后,DeepEP在RoCE网络实现性能翻倍,IB网络通信效率提升30% [2] 技术突破 - DeepSeek开源的DeepEP通信框架通过突破性方法提升300%通信效率,减少对英伟达NCCL的依赖 [2] - 优化措施包括:替换IBRC为IBGDA、为每个通道使用独立QP实现并行数据传输 [1] - 优化后internode带宽达到58GB/s(RDMA),internade带宽达到51GB/s(RDMA) [1] 应用与影响 - 该技术已全面开源并应用于腾讯混元大模型等项目的训练推理 [2] - 在腾讯星脉与H20服务器构建的高性能环境中展现出出色通用性 [2] - 技术优化使企业AI大模型训练获得更高效解决方案 [1]
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-17 07:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 19:41
点击上方"公众号"可订阅哦! 兴业证券计算机小组 使用本研究报告的风险提示及法律声明 周观点 坚定中长期信心,在调整中加仓核心龙头 坚定中长期信心,在调整中加仓核心龙头。 本周,受前期上涨较快及业绩快报披露等因素影响,板块出现一定的 调整。展望后市,快报已披露完毕,即将进入重要的政策窗口期,同时 2025Q1 业绩改善值得期待。建议围绕政 策及技术两大维度,积极加仓核心赛道龙头,主要包括人工智能及国产化。 全球 AI 产业正加速共振,继续超配 AI 赛道。 在国内, DeepSeek 本周开源了包括 DeepEP 、 DeepGEMM 等在内的一系列解决方案,覆盖从底层硬件优化到上层应用多环节;同时,实施"错峰定价"策略,大幅下调夜间 空闲时段的 API 调用价格,有望加速 AI 应用发展。在海外, OpenAI 本周发布 ChatGPT 4.5 ,其在人性化交 互方面实现明显提升。今年以来,自从包括豆包、 DeepSeek 在内的国产大模型突破以来,全球 AI 产业的共振 正在加速,产业趋势不断发酵。建议持续超配。 本文第二章,对 AI 平权领军 DeepSeek 的业务进展进行了重点跟踪。 风险提示: 板 ...
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 19:41
本周观点聚焦 - 坚定中长期信心,在调整中加仓核心龙头,建议围绕政策及技术两大维度,积极加仓人工智能及国产化赛道 [1] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响,但即将进入重要政策窗口期,2025Q1业绩改善值得期待 [1] AI产业动态 - 全球AI产业加速共振,建议持续超配AI赛道,国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案,覆盖从底层硬件优化到上层应用多环节 [1] - DeepSeek实施"错峰定价"策略,大幅下调夜间空闲时段的API调用价格,有望加速AI应用发展 [1] - 海外OpenAI发布ChatGPT 4.5,在人性化交互方面实现明显提升 [1] - 国产大模型如豆包、DeepSeek取得突破,推动全球AI产业趋势持续发酵 [1] DeepSeek业务进展 - DeepSeek作为AI平权领军企业,加力开源及降价策略,业务进展显著 [2][4]
【电子】DeepSeek驱动模型平权,英伟达Blackwell加速出货——光大证券科技行业跟踪报告之二(刘凯)
光大证券研究· 2025-03-01 21:53
点击注册小程序 特别申明: (1)Anthropic公司最新推出Claude3.7Sonnet;(2)阿里云Qwen团队推出了全新推理模型系统"深度思考 (QwQ)";(3)DeepSeek开源DeepEP代码;(4)特斯拉FSD入华与小米全场景智驾上线,智能驾驶有 望成为AI应用落地的焦点。 AI:阿里投资巨额资金用于云和AI硬件基础设施建设,腾讯元宝宣布同时支持混元和DeepSeek两大模型 阿里巴巴集团CEO吴泳铭2025年2月24日宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬 件基础设施,总额超过去十年总和。这也创下中国民营企业在云和AI硬件基础设施建设领域有史以来最大 规模投资纪录。腾讯旗下AI原生应用"元宝"上线仅月余,便超越字节跳动旗下"豆包",成为苹果应用商店 免费榜第二,下载量突破200万大关。 半导体:存储跌价即将结束,25Q2有望逐步回升 根据闪徳资讯,随着NANDFlash厂商积极减产以维持供需秩序,NAND Flash合同价有望于2025年第二季 度开始上涨,涨价趋势至少可持续至2025年底。宇瞻科技预计内存市场将在2025年末出现DDR4和DDR5 短缺。Deep ...
DeepSeek披露,一天成本利润率为545%
华尔街见闻· 2025-03-01 19:17
成本利润率披露 - 公司首次披露成本利润率关键信息 假定GPU租赁成本为2美元/小时 日总成本为87072美元 若所有tokens按DeepSeek-R1定价计算 理论日收入达562027美元 成本利润率为545% [1][3] - 实际收入低于理论值 因V3定价更低且存在夜间折扣 收费服务仅占部分负载 [4] 资源利用与定价策略 - 最近24小时节点占用峰值278个 平均22675个 定价策略为014美元/百万输入tokens(缓存命中) 055美元/百万输入tokens(缓存未命中) 219美元/百万输出tokens [3] - 采用弹性资源调度 白天全节点部署推理 夜间释放节点用于训练/研究 优化目标为提升吞吐量与降低延迟 [4][5] - 公司强调定价原则为"不贴钱也不赚暴利" 在成本基础上保持适度利润 此前员工透露API服务利润率超50% [5] 行业争议与回应 - 潞晨科技创始人尤洋曾称DeepSeek API业务月亏4亿元 主要因测试速度与实际场景差距 机器利用率波动及不稳定性 [2][5] - 公司通过公开资源利用数据间接回应质疑 证明弹性伸缩可避免资源空置 [5] - 业内人士认为在线推理领域需持续吸引用户并保持技术领先才能盈利 商务付费能力与应用场景同样关键 [6] 开源周技术成果 - 公司结束为期5天的开源周 累计开源5个代码库 包括FlashMLA(Hopper GPU优化解码内核) DeepEP(MoE模型训练推理通信库) DeepGEMM(支持密集与MoE布局的即时编译库) Optimized Parallelism Strategies(大规模训练效率优化)及Fire-Flyer文件系统(3FS)与Smallpond数据处理框架 [7][8][9][10][11] - 开源技术被评价为从"运营驱动"转向"价值驱动" 推动智能未来创新 [12] 用户规模与行业影响 - DeepSeek App累计下载量超11亿次 周活跃用户峰值近9700万 [12] - 开源生态发展被视为中国技术创新的关键力量 公司实践展示开源硬件对技术自由的促进作用 [12]