DeepEP通信框架 - 财报，业绩电话会，研报，新闻

DeepEP通信框架

搜索文档

AI动态汇总：英伟达Llama-Nemotron模型表现优异，小米Mi-BRAG智能引擎亮相

中邮证券· 2025-05-14 21:08

根据提供的研报内容，以下是量化模型与因子的详细总结：量化模型与构建方式 1. **模型名称：Llama-Nemotron** - **模型构建思路**：通过神经架构搜索（NAS）和垂直压缩技术优化推理效率，结合知识蒸馏和强化学习提升模型推理能力[14][15][16] - **具体构建过程**： 1. **神经架构搜索阶段**：使用Puzzle框架进行块级局部蒸馏，构建Transformer模块库，通过混合整数规划（MIP）求解器选择最优配置 $$ \text{MIP目标函数：} \min \sum_{i=1}^{n} c_i x_i \quad \text{s.t.} \quad Ax \leq b $$ （其中$c_i$代表模块计算成本，$x_i$为选择变量）[16][17] 2. **FFN融合技术**：识别连续FFN块并替换为更宽的并行层，减少序列深度[19][20] 3. **知识蒸馏与预训练**：使用Llama 3.1-405B-Instruct作为参考模型恢复质量损失[21] 4. **监督微调**：采用带推理轨迹的合成数据训练，构建"推理开关"指令响应机制[22][23] 5. **强化学习**：采用GRPO算法进行14万H100小时的STEM领域训练[24] - **模型评价**：在GPQA-Diamond基准测试中实现57.1%准确率，推理效率较DeepSeek-R1提升30%[15][23][26] 2. **模型名称：VPP（Video Prediction Policy）** - **构建思路**：基于AIGC视频扩散模型开发两阶段学习框架，解决机器人动作预测与执行问题[36][38] - **具体构建过程**： 1. **第一阶段**：视频扩散模型学习预测性视觉表征，提取单步去噪的中间层特征[40] 2. **第二阶段**：通过Video Former和DiT扩散策略生成动作指令，控制频率达50Hz[38][40] 3. **多本体适配**：直接学习不同机器人/人类视频数据，消除动作维度限制[41] - **模型评价**：在Calvin ABC-D测试中任务完成长度达4.33（满分5.0），真机成功率67%[42][44] 模型的回测效果 1. **Llama-Nemotron模型** - GPQA-Diamond准确率：57.1%（5-shot CoT）[53] - MMLU Pro准确率：77.2%（5-shot CoT）[53] - 推理延迟：较基线降低40%[16][20] 2. **VPP模型** - Calvin ABC-D任务长度：4.33/5.0[42] - 真机操作成功率：67%[42] - 预测频率：6-10Hz，控制频率50Hz[40] 量化因子与构建方式 1. **因子名称：FFN Fusion效率因子** - **构建思路**：通过前馈网络融合技术提升Transformer计算利用率[19][20] - **具体构建**： $$ \text{融合效率}=1-\frac{T_{\text{原始}}}{T_{\text{融合后}}} $$ 其中$T$代表序列计算步骤数，实测提升多GPU环境吞吐量28%[20] 2. **因子名称：视频扩散预测置信度** - **构建思路**：量化单步去噪特征包含的未来信息量[40] - **具体构建**： $$ \text{置信度}=\frac{\|F_{t+1}-F_{\text{pred}}\|}{\|F_{t+1}\|} $$ （$F$为特征向量，实测150ms预测窗口准确率达92%）[40][41] 因子的回测效果 1. **FFN Fusion效率因子** - 计算利用率提升：28%[20] - 跨GPU通信开销降低：35%[20] 2. **视频扩散预测置信度** - 动作预测准确率：92%[40] - 错误率衰减速度：每帧降低15%[41] 注：部分模型（如Mi-BRAG、NetMaster）因缺乏量化构建细节未列入，测试结果均来自原文基准数据集[53][42]

提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献

深圳商报· 2025-05-12 06:32

腾讯技术优化DeepEP通信框架 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化在RoCE网络环境性能提升100% 在IB网络环境提升30% [2] - 优化后的技术方案获得DeepSeek公开致谢被称为"huge speedup"代码贡献 [2] - 该技术已应用于腾讯混元大模型等项目的训练推理在腾讯星脉与H20服务器构建的高性能环境中展现卓越通用性 [3] DeepEP通信框架原始性能 - DeepSeek开源DeepEP在内的五大代码库展示如何利用有限硬件资源实现接近万卡集群性能 [2] - DeepEP凭借突破性方法提升300%通信效率成功解决MoE架构大模型对英伟达NCCL的依赖问题 [2] - 原始技术在RoCE网络环境中表现不佳限制了更广泛场景的应用 [2] 腾讯优化关键技术突破 - 通过拓扑感知的多QP建链技术智能分配数据流优化双端口网卡带宽利用率避免带宽浪费 [3] - 基于IBGDA技术优化解决GPU通信中CPU控制瓶颈问题降低延迟和能耗 [3] - 提出"QP内时序锁"机制使多个GPU间数据传输能精准按顺序完成即使同时处理1000多个任务也能自动理顺顺序 [3] 技术应用与行业影响 - 腾讯优化使DeepEP在RoCE网络性能翻倍反哺IB网络时通信效率再提升30% [3] - 该技术已全面开源为AI大模型训练提供更高效解决方案 [2][3]

AI大模型训练

Software and Internet

DeepEP通信框架

腾讯混元大模型

AI大模型训练

Software and Internet

DeepEP通信框架

腾讯混元大模型

AI周报 | xAI新一轮融资后估值有望超1200亿美元；OpenAI重组计划生变

第一财经资讯· 2025-05-11 09:39

xAI融资动态 - xAI正洽谈新一轮融资估值可能达到1200亿美元潜在融资规模200亿美元[1] - 若融资完成将成为史上第二大初创公司融资仅次于OpenAI的400亿美元融资[1] OpenAI公司治理调整 - OpenAI撤回营利实体重组计划非营利组织保持控制权营利实体将转型为公益公司(PBC)[2] - 新架构下投资者持有普通股且增值不受限旨在提升未来融资能力[2] 技术合作与开源进展 - 腾讯优化DeepSeek的DeepEP通信框架 RoCE网络性能提升100% IB网络提升30%[3] - 腾讯混元开源多模态视频生成工具HunyuanCustom 主体一致性优于现有开源方案[8] 行业竞争格局变化 - 苹果计划在Safari引入AI搜索选项谷歌母公司Alphabet股价单日跌7% 市值蒸发1500亿美元[4] - AI编程工具Cursor开发商Anysphere完成9亿美元融资估值达90亿美元较去年12月增长246%[5][6] 高管变动与人才战略 - OpenAI任命Instacart CEO菲吉·西莫为应用主管强化商业化能力[7] 人形机器人技术迭代 - 逐际动力发布31自由度人形机器人CL-3 云深处推出四足机器人M20[9] - 行业持续优化运动性能 8月将举办世界人形机器人运动会[9]