Workflow
DeepEP通信框架
icon
搜索文档
AI动态汇总:英伟达Llama-Nemotron模型表现优异,小米Mi-BRAG智能引擎亮相
中邮证券· 2025-05-14 21:08
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Llama-Nemotron** - **模型构建思路**:通过神经架构搜索(NAS)和垂直压缩技术优化推理效率,结合知识蒸馏和强化学习提升模型推理能力[14][15][16] - **具体构建过程**: 1. **神经架构搜索阶段**:使用Puzzle框架进行块级局部蒸馏,构建Transformer模块库,通过混合整数规划(MIP)求解器选择最优配置 $$ \text{MIP目标函数:} \min \sum_{i=1}^{n} c_i x_i \quad \text{s.t.} \quad Ax \leq b $$ (其中$c_i$代表模块计算成本,$x_i$为选择变量)[16][17] 2. **FFN融合技术**:识别连续FFN块并替换为更宽的并行层,减少序列深度[19][20] 3. **知识蒸馏与预训练**:使用Llama 3.1-405B-Instruct作为参考模型恢复质量损失[21] 4. **监督微调**:采用带推理轨迹的合成数据训练,构建"推理开关"指令响应机制[22][23] 5. **强化学习**:采用GRPO算法进行14万H100小时的STEM领域训练[24] - **模型评价**:在GPQA-Diamond基准测试中实现57.1%准确率,推理效率较DeepSeek-R1提升30%[15][23][26] 2. **模型名称:VPP(Video Prediction Policy)** - **构建思路**:基于AIGC视频扩散模型开发两阶段学习框架,解决机器人动作预测与执行问题[36][38] - **具体构建过程**: 1. **第一阶段**:视频扩散模型学习预测性视觉表征,提取单步去噪的中间层特征[40] 2. **第二阶段**:通过Video Former和DiT扩散策略生成动作指令,控制频率达50Hz[38][40] 3. **多本体适配**:直接学习不同机器人/人类视频数据,消除动作维度限制[41] - **模型评价**:在Calvin ABC-D测试中任务完成长度达4.33(满分5.0),真机成功率67%[42][44] 模型的回测效果 1. **Llama-Nemotron模型** - GPQA-Diamond准确率:57.1%(5-shot CoT)[53] - MMLU Pro准确率:77.2%(5-shot CoT)[53] - 推理延迟:较基线降低40%[16][20] 2. **VPP模型** - Calvin ABC-D任务长度:4.33/5.0[42] - 真机操作成功率:67%[42] - 预测频率:6-10Hz,控制频率50Hz[40] 量化因子与构建方式 1. **因子名称:FFN Fusion效率因子** - **构建思路**:通过前馈网络融合技术提升Transformer计算利用率[19][20] - **具体构建**: $$ \text{融合效率}=1-\frac{T_{\text{原始}}}{T_{\text{融合后}}} $$ 其中$T$代表序列计算步骤数,实测提升多GPU环境吞吐量28%[20] 2. **因子名称:视频扩散预测置信度** - **构建思路**:量化单步去噪特征包含的未来信息量[40] - **具体构建**: $$ \text{置信度}=\frac{\|F_{t+1}-F_{\text{pred}}\|}{\|F_{t+1}\|} $$ ($F$为特征向量,实测150ms预测窗口准确率达92%)[40][41] 因子的回测效果 1. **FFN Fusion效率因子** - 计算利用率提升:28%[20] - 跨GPU通信开销降低:35%[20] 2. **视频扩散预测置信度** - 动作预测准确率:92%[40] - 错误率衰减速度:每帧降低15%[41] 注:部分模型(如Mi-BRAG、NetMaster)因缺乏量化构建细节未列入,测试结果均来自原文基准数据集[53][42]
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
深圳商报· 2025-05-12 06:32
腾讯技术优化DeepEP通信框架 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化 在RoCE网络环境性能提升100% 在IB网络环境提升30% [2] - 优化后的技术方案获得DeepSeek公开致谢 被称为"huge speedup"代码贡献 [2] - 该技术已应用于腾讯混元大模型等项目的训练推理 在腾讯星脉与H20服务器构建的高性能环境中展现卓越通用性 [3] DeepEP通信框架原始性能 - DeepSeek开源DeepEP在内的五大代码库 展示如何利用有限硬件资源实现接近万卡集群性能 [2] - DeepEP凭借突破性方法提升300%通信效率 成功解决MoE架构大模型对英伟达NCCL的依赖问题 [2] - 原始技术在RoCE网络环境中表现不佳 限制了更广泛场景的应用 [2] 腾讯优化关键技术突破 - 通过拓扑感知的多QP建链技术 智能分配数据流 优化双端口网卡带宽利用率 避免带宽浪费 [3] - 基于IBGDA技术优化 解决GPU通信中CPU控制瓶颈问题 降低延迟和能耗 [3] - 提出"QP内时序锁"机制 使多个GPU间数据传输能精准按顺序完成 即使同时处理1000多个任务也能自动理顺顺序 [3] 技术应用与行业影响 - 腾讯优化使DeepEP在RoCE网络性能翻倍 反哺IB网络时通信效率再提升30% [3] - 该技术已全面开源 为AI大模型训练提供更高效解决方案 [2][3]
AI周报 | xAI新一轮融资后估值有望超1200亿美元;OpenAI重组计划生变
第一财经资讯· 2025-05-11 09:39
xAI融资动态 - xAI正洽谈新一轮融资 估值可能达到1200亿美元 潜在融资规模200亿美元[1] - 若融资完成 将成为史上第二大初创公司融资 仅次于OpenAI的400亿美元融资[1] OpenAI公司治理调整 - OpenAI撤回营利实体重组计划 非营利组织保持控制权 营利实体将转型为公益公司(PBC)[2] - 新架构下投资者持有普通股且增值不受限 旨在提升未来融资能力[2] 技术合作与开源进展 - 腾讯优化DeepSeek的DeepEP通信框架 RoCE网络性能提升100% IB网络提升30%[3] - 腾讯混元开源多模态视频生成工具HunyuanCustom 主体一致性优于现有开源方案[8] 行业竞争格局变化 - 苹果计划在Safari引入AI搜索选项 谷歌母公司Alphabet股价单日跌7% 市值蒸发1500亿美元[4] - AI编程工具Cursor开发商Anysphere完成9亿美元融资 估值达90亿美元 较去年12月增长246%[5][6] 高管变动与人才战略 - OpenAI任命Instacart CEO菲吉·西莫为应用主管 强化商业化能力[7] 人形机器人技术迭代 - 逐际动力发布31自由度人形机器人CL-3 云深处推出四足机器人M20[9] - 行业持续优化运动性能 8月将举办世界人形机器人运动会[9]