Workflow
MOE 架构
icon
搜索文档
全球AI大模型最新进展及展望
2025-07-16 23:25
纪要涉及的行业和公司 - **行业**:全球AI大模型行业 - **公司**:OpenAI、Keep Seek、Deepseeker、Minimax、阿里、字节跳动、谷歌 纪要提到的核心观点和论据 1. **发展现状** - 全球AI大模型发展迅速,迭代速度超预期,美国在大参数量版本表现突出,中国在MOE架构优化等方面表现出色 [3] - 国产大模型能力被低估,豆包C1.6、Kimi开源模型、Minimax产品及阿里通义千问等达SOTA级别,中美差距未显著拉大 [1][6] - 自2022年ChatGPT发布,美国保持前沿,但今年Deepseek R1突破显示中美前沿大模型差距缩小 [13] 2. **商业化进展** - 大模型商业化加速,OpenAI预计年底ARR达150亿美元以上,6月已达100亿美金,Cloud从10亿美金增至30亿美金,环比增速约20%,部分公司80%编程由AI解决 [1][3][4][5] 3. **对厂商影响** - 2023 - 2025年,AI软件行情与大模型迭代相关,每次版本升级影响硬件和软件厂商,多模态是下一轮发力和商业化重点,国内多模态模型测评领先 [1][7] 4. **发展趋势** - 大模型与垂直领域小型蒸馏模型并行发展,小型模型在特定领域效果提升,价值不衰减 [1][10] - AI成本下降与能力提升同比例,推理成本下降更快,推动大模型商业化和产业链发展 [1][11] - 多模态是通往AGI关键,下半年至明年是重点关注方向,AI agent和视频编辑等场景值得重视 [1][12] 5. **技术探索** - 为突破Scaling局限,产业探索MOE架构,激活部分专家降低计算量,如Deepseeker、Minimax M1、千问3系列 [2][15][16] - 效率优化方面,采用多种注意力机制改进,如MLA、闪电注意力、分组查询注意力等 [17] - 推理能力提升有思考模型和混合推理模型两大方向 [18] - 智能体工具调用能力受厂商重视,国内Kimi KR具备工具调用能力,大厂AI工具类调用需求增长 [19][20][21] 6. **国内模型发展方向** - 降低成本,优化架构和算法,提高回答速度、降低幻觉率 [21] - 加大强化学习算力投入,统一非推理和推理模型 [21] - 加强工具调用能力,提高模型落地价值 [21] - 多模态发展,实现多模态推理与生成统一 [21] 7. **投资趋势** - 未来两到三年,算力是重要且长周期投资领域,关注芯片、服务器出货量及光模块预测等指标,模型是前沿观察指标 [22] 其他重要但可能被忽略的内容 1. **GPT - 4影响**:带来更长上下文长度和更大规模,推动产业链发展,但受训练复杂度、运行成本、算力集群互联能力和高质量数据集缺失限制 [14] 2. **模型性能表现**:GROK4在所有基准测试中表现优异,在human last exam测试中成绩好于其他旗舰版本 [23][24] 3. **强化学习训练变化**:目前模型强化学习训练时间和所需算力显著增加,未来技术路线是大幅延长强化学习训练时间和增加算力 [25] 4. **MID - train范式影响**:MID - train范式预计显著提升模型能力,GROX可能采用该技术路线 [26] 5. **国内优异模型**:Kimi K2仅预训练和MID train,非思维链版本全球领先,引入思维链后可能达全球顶尖水平 [27][28] 6. **谷歌流量影响**:谷歌流量增长来自内部调用、聊天机器人和API调用,三部分均有增长潜力,对下游推理算力需求乐观 [29]
H20近期变化+超节点与MoE交集+AI应用拐点
2025-07-16 08:55
纪要涉及的行业和公司 - **行业**:光通信、算力基建、PCB、互联网传媒与AI、云计算、科技行业、TMT板块 - **公司**:Meta、英伟达、博通、新易盛、世纪互联、鹏鼎控股、鼎泰高科、润泽科技、奥飞数据、科华英维克、万国数据、世纪互联、曙光、海光、软通动力、销售易、胜宏、沪电股份、华勤技术、美图、快手、凯英网络、世纪华通、巨人网络、腾讯、哔哩哔哩、世荣股份、焦点科技、金山云、阿里巴巴、旭创公司 纪要提到的核心观点和论据 1. **海外大厂AI投入加速且算力方案多元化**:Meta计划2026年上线超1GW AI集群,北美厂商构建超大规模AI集群,采用英伟达Blackwell及自研ASIC芯片,包括内部和外部扩展[1][4] 2. **模型训练对算力和网络需求强劲**:Grok Four及GPT Five等模型迭代频繁,MOE和PD分离架构创新推动算力与模型迭代[1][5] 3. **AI推理对硬件带动作用显著增强**:TOKEN消耗快速增长,新架构使增加通信提升系统性能成主流,推动硬件需求增长[1][6] 4. **光通信产业链呈现三大趋势**:800G向1.6T迭代加速,大模型架构优化增加通信提升性能,硅光技术渗透重构产业链价值,中际旭创、新易盛等企业受益[1][7] 5. **国产算力基建投资前景广阔**:大厂上修全年资本开支,订单和产能增长预计在二三季度显现,华为推出384超节点方案缓解芯片供给担忧,关注IDC板块投资机会[1][8] 6. **市场担忧基本消除,关注IDC产业链上下游**:重视海外链大涨对A股本土专用机械的影响,关注机房、电源和液冷等环节,国内ITC产业上下游仍具较大投资机会[1][9] 7. **鹏鼎控股服务器相关业务加速发展**:泰国工厂投产预计带来至少20亿产值,HDI更高阶SLP业务加速推进,消费电子制造能力向算力方向迁移[3][16] 8. **鼎泰高科受益于AI需求**:订单逐月创新高,高端涂层钻针占比提升至40%,规模效应和技术优势推动全球市占率持续提升,2025年第一季度业绩增速远高于收入增速[3][20][21] 9. **华勤科技在AI服务器市场表现突出**:自2023年下半年放量,增速连续几年翻倍,2024年营收接近200亿,预计2025年至少翻倍至400亿,客户层级优质,有望继续高速增长[19] 10. **A股和港股互联网传媒与AI投资机会集中在云计算和有商业化兑现能力的AI应用**:关注已实现收入兑现的公司,国内情绪消费、陪伴、社交媒体广告变现、教育等场景易实现AI变现,生产力工具出海是重要方向[22] 11. **英伟达H20芯片放开对市场有重大影响**:预计2025年第三、四季度向中国市场交付约100万张,冲回45亿美元存货减值损失提升毛利率,带来约150亿美元收入增量,占年度收入增量5% - 10% [25][26] 12. **超级点与Moe架构创新推动科技行业发展**:如旭创公司中报增长50%,表明通信领域创新重要,不依赖传统模式,是海外关注重要因素[29][30] 13. **TMT板块未来注重底层技术与应用场景结合**:高频要求增加但总体数量减少,中长期质量提升,新兴领域如3D打印、脑机接口等将成重要增长点[35] 其他重要但可能被忽略的内容 1. **新易盛业绩预告超出预期,RDC公司如世纪互联上调全年指引,国产模型端多模态能力更新频繁**[2] 2. **硬板PCB市场在高密度板材方面发展迅速,某公司收购永丰资产后加速推进,在苹果供应链表现出色,预计受益于消费级SoC芯片技术进步和折叠屏趋势**[17][18] 3. **当前A股和港股互联网传媒与AI投资在AI应用领域各细分场景的具体公司**:AI创意行业的美图、快手;AI陪伴场景的凯英网络等;AI广告场景的腾讯、哔哩哔哩;AI教育的世荣股份;焦点科技在跨境电商场景利用AI技术[22] 4. **云计算领域具有自有场景优势的互联网企业投资价值**:金山云依托小米和金山集团需求,PS估值约2.6倍有安全边际,阿里巴巴云计算业务加速,但电商及外卖业务可能面临补贴高峰期预期下修风险[23] 5. **2024 - 2025年海外市场景气度对通信和光器件行业影响体现为市场驱动因素变化,不再仅依赖特定公司或区域,受全球多样化创新推动**[31] 6. **当前科技股投资中阿尔法和贝塔的角色,应关注具有阿尔法属性的公司**:阿尔法代表通过创新和独特优势获超额收益,贝塔指随大盘波动收益,应关注超级计算链、MOE等有独特创新能力的公司[32] 7. **算力领域近期关键创新及未来趋势**:Deepseek大模型、MOE架构、硅光计划等创新提升推理能力和推动算力平权,存算一体、光电混合、3D打印等技术未来两三年成重要趋势[33] 8. **当前高景气度下数据表现与股价调整关系**:存在矛盾,应关注MOE架构、硅光计划及超节点技术等结构性变化决定的长期价值[34] 9. **科技股标的选择建议**:关注robotaxi、roboone及3D打印领域小型企业,关注阿里巴巴、腾讯、小米等龙头企业业务发展动态[36]
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线· 2025-05-22 12:30
模型开发趋势 - 模型开发从算法层优化转向系统工程层面的深度创新 [1] - 行业从数字化时代的比特流量转向Token经济体系,国内Token日消耗量从千亿级跃升至十万亿级 [1] - 头部平台如DeepSeek日均处理6000亿Token,验证高吞吐、低时延系统的商业价值 [1] - 模型结构从单一架构探索发展为多模态融合创新,分布式集群部署成为新常态 [1] - ChatGPT和DeepSeek用户规模突破亿级的时间从1个月压缩至7天,系统处理能力实现数量级提升 [1] 华为对DeepSeek的优化 - 华为针对DeepSeek的优化包括预训练、算子层面、计算与通信优化、内存优化等方面 [3][6][7][10] - 预训练方面,华为复现并改进DualPipe技术,最终提出DualPipe-V方案,优化显存使用并集成至MindSeed [6] - 算子层面实现MRN的PO融合算子,提升执行效率 [7] - 计算与通信优化包括低时延通信优化和双链路通信掩盖 [7] - 内存优化方面,华为自研重计算技术,节省多个GB显存,适用于计算量小但激活值大的操作 [10] 推理优化与系统架构 - 华为提出PD(Prompt Decoder)分离部署,降低首token延迟并提升整体推理效率 [12] - 针对MOE架构,华为研发"超节点"架构,通过高速总线将上百张GPU卡互联,显著减少通信时延 [14] - 超节点架构采用统一内存编辑和语义通信,实现TB级带宽超高速互联 [14] - Atlas 900 A3 SuperCluster突破Scale up物理节点计算瓶颈,训练效率提升2.7倍 [15] - 在A3超节点集群上完成DeepSeek V3训练优化,达到每卡1,216 TPS吞吐率,MFU达44.57% [15] MOE架构与负载均衡 - MOE架构专家数量不断增加,DeepSeek V3/R1已有288个专家 [13] - 华为引入动态专家并行策略,取代传统张量并行,规避显存和计算浪费 [17] - 通过静态、分段及动态均衡负载算法,解决专家并行带来的负载均衡问题 [17] - 华为发布OmniPlacement算法,识别热/冷专家,优化计算均衡,理论上降低10%推理延迟并提升10%吞吐量 [19]