模型平权

搜索文档
模型持续进步,世界模型概念逐步成型
国联证券· 2025-06-08 18:25
报告行业投资评级 - 强于大市(维持)[8] 报告的核心观点 - AI正从“人类数据时代”迈入“体验时代”,未来或进入以智能体为代表、通过与世界直接交互获取经验的阶段 [5][9] - 大模型从大语言模型 - 原生态模型 - 世界模型演变,AGI分为数字世界与物理世界,未来物理世界或出现更多细分垂类模型 [10] - 现阶段大模型能力持续提升,但AI应用未产生大量实际生产应用,AI技术与现实世界应用结合是重点,Agent + 物理世界模型或成趋势主导 [11] - AI技术进步带动模型平权,有望带来算力基础设施建设、端侧AI软件开发、生产力工具革新、行业信息化创新四方面投资机遇 [12] 根据相关目录分别进行总结 图灵奖得主分享 - 2024ACM图灵奖得主Richard Sutton称当前AI大模型训练依赖互联网与人类生成数据,通过人类微调优化,ChatGPT是成功产物,但高质量人类数据几乎耗尽,AI进入“体验时代”,未来或从第一人称经验中学习 [5][9] 大模型演变 - 智源研究院认为大模型从大语言模型 - 原生态模型 - 世界模型演变,AGI分为数字世界与物理世界,传统语言、推理等模型属数字世界,原生多模态、具身智能等属物理世界 [10] 大模型能力与趋势 - 现阶段大模型能力持续提升,在多项测试中展现超越人类的推理能力,但AI应用未大量落地,随着高质量数据枯竭,Agent + 物理世界模型或成趋势主导 [11] 投资建议 - 建议关注AI技术进步带动的产业链机会,包括算力基础设施建设(中科曙光、紫光股份、浪潮信息等)、端侧AI软件开发(中科创达等)、生产力工具革新(金山办公、用友网络、泛微网络等)、行业信息化创新(恒生电子、宇信科技、中控技术、卫宁健康等) [12]
长城基金廖瀚博:积极寻找产业变化
新浪基金· 2025-05-20 13:31
"投资最重要的事情就是拥抱时代,在产业变化的浪潮中寻找投资机会。我们继续保持这个投资思路, 积极寻找产业的变化,以合理价格布局优势资产。"廖瀚博表示。 免责声明:本通讯所载信息来源于本公司认为可靠的渠道和研究员个人判断,但本公司不对其准确性或 完整性提供直接或隐含的声明或保证。此通讯并非对相关证券或市场的完整表述或概括,任何所表达的 意见可能会更改且不另外通知。此通讯不应被接收者作为对其独立判断的替代或投资决策依据。本公司 或本公司的相关机构、雇员或代理人不对任何人使用此全部或部分内容的行为或由此而引致的任何损失 承担任何责任。未经长城基金管理有限公司事先书面许可,任何人不得将此报告或其任何部分以任何形 式进行派发、复制、转载或发布,且不得对本通讯进行任何有悖原意的删节或修改。基金管理人提醒, 每个公民都有举报洗钱犯罪的义务和权利。每个公民都应严格遵守反洗钱的相关法律、法规。基金有风 险,投资须谨慎。 MACD金叉信号形成,这些股涨势不错! 回顾2025年一季度,A股市场震荡上行,科技板块和制造板块涨幅领先,其中代表性板块是人形机器人 和国产算力。 长城基金廖瀚博认为,一季度科技领涨的核心逻辑在于技术进步驱动 ...
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-17 07:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
中金 | AI进化论(2):模型+工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海
中金点睛· 2025-02-28 07:34
中金研究 在本系列报告的第一篇中,我们深度讨论了DeepSeek(以下简称DS)技术创新对训练硬件的需求变化。除了训练以外,DS团队在最新一系列的开源成 果发布中针对推理任务也做出了双重维度的创新:一方面通过模型优化降低硬件资源占用,另一方面通过硬件工程化优化以发挥硬件最大效能。 点击小程序查看报告原文 Abstract 摘要 传统的Transformer模型通常采用多头注意力机制(Multi-Head-Attention, MHA),但在生成过程中,随着前置序列的长度变长,需要读取的KV cache也将 越来越大,数据的传输成本增加,KV缓存会限制推理效率。减少KV缓存的策略包括MQA和GQA等,它们所需的KV缓存规模较小,但性能却无法与 MHA相比。 图表1:MHA、GQA、MQA、MLA 架构对比 模型创新:借助MLA、NSA等技术优化加速推理。 在上一篇聚焦训练任务的报告中,我们重点解读了DS大语言模型中前馈网络(FFN)架构部分由稠密 演化到稀疏(MoE,专家模型)产生的影响,同时,DS在注意力机制(Attention)部分也做出了创新。针对传统Attention部分需要计算所有词对之间关联 的特性 ...