行业投资评级 - 投资评级为看好(维持) [1] 核心观点 - Transformer 架构凭借其灵活性和高效性,已成为大模型的主流架构,广泛应用于自然语言处理、图像处理和语音识别等领域 [5] - Transformer 架构通过自注意力机制并行处理序列元素,显著提升了训练速度和长距离依赖建模能力 [5] - 尽管 Transformer 架构具有显著优势,但其计算复杂度和计算成本较高,未来可能面临被全新架构替代或在现有基础上优化的两条发展路径 [5] - 未来 AI 大模型的发展方向可能包括探索全新基础理论和模型架构,或在现有技术框架内深挖潜力,如优化参数高效化、开发更智能的训练方法等 [64] 目录总结 Transformer 架构的过去和现在 - Transformer 架构由 Google Brain 团队于 2017 年提出,通过摒弃传统循环结构,利用自注意力机制并行处理序列元素,显著提升了训练速度和长距离依赖建模能力 [5] - Transformer 架构的灵活性使其成为多模态应用的基础框架,能够将不同模态的数据映射到统一的特征表示空间,促进跨模态应用发展 [5] - 当前 AI 大模型的进化主要依赖于人工版本的更新,未来可能探索自进化的模型,使其能够自我完善和学习 [5] Transformer 架构的未来 - Transformer 架构的局限性在于计算复杂度高和计算成本高,未来可能通过优化注意力机制等方式进行升级,或由全新架构替代 [5] - 潜在替代架构包括 RetNet、Mamba、RWKV、Hyena 和线性注意力机制等,这些架构旨在实现更高的性能、更强的泛化能力和更低的资源消耗 [5] - RetNet 通过多尺度保留机制结合了 RNN 和 Transformer 的优势,显著降低了内存占用和计算成本 [36] - Mamba 结合了 RNN 的循环框架、Transformer 的并行计算和状态空间模型的线性特性,显著提升了长序列处理效率 [38] - RWKV 架构融合了 RNN 和 Transformer 的优势,展现出出色的性能、恒定的显存占用和无限的上下文长度 [47] - Hyena 通过高效的递归定义算子构建了计算复杂度低的注意力替代算法,显著提升了长序列处理速度 [53] - 线性注意力机制通过对传统注意力机制中的 Softmax 操作进行线性化处理,将时间复杂度降低到线性,提升了模型效率 [53] 投资建议 - 短期内 Transformer 架构仍是大模型的主流,建议重点关注基础设施领域的公司,如英伟达、海光信息、寒武纪、中科曙光、浪潮信息等 [64] - 同时建议持续关注全球各大模型厂商和学界的创新进展 [64]
信息技术-计算机行业大模型系列报告(一):Transformer架构的过去、现在和未来
财通证券·2025-01-20 14:15