DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!
机器之心·2026-03-16 11:53

行业背景与痛点 - 大模型赛道竞争激烈,新模型以近乎周更的速度涌现,如GPT、Llama、Gemma、Mistral、DeepSeek、Qwen、Kimi、GLM、MiniMax等 [2] - 模型架构创新繁多,但理解困难,主要由于不同论文的模型结构图风格各异、模块命名不统一 [2] - 行业缺乏一张清晰、统一的大模型架构图来对比和理解不同模型的关键改动 [2] “LLM Architecture Gallery”项目介绍 - AI研究者Sebastian Raschka创建了在线图谱“LLM Architecture Gallery”,旨在绘制和整理过去几年主流大模型的结构 [3] - 该项目汇集了其两篇博客《The LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》的内容 [6] - 该网站页面结构类似于大模型名录,汇集了大量主流模型系列,包括Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM等 [7] - 图谱覆盖的模型参数规模范围广泛,从几亿参数的小模型到千亿乃至万亿级模型 [7] 项目功能与价值 - 用户点击任意模型名称(如DeepSeek R1)即可链接到对应的详细模型卡页面 [9] - 每张模型卡展示该模型的核心架构图、关键模块设计、参数规模、发布时间、相关概念等基本信息 [11] - 该图谱将Gemma、Llama等一系列主流模型纳入其中,提供统一的视觉框架,便于快速理解模型结构 [14] - 对于研究者而言,该图谱相当于一份可快速查阅的大模型架构索引,支持在一个页面内浏览和对比不同模型的设计思路与关键创新点 [14] - 该工具能帮助研究者更高效地理解技术演化路径,并为后续的研究和模型设计提供参考 [14]