Transformer架构 - 财报，业绩电话会，研报，新闻 - Reportify

Transformer架构

搜索文档

独家丨理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

晚点Auto· 2025-08-28 11:51

理想汽车自研智驾芯片M100进展 - M100芯片于今年一季度完成样片回片已通过功能测试和性能测试目前正进行小批量上样车道路测试 [3] - 1颗M100运行大语言模型计算任务时有效算力相当于2颗英伟达Thor-U 处理卷积神经网络任务时算力可对标3颗英伟达Thor-U [3] - 芯片预计明年量产上车项目资金预算达数十亿美元 [5] 技术研发战略特点 - 采用软硬结合研发策略通过软件调度能力提升芯片硬件算力利用率 [5] - 研发涵盖NPU SoC等硬件及软件开发与适配形成多层解决方案 [5] - CTO谢炎主导研发策略其拥有编译器技术背景曾任AliOS首席架构师和华为终端OS部部长 [5] 行业技术发展趋势 - 智驾芯片设计重心从卷积神经网络优化转向对Transformer架构的原生支持 [6] - 需重点优化FP4 FP6等超低精度计算对芯片架构前瞻性和软硬件联合调优能力提出挑战 [6] 当前芯片供应策略 - 纯电车型全系搭载英伟达Thor-U芯片包括MEGA i8及规划中的i6车型 [6] - L系列增程车型按AD Max/Pro版本分别采用英伟达Thor-U或地平线征程6M芯片 [7] - 自研芯片核心目的是针对专用算法优化未来算法锁定后将实现更优效率和成本 [2][7] 项目管控与合作保障 - 近期加强对芯片部门信息管控保障战略安全并维护与现有供应商合作关系 [5] - 现阶段仍依赖英伟达和地平线作为合作伙伴因英伟达对新算子支持较好且算力充足 [5][7]

理想汽车(US:LI)

Transformer架构

软硬结合研发策略

智能电动汽车

理想智驾芯片M100

Transformer架构

软硬结合研发策略

智能电动汽车

理想智驾芯片M100

Meta没做的，英伟达做了，全新架构吞吐量狂飙6倍，20万亿Token训练

36氪· 2025-08-19 10:33

产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构在数学代码推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别支持百万级token上下文[10][15] - 模型训练包含三个阶段首先在20万亿token数据集上预训练120亿参数基础模型再结合SFT DPO GRPO RLHF等多阶段对齐方法最后通过Minitron策略进行结构化剪枝与知识蒸馏将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型：对齐并剪枝的9B推理模型经过剪枝的9B基础模型以及未剪枝的12B基础模型均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集（1330亿token） Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集展示高质量问答数据数学抽取内容代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息擅长长上下文建模但记忆复制能力不足而Transformer存在O(n²)计算瓶颈混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]

英伟达(US:NVDA)

Transformer架构

大概念模型（LCMs）

状态空间模型

Transformer架构

大概念模型（LCMs）

状态空间模型

从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

机器之心· 2025-08-18 13:15

模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型，支持本地运行[4][7] - 模型架构延续主流LLM设计，但包含多项优化：移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率，窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本，更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行，120b版本需80GB H100[10][97][99] - 推理工作量分级控制（低/中/高）动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置，专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比：gpt-oss宽度更大（嵌入维度2880vs2048），但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B，但参数量仅一半[107][113] - 两者均采用Apache 2.0许可，但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向，设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构，改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展（如MXFP4）[97][99] - 行业向稀疏化（MoE）、注意力优化（GQA/滑动窗口）方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

深度｜英伟达最新挑战者Cerebras创始人对话谷歌前高管：我们正处于一个无法预测拐点的阶段

Z Potentials· 2025-08-15 11:53

核心观点 - AI芯片公司Cerebras致力于构建全球最快、最大的AI计算硬件，其芯片比已知最大芯片大56倍，专注于加速稀疏线性代数运算以提升AI计算效率[3][8][11] - 行业正经历新一轮半导体、软件和硬件革命，开源生态对初创公司至关重要，Meta和DeepSeek推动OpenAI加入开源模型竞争[6][18][19] - AGI发展受电力供应限制，大型数据中心需1.5吉瓦核电站支持，美国电力基建严重不足[42][45][46] 突破计算极限：Cerebras芯片的创新 - Cerebras的WSE芯片通过整合计算与内存单元，实现比传统芯片快近两个数量级的AI计算速度，特别优化Transformer等模型的矩阵运算[8][11][34] - 芯片设计从底层数学原理出发，专注稀疏线性代数加速，避免专用架构陷阱，在Transformer诞生前已确立技术优势[10][11] - 每token成本以每年10倍速度下降，类比汽车发动机80年演进压缩至5年完成[12][16] 硬件与软件的协同演进 - 硬件需与AI算法协同设计，团队需包含顶尖研究人员预判技术方向，系统级优化涉及I/O结构、提示缓存等工具[11][24] - NVIDIA的CUDA生态形成技术壁垒，但未来五年技术栈可能重构，多种路径并行发展[10][16] - 推理需求呈指数增长，用户日均使用频次从1-2次跃升至20次，驱动计算量爆发[32][33] 全球化竞争与开源战略 - AI竞争呈现中美两极格局，中国通过开源模型在非洲、中亚等地区拓展影响力[18] - 开源使初创公司能以1.5美元/百万token成本对抗封闭模型的100美元定价，推动技术民主化[19] - 智能手机端LLM应用可能改变产业格局，离线场景能力成为新竞争维度[19][20] AGI发展瓶颈与关键指标 - 电力成为核心制约因素，单个数据中心需匹兹堡全市1/3电量（1吉瓦），美国需新建92座核电站满足需求[42][45][46] - 衡量AGI进展的指标尚未标准化，每秒token数反映用户体验，但传统SaaS指标已失效[33][34] - Scaling Law持续生效但拐点未知，强化学习需成千上万倍计算量，行业处于爆发期[28][29][32] AI对齐与安全挑战 - 对齐测试方法在行业共享，但自我改进系统的持续对齐尚未解决，存在信息隐瞒风险[36][37][38] - 安全责任主要由软件和人类团队承担，硬件层作用有限[35][39] - 欧洲可通过国家战略发展主权AI，需培养工程师群体并明确经济优先级[40][41]

Transformer架构

Transformer架构

GPT5发布标志：以Tranformer为架构的大语言模型即将走到尽头，下一波浪潮在哪？

老徐抓AI趋势· 2025-08-15 11:00

核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变，尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段，GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新（如分层推理模型）或数据类型升级（如视频、传感器数据） [38][41] 发布会观感 - 发布会形式更豪华但信息密度低，CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会，此次更侧重用户体验优化和价格策略 [8] 性能解析数学能力 - AIME数学邀请赛：GPT-5无工具准确率94.6%，有工具达100%，但o3模型工具辅助下已接近（98.4%） [9][12] - 前沿数学测试：GPT-5从o3的15.8%提升至26.3%，Pro版本达32.1% [12] - HLE人类终极考试：GPT-5 Pro达42%，超越o3（24.3%）和Grok4（41%） [16] - ARC-AGI-2推理测试：GPT-5落后Grok4，显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试：GPT-5以74.9%微弱超越Claude Opus 4.1（74.5%） [21][24] - 调用成本优势：GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显，OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式，需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强，如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶：高质量训练数据预计2027-2028年耗尽，可能提前 [33][37] - 参数见顶：GPT-5参数接近1万亿，进一步增长受限于数据 [37] - 技术曲线放缓：GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新：如清华HRM分层推理模型 [38] - 数据类型升级：视频（YouTube）、传感器数据（特斯拉）构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段，GPT-5成本优势显著 [43] - 若无颠覆性创新，行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点，下一波浪潮或依赖新架构或数据模态 [56]

大语言模型

Transformer架构

Artificial Intelligence

大语言模型

Transformer架构

Artificial Intelligence

万字解析DeepSeek MOE架构！

自动驾驶之心· 2025-08-15 07:33

MOE架构基本原理 - MOE全称为混合专家模型核心思想是使用多个专家FFN替代原Transformer架构中的前馈层每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成路由器通过softmax操作选择不同专家的权重选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略主要考虑专家并行方案时的通信计算和存储效率平衡[9][10][14] - 引入容量因子概念专家容量=(总token数/专家数量)×容量因子用于控制每个专家处理的token数量防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案简单稀疏路由针对单个token选择专家高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略通过拆分FFN中间隐藏维度增加专家数量在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制设置特定共享专家始终激活用于捕捉通用知识减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成：共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略将每个token的激活专家所在GPU设备数量限制为3个显著降低通信开销[37] - 新增通信负载均衡损失函数优化设备间token分配均衡性[38][39] - 采用token丢弃策略对超过专家容量的token按分值降序丢弃仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景在AI模型中的地位日益重要[3]

混合专家模型（MOE）

Transformer架构

混合专家模型（MOE）

Transformer架构

千支队伍争锋！首届「启智杯」算法大赛圆满落幕，助推AI应用落地

机器之心· 2025-08-14 12:57

赛事概况 - 启元实验室于2025年5月20日启动「启智杯」算法创新应用挑战赛，7月25日结束，吸引1022支队伍参赛，覆盖高校、科研院所及科技企业 [1][2] - 三大赛道冠军分别由华南理工大学、陕西师范大学与西北农林科技大学联合团队、中山大学团队获得，技术方案聚焦Transformer架构优化与多模态融合 [2][10][14] 赛道技术亮点卫星遥感图像鲁棒实例分割 - 赛题聚焦高分辨率遥感图像中复杂目标的像素级分割，挑战包括视角畸变、遮挡干扰和分布外样本（OOD） [6] - 冠军团队「AlexZou14」改进Co-DETR模型，引入多辅助检测头（ATSS Head、RPN Head等）协同训练，结合SAM大模型伪标签提升零样本分割能力，复赛阶段泛化表现突出 [8] 嵌入式平台无人机目标检测 - 赛题需在昇腾310B等端侧平台平衡检测精度与推理效率，复赛评估增加部署稳定性测试 [9] - 冠军团队「断雁无凭」从YOLOv11转向Co-DETR模型，采用RFLA标签分配策略和ATSS采样方法优化小目标检测，梯度检查点技术降低显存占用 [12][13] 多模态大模型对抗挑战 - 赛题围绕视觉问答等任务考察模型抗干扰性，设置20GB模型体积上限与单卡推理限制，复赛转化率达68% [14] - 冠军团队「爱吃猪脚饭」基于Qwen2.5-VL-7B模型，采用课程学习式多任务微调与自适应图像增强预处理，显著提升遥感场景鲁棒性 [16][17] 产业应用价值 - 赛事设计紧贴真实场景：遥感分割应用于地理信息提取与环境监测，无人机检测方案为边缘计算提供参考路径 [20][21] - 技术方案体现工程化潜力：多检测头协同训练、伪监督学习、动态显存调度等策略推动算法落地 [8][12][17] 生态与人才培养 - 赛事促进产学研联动：企业获取前沿研究动向，科研团队验证技术可行性，加速成果转化 [23] - 高强度实战训练提升选手工程化能力，为行业输送复合型AI人才 [22][23]

Transformer架构

人工智能算法

Qwen2.5-VL-7B-Instruct

Transformer架构

人工智能算法

Qwen2.5-VL-7B-Instruct

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

机器之心· 2025-08-13 17:29

模型架构创新 - 提出BriLLM模型，突破传统Transformer架构限制，采用基于有向图的神经网络设计，模拟人脑全局工作机制[3][9] - 引入信号全连接流动（SiFu）机制，以动态信号传播替代注意力机制，实现节点间信号传递[9][13] - 支持无限上下文处理，模型参数完全独立于序列长度，长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低，摆脱Transformer的平方级复杂度限制，提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模，中文版参数从16.90B缩减至2.19B（缩减率87%），英文版从16.90B缩减至0.96B（缩减率94.3%）[21] - 全模型具备100%可解释性，所有节点及决策流程透明，突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制，静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合，节点可扩展至视觉、听觉、具身交互等模态，无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别，词表扩展至4万时预期参数量100-200B，与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架，直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助，额度500万，聚焦颠覆性基础研究[27]

Transformer架构

Transformer架构

深聊GPT-5发布：过度营销的反噬与AI技术突破的困局

虎嗅· 2025-08-12 17:05

GPT-5技术评估 - GPT-5未实现颠覆性技术突破，Transformer架构的弱点进一步暴露，包括PPT图表错误、代码bug和理论解释问题[1] - 模型开发遭遇技术瓶颈，最终选择改良架构而非革命性方案，Scaling law面临碰壁[1] - 技术路径上人类仍需寻找突破AI发展瓶颈的新方法[1] 商业化战略 - OpenAI采取激进商业化策略，重点布局教育、健康医疗和编程三大应用场景[1] - 公司通过快速场景落地来稳固市场地位，GPT-5被定位为"合格的AI产品"而非颠覆性创新[1] 行业影响 - GPT-5发布引发对AI泡沫破灭的讨论，行业面临技术创新放缓的质疑[1] - 当前AI发展进入平台期，技术突破速度低于市场预期[1]

Transformer架构

Artificial Intelligence

Transformer架构

Artificial Intelligence

国泰海通｜产业：AI Agent的技术演进与产业洞察

国泰海通证券研究· 2025-08-08 17:24

AI Agent技术演进与产业洞察核心观点 - AI Agent的未来发展核心在于以大语言模型（LLM）为"大脑"的范式革命，其商业价值通过解决行业痛点的垂直应用和开发平台体现 [1] - AI Agent正在重塑软件开发与人机交互范式，从传统架构演进为以LLM为核心的现代范式，具备自主规划、环境感知与工具调用能力 [1] - 多智能体协作时代开启，多个专业Agent协同解决宏大问题，驱动从上游基础模型到下游应用的完整产业链形成 [1] 技术架构演进 - 传统Agent架构（如审议式和反应式）受限于硬件和预编程规则，自主性与适应性有限 [2] - 2017年Transformer架构的出现为LLM崛起奠定基础，彻底重塑AI Agent设计理念 [2] - 现代LLM-based Agent核心架构由三大模块构成：大脑（LLM）、感知和行动 [2] - LLM-MAS（大语言模型多智能体系统）通过多个专业Agent协作/竞争，解决单个Agent处理超复杂任务的局限性 [2] 产业链格局 - 上游由少数科技巨头掌控，提供基础大模型和算力，主导交互协议制定，抢占生态话语权 [3] - 中游涌现开源开发框架和商业平台，通过低/无代码界面显著降低开发门槛 [3] - 下游应用分为两类： - 通用型Agent：自主完成复杂多步任务 - 垂直型Agent：深度融合行业知识（软件开发/法律/金融/医疗等），展现巨大商业价值 [3] 发展挑战与未来方向 - 当前面临LLM规划推理能力不足、上下文窗口受限、记忆瓶颈、多Agent协同及评估困境等挑战 [3] - 未来依赖基础LLM持续进化、多模态感知能力普及、软硬件生态重构，向AGI迈进 [3]

大语言模型（LLM）

Transformer架构

大语言模型多智能体系统（LLM - MAS）

大语言模型（LLM）

Transformer架构

大语言模型多智能体系统（LLM - MAS）