Workflow
Transformer架构
icon
搜索文档
独家丨理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点Auto· 2025-08-28 11:51
理想汽车自研智驾芯片M100进展 - M100芯片于今年一季度完成样片回片 已通过功能测试和性能测试 目前正进行小批量上样车道路测试 [3] - 1颗M100运行大语言模型计算任务时有效算力相当于2颗英伟达Thor-U 处理卷积神经网络任务时算力可对标3颗英伟达Thor-U [3] - 芯片预计明年量产上车 项目资金预算达数十亿美元 [5] 技术研发战略特点 - 采用软硬结合研发策略 通过软件调度能力提升芯片硬件算力利用率 [5] - 研发涵盖NPU SoC等硬件及软件开发与适配 形成多层解决方案 [5] - CTO谢炎主导研发策略 其拥有编译器技术背景 曾任AliOS首席架构师和华为终端OS部部长 [5] 行业技术发展趋势 - 智驾芯片设计重心从卷积神经网络优化转向对Transformer架构的原生支持 [6] - 需重点优化FP4 FP6等超低精度计算 对芯片架构前瞻性和软硬件联合调优能力提出挑战 [6] 当前芯片供应策略 - 纯电车型全系搭载英伟达Thor-U芯片 包括MEGA i8及规划中的i6车型 [6] - L系列增程车型按AD Max/Pro版本分别采用英伟达Thor-U或地平线征程6M芯片 [7] - 自研芯片核心目的是针对专用算法优化 未来算法锁定后将实现更优效率和成本 [2][7] 项目管控与合作保障 - 近期加强对芯片部门信息管控 保障战略安全并维护与现有供应商合作关系 [5] - 现阶段仍依赖英伟达和地平线作为合作伙伴 因英伟达对新算子支持较好且算力充足 [5][7]
Meta没做的,英伟达做了,全新架构吞吐量狂飙6倍,20万亿Token训练
36氪· 2025-08-19 10:33
产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构 在数学 代码 推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破 用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层 在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别 支持百万级token上下文[10][15] - 模型训练包含三个阶段 首先在20万亿token数据集上预训练120亿参数基础模型 再结合SFT DPO GRPO RLHF等多阶段对齐方法 最后通过Minitron策略进行结构化剪枝与知识蒸馏 将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率 在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型:对齐并剪枝的9B推理模型 经过剪枝的9B基础模型 以及未剪枝的12B基础模型 均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集 包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集(1330亿token) Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集 展示高质量问答数据 数学抽取内容 代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息 擅长长上下文建模但记忆复制能力不足 而Transformer存在O(n²)计算瓶颈 混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
机器之心· 2025-08-18 13:15
模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型,支持本地运行[4][7] - 模型架构延续主流LLM设计,但包含多项优化:移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率,窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本,更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行,120b版本需80GB H100[10][97][99] - 推理工作量分级控制(低/中/高)动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置,专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比:gpt-oss宽度更大(嵌入维度2880vs2048),但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B,但参数量仅一半[107][113] - 两者均采用Apache 2.0许可,但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向,设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构,改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展(如MXFP4)[97][99] - 行业向稀疏化(MoE)、注意力优化(GQA/滑动窗口)方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]
深度|英伟达最新挑战者Cerebras创始人对话谷歌前高管:我们正处于一个无法预测拐点的阶段
Z Potentials· 2025-08-15 11:53
核心观点 - AI芯片公司Cerebras致力于构建全球最快、最大的AI计算硬件,其芯片比已知最大芯片大56倍,专注于加速稀疏线性代数运算以提升AI计算效率[3][8][11] - 行业正经历新一轮半导体、软件和硬件革命,开源生态对初创公司至关重要,Meta和DeepSeek推动OpenAI加入开源模型竞争[6][18][19] - AGI发展受电力供应限制,大型数据中心需1.5吉瓦核电站支持,美国电力基建严重不足[42][45][46] 突破计算极限:Cerebras芯片的创新 - Cerebras的WSE芯片通过整合计算与内存单元,实现比传统芯片快近两个数量级的AI计算速度,特别优化Transformer等模型的矩阵运算[8][11][34] - 芯片设计从底层数学原理出发,专注稀疏线性代数加速,避免专用架构陷阱,在Transformer诞生前已确立技术优势[10][11] - 每token成本以每年10倍速度下降,类比汽车发动机80年演进压缩至5年完成[12][16] 硬件与软件的协同演进 - 硬件需与AI算法协同设计,团队需包含顶尖研究人员预判技术方向,系统级优化涉及I/O结构、提示缓存等工具[11][24] - NVIDIA的CUDA生态形成技术壁垒,但未来五年技术栈可能重构,多种路径并行发展[10][16] - 推理需求呈指数增长,用户日均使用频次从1-2次跃升至20次,驱动计算量爆发[32][33] 全球化竞争与开源战略 - AI竞争呈现中美两极格局,中国通过开源模型在非洲、中亚等地区拓展影响力[18] - 开源使初创公司能以1.5美元/百万token成本对抗封闭模型的100美元定价,推动技术民主化[19] - 智能手机端LLM应用可能改变产业格局,离线场景能力成为新竞争维度[19][20] AGI发展瓶颈与关键指标 - 电力成为核心制约因素,单个数据中心需匹兹堡全市1/3电量(1吉瓦),美国需新建92座核电站满足需求[42][45][46] - 衡量AGI进展的指标尚未标准化,每秒token数反映用户体验,但传统SaaS指标已失效[33][34] - Scaling Law持续生效但拐点未知,强化学习需成千上万倍计算量,行业处于爆发期[28][29][32] AI对齐与安全挑战 - 对齐测试方法在行业共享,但自我改进系统的持续对齐尚未解决,存在信息隐瞒风险[36][37][38] - 安全责任主要由软件和人类团队承担,硬件层作用有限[35][39] - 欧洲可通过国家战略发展主权AI,需培养工程师群体并明确经济优先级[40][41]
GPT5发布标志:以Tranformer为架构的大语言模型即将走到尽头,下一波浪潮在哪?
老徐抓AI趋势· 2025-08-15 11:00
核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变,尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段,GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新(如分层推理模型)或数据类型升级(如视频、传感器数据) [38][41] 发布会观感 - 发布会形式更豪华但信息密度低,CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会,此次更侧重用户体验优化和价格策略 [8] 性能解析 数学能力 - AIME数学邀请赛:GPT-5无工具准确率94.6%,有工具达100%,但o3模型工具辅助下已接近(98.4%) [9][12] - 前沿数学测试:GPT-5从o3的15.8%提升至26.3%,Pro版本达32.1% [12] - HLE人类终极考试:GPT-5 Pro达42%,超越o3(24.3%)和Grok4(41%) [16] - ARC-AGI-2推理测试:GPT-5落后Grok4,显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试:GPT-5以74.9%微弱超越Claude Opus 4.1(74.5%) [21][24] - 调用成本优势:GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显,OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式,需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强,如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶:高质量训练数据预计2027-2028年耗尽,可能提前 [33][37] - 参数见顶:GPT-5参数接近1万亿,进一步增长受限于数据 [37] - 技术曲线放缓:GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新:如清华HRM分层推理模型 [38] - 数据类型升级:视频(YouTube)、传感器数据(特斯拉)构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段,GPT-5成本优势显著 [43] - 若无颠覆性创新,行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点,下一波浪潮或依赖新架构或数据模态 [56]
万字解析DeepSeek MOE架构!
自动驾驶之心· 2025-08-15 07:33
MOE架构基本原理 - MOE全称为混合专家模型 核心思想是使用多个专家FFN替代原Transformer架构中的前馈层 每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成 路由器通过softmax操作选择不同专家的权重 选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略 主要考虑专家并行方案时的通信 计算和存储效率平衡[9][10][14] - 引入容量因子概念 专家容量=(总token数/专家数量)×容量因子 用于控制每个专家处理的token数量 防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案 简单稀疏路由针对单个token选择专家 高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决 使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费 动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略 通过拆分FFN中间隐藏维度增加专家数量 在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制 设置特定共享专家始终激活 用于捕捉通用知识 减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成:共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数 解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略 将每个token的激活专家所在GPU设备数量限制为3个 显著降低通信开销[37] - 新增通信负载均衡损失函数 优化设备间token分配均衡性[38][39] - 采用token丢弃策略 对超过专家容量的token按分值降序丢弃 仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑 特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失 引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数 防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略 通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出 但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型 但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率 体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景 在AI模型中的地位日益重要[3]
千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
机器之心· 2025-08-14 12:57
赛事概况 - 启元实验室于2025年5月20日启动「启智杯」算法创新应用挑战赛,7月25日结束,吸引1022支队伍参赛,覆盖高校、科研院所及科技企业 [1][2] - 三大赛道冠军分别由华南理工大学、陕西师范大学与西北农林科技大学联合团队、中山大学团队获得,技术方案聚焦Transformer架构优化与多模态融合 [2][10][14] 赛道技术亮点 卫星遥感图像鲁棒实例分割 - 赛题聚焦高分辨率遥感图像中复杂目标的像素级分割,挑战包括视角畸变、遮挡干扰和分布外样本(OOD) [6] - 冠军团队「AlexZou14」改进Co-DETR模型,引入多辅助检测头(ATSS Head、RPN Head等)协同训练,结合SAM大模型伪标签提升零样本分割能力,复赛阶段泛化表现突出 [8] 嵌入式平台无人机目标检测 - 赛题需在昇腾310B等端侧平台平衡检测精度与推理效率,复赛评估增加部署稳定性测试 [9] - 冠军团队「断雁无凭」从YOLOv11转向Co-DETR模型,采用RFLA标签分配策略和ATSS采样方法优化小目标检测,梯度检查点技术降低显存占用 [12][13] 多模态大模型对抗挑战 - 赛题围绕视觉问答等任务考察模型抗干扰性,设置20GB模型体积上限与单卡推理限制,复赛转化率达68% [14] - 冠军团队「爱吃猪脚饭」基于Qwen2.5-VL-7B模型,采用课程学习式多任务微调与自适应图像增强预处理,显著提升遥感场景鲁棒性 [16][17] 产业应用价值 - 赛事设计紧贴真实场景:遥感分割应用于地理信息提取与环境监测,无人机检测方案为边缘计算提供参考路径 [20][21] - 技术方案体现工程化潜力:多检测头协同训练、伪监督学习、动态显存调度等策略推动算法落地 [8][12][17] 生态与人才培养 - 赛事促进产学研联动:企业获取前沿研究动向,科研团队验证技术可行性,加速成果转化 [23] - 高强度实战训练提升选手工程化能力,为行业输送复合型AI人才 [22][23]
告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
机器之心· 2025-08-13 17:29
模型架构创新 - 提出BriLLM模型,突破传统Transformer架构限制,采用基于有向图的神经网络设计,模拟人脑全局工作机制[3][9] - 引入信号全连接流动(SiFu)机制,以动态信号传播替代注意力机制,实现节点间信号传递[9][13] - 支持无限上下文处理,模型参数完全独立于序列长度,长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低,摆脱Transformer的平方级复杂度限制,提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模,中文版参数从16.90B缩减至2.19B(缩减率87%),英文版从16.90B缩减至0.96B(缩减率94.3%)[21] - 全模型具备100%可解释性,所有节点及决策流程透明,突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制,静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合,节点可扩展至视觉、听觉、具身交互等模态,无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别,词表扩展至4万时预期参数量100-200B,与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架,直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助,额度500万,聚焦颠覆性基础研究[27]
深聊GPT-5发布:过度营销的反噬与AI技术突破的困局
虎嗅· 2025-08-12 17:05
GPT-5技术评估 - GPT-5未实现颠覆性技术突破,Transformer架构的弱点进一步暴露,包括PPT图表错误、代码bug和理论解释问题[1] - 模型开发遭遇技术瓶颈,最终选择改良架构而非革命性方案,Scaling law面临碰壁[1] - 技术路径上人类仍需寻找突破AI发展瓶颈的新方法[1] 商业化战略 - OpenAI采取激进商业化策略,重点布局教育、健康医疗和编程三大应用场景[1] - 公司通过快速场景落地来稳固市场地位,GPT-5被定位为"合格的AI产品"而非颠覆性创新[1] 行业影响 - GPT-5发布引发对AI泡沫破灭的讨论,行业面临技术创新放缓的质疑[1] - 当前AI发展进入平台期,技术突破速度低于市场预期[1]
国泰海通|产业:AI Agent的技术演进与产业洞察
AI Agent技术演进与产业洞察 核心观点 - AI Agent的未来发展核心在于以大语言模型(LLM)为"大脑"的范式革命,其商业价值通过解决行业痛点的垂直应用和开发平台体现 [1] - AI Agent正在重塑软件开发与人机交互范式,从传统架构演进为以LLM为核心的现代范式,具备自主规划、环境感知与工具调用能力 [1] - 多智能体协作时代开启,多个专业Agent协同解决宏大问题,驱动从上游基础模型到下游应用的完整产业链形成 [1] 技术架构演进 - 传统Agent架构(如审议式和反应式)受限于硬件和预编程规则,自主性与适应性有限 [2] - 2017年Transformer架构的出现为LLM崛起奠定基础,彻底重塑AI Agent设计理念 [2] - 现代LLM-based Agent核心架构由三大模块构成:大脑(LLM)、感知和行动 [2] - LLM-MAS(大语言模型多智能体系统)通过多个专业Agent协作/竞争,解决单个Agent处理超复杂任务的局限性 [2] 产业链格局 - 上游由少数科技巨头掌控,提供基础大模型和算力,主导交互协议制定,抢占生态话语权 [3] - 中游涌现开源开发框架和商业平台,通过低/无代码界面显著降低开发门槛 [3] - 下游应用分为两类: - 通用型Agent:自主完成复杂多步任务 - 垂直型Agent:深度融合行业知识(软件开发/法律/金融/医疗等),展现巨大商业价值 [3] 发展挑战与未来方向 - 当前面临LLM规划推理能力不足、上下文窗口受限、记忆瓶颈、多Agent协同及评估困境等挑战 [3] - 未来依赖基础LLM持续进化、多模态感知能力普及、软硬件生态重构,向AGI迈进 [3]