Workflow
GPGPU
icon
搜索文档
细化分析为啥李想之前说M100芯片可随AI一起进化
理想TOP2· 2026-05-03 23:51
M100数据流架构的核心设计理念 - 马赫100采用的数据流架构是为AI原生设计的芯片架构 其核心是由数据驱动 计算单元之间直接传输数据 执行效率更高 带来更高的有效算力 而传统GPGPU由指令驱动 数据在计算单元和全局内存之间反复搬运 规模越大瓶颈越大 [1] - 该架构是完全可编程的 并非将算法固化的ASIC 具备适应AI进化的灵活性 这与特斯拉FSD采用的DSA(领域定制架构)不同 DSA将特定神经网络操作硬连线成固定硬件流水线 虽对特定算法效率高 但难以高效适配新的网络结构 [1] M100的硬件架构与可编程性边界 - M100的软硬件契约建立在张量层面 硬件包含14个张量处理块集群 共计56个张量处理块 采用分层总线架构互连 硬件本身不识别具体网络 只负责执行张量级别的计算和搬运指令 [2] - 复杂的、随算法变化的执行逻辑交由分层编译器中的空时调度器处理 该调度器在空间(分配计算块)和时间(流水线阶段)维度上对神经网络进行重新映射和切分 算法进化时 仅需编译器重新生成编排方案 无需改变硬件物理结构 [2] - 其完全可编程性是指张量粒度上的可编程 而非GPGPU的任意计算粒度可编程 物理层面 硬件资源主要倾斜于规则的张量与向量计算 无法张量化的高度不规则细粒度计算由内置的轻量级RISC-V CPU核处理 若未来AI模型关键路径严重依赖此类计算 CPU可能成为算力瓶颈 [2] - 逻辑层面 M100的高效执行依赖编译器对数据流图进行提前的空时编排 这要求计算图相对静态和可预测 若算法演进出高度动态的控制流 编译器将无法提前规划 其优势便无从发挥 [3] 数据流架构的执行机制与效率优势 - M100放弃了传统GPGPU的多级缓存机制 改用显式管理的片上SRAM与可编程DMA 所有数据搬运的路径、时机和目的地址均由编译器提前规划 运行时不再依赖硬件的缓存命中猜测 [4] - 在执行层面 中央控制块通过指令链总线广播张量指令 各张量处理块收到指令后不立即执行 而是等待数据就绪 硬件级同步计数器记录上游进度 下游单元确认数据就绪后才启动计算 计算触发权下放给了数据就绪状态 [4] - 计算单元间直接传输数据的实现方式是:在张量处理块内部 功能单元通过高带宽共享内存交换数据;在块之间 则通过片上总线进行点对点或广播式传输 所有数据搬运路径由编译器提前规划 无GPGPU的自动缓存嗅探机制 [4] - 该架构之所以比GPGPU高效 并非因为搬运距离更短 而是因为运行时数据搬运路径无猜测 且计算由数据就绪状态触发 计算与搬运在时间上高度重叠 从而带来更高的有效算力 [5] 数据流架构的适用前提与未来适应性 - M100的高效与灵活均建立在一个核心前提之上:AI推理仍以规则的张量计算为基本单位 且计算图相对静态、可预测 [5] - 只要AI推理以规则张量计算为基础 无论是参数量更大的Transformer 还是引入MoE的MindVLA M100都能通过编译器重新编排来消化 [3] - 一旦AI范式偏离张量计算这个基础 M100虽仍能通过内部CPU与Gather-Scatter DMA降级处理 但其数据流架构的效率优势会被显著削弱 [3]