Workflow
大规模语言模型
icon
搜索文档
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
机器之心· 2025-05-07 08:33
Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。然而,MoE 虽然显著降低 了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较大挑战。 思考 现有的主流解决方案是专家卸载(Expert Offloading),即将专家模块存储在下层存储设备(如 CPU 内存甚至磁盘)中,在推理时按需加载激活的专家到显存进行 计算。但这一方法存在两大主要缺陷: 本文的核心思考是,在专家卸载方案中,需要将专家模块加载到显存,主要是为了在 GPU 上执行高效的矩阵运算。换句话说,如果专家的计算过程能够绕过矩阵 运算的需求,就可以避免将专家权重加载到显存,从而根本上规避频繁加载带来的开销。直观来看,专家模块本质上是一个神经网络,用于建模输入到输出的映 射。如果能够在推理前预先计算出所有可能的输入 - 输出对应关系,并将其存储为查找表,那么在推理时即可用简单的查找操作代替矩阵运算。 为了解决上述问题,来自北大和华为诺亚的研究人员提出了 Mixture-of-Lo ...
为何都盯上了Chiplet?
半导体行业观察· 2025-02-28 11:08
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 pcwatch ,谢谢。 为什么首先要使用小芯片?从广义上讲,这一切都归结为使用越来越多晶体管的愿望。图1是TSMC session的一份文档,从2018年左右开始,使用大规模语言模型的趋势越来越明显,更高的处理性能 成为必要,特别是在训练这些模型时。话虽如此,大部分的处理都是卷积,虽然计算本身很简单, 但所需的处理量却非常庞大。 幸运的是,这种计算很容易并行化,因此排列多台计算机并同时处理它们比以极快的速度旋转单个 核心要快得多。方法论有很多种,比如采用大规模SIMD或者大规模VLIW,或者将大量小规模 SIMD/VLIW引擎以网状结构排列并以数据流方式运行,甚至可以采用内存计算,但底线是一样的: 排列大量计算单元并运行它们。 如果你尝试排列大量的计算单元,那么你将需要大量的晶体管。图1中的点(和线)表示计算性能 (左轴),竖线表示实际产品中的晶体管数量(右轴)。不难看出,计算能力和晶体管数量的趋势 大致是相互关联的。 然而,不可能无限增加半导体中的晶体管数量。首先,它是建立在直径为 300 毫米的晶圆上,因此 它最大程度上会达到这个直径,而在到 ...