Workflow
光芯片,即将起飞!
半导体行业观察·2025-06-09 08:53

公众号记得加星标⭐️,第一时间看推送不会错过。 大型语言模型(LLMs)正在迅速逼近当代计算硬件的极限。例如,据估算,训练GPT-3大约消 耗了1300兆瓦时(MWh)的电力,预测显示未来模型可能需要城市级(吉瓦级)的电力预算。 这种需求促使人们探索超越传统冯·诺依曼架构的计算范式。 本综述调查了为下一代生成式AI计算优化的新兴光子硬件。我们讨论了集成光子神经网络架构 (如马赫-曾德干涉仪阵列、激光器、波长复用微环谐振器),这些架构能够实现超高速矩阵运 算。同时,我们也研究了有前景的替代类神经设备,包括脉冲神经网络电路和混合自旋-光子突 触,它们将存储与计算融合在一起。本文还综述了将二维材料(如石墨烯、过渡金属二硫族化合 物,TMDCs)集成进硅基光子平台,用于可调制器和片上突触元件的研究进展。 我 们 在 这 种 硬 件 背 景 下 分 析 了 基 于 Transformer 的 大 型 语 言 模 型 架 构 ( 包 括 自 注 意 力 机 制 和 前 馈 层),指出了将动态矩阵乘法映射到这些新型硬件上的策略与挑战。随后,我们剖析了主流大型语言 模型的内部机制,例如chatGPT、DeepSeek和Lla ...