光芯片，一些看法

人工智能基础设施的能源挑战 - 生成式人工智能的迅猛发展导致全球超大规模人工智能集群部署空前加快，数据处理和传输性能的提升导致能耗增加，人工智能基础设施的快速增长带来了严重的能源危机 [1] - 随着数据量的指数级增长，所需的能源供应量也将呈指数级增长，解决这一问题的唯一有效途径是开发一种能够将能源增长与数据增长分离的技术 [1] 硅光子学的潜力与优势 - 光子学具有巨大潜力，光波的传播和干涉无需消耗能量，可通过工程设计实现可扩展功能而无需增加能耗 [3] - 硅光子学在过去二十年得到广泛发展，已完全具备提供近乎理想平台的能力，能够释放其巨大潜力 [3] - 硅光子学能够提供高效的高密度互连，实现高带宽和长距离链路；能够实现低能耗的光路切换，且不受信号带宽限制；以及能够进行光速计算的光子神经网络，从而加速人工智能计算 [3] 光收发器与交换机的能效对比 - 光收发器的能效已经赶上了摩尔定律的步伐，基于硅光子学的近封装/共封装光学器件的能效已经超过了5 pJ/bit [4] - 超大规模数据中心常用的电交换机专用集成电路（ASIC）的能效提升明显缓慢，其可扩展性不如光收发器，瓶颈在于交换机而非收发器 [4] - ASIC交换机的功耗会随着吞吐量的增加而增加，在100Tbps吞吐量下，每个芯片的功耗会超过1000W；而光交换机的功耗则极低且在吞吐量增加的情况下保持稳定 [6] - 使用光交换机替代电交换机越多，系统效率就越高 [6] 光交换机的系统应用与挑战 - 光交换机的一个关键缺点是无法进行数据包处理，而数据包处理正是ASIC交换机的核心功能，光交换机仅作为“光路交换机（OCS）”运行，因此不能简单地替代ASIC交换机 [8] - 为了控制OCS，需要一个控制平面，编排器或操作系统需要了解OCS的状态，并根据系统需求通过控制平面发送命令来控制光交换机，这种系统与依赖ASIC交换机的传统分组系统截然不同 [8] - 使用光通信系统（OCS）需要从零开始重建整个系统，并对架构进行全面优化，目前世界上除了谷歌之外，没有其他公司能够做到这一点 [8] - 在谷歌宣布已在其数据中心和人工智能基础设施中大规模使用OCS之后，光交换机开始得到广泛发展 [8] 大规模硅光子交换机的研发进展 - 日本产业技术综合研究所（AIST）已开始研发大规模硅光子交换机，其开发的硅光子交换机刀片提供32 x 32个严格无阻塞连接，并带有数字控制接口 [9] - 通过配置9级Clos网络，该交换机可扩展至131,072 x 131,072个连接，实验证明，在可组合的解耦基础设施中，这些交换机可以将网络功耗降低75% [9] - 用于制造这些大规模硅光子开关的制造设备是AIST基于标准CMOS技术的内部试验生产线，该技术采用45纳米工艺规则，实现了足够高的均匀性和良率，可以大规模生产包含数千个器件的大规模光子集成电路 [11] 光子神经网络（PNN）的原理与优势 - 基于标准CMOS制造技术的硅光子器件具有高均匀性和高良率，这对于实现光子神经网络（PNN）至关重要 [12] - 在PNN中，集成了大量的马赫-曾德尔干涉仪（MZI），形成网状拓扑结构，并在光域中执行矩阵-向量乘法（MVM） [12] - PNN上的MVM过程本身速度极快，且不消耗能量，可以显著提升人工智能的计算能力，因此期望PNN能够分担GPU等高能耗数字处理器的计算任务 [12] - PNN缺乏良好的非线性激活函数，这是AI计算中另一个重要的功能 [12] 基于光电非线性的PNN模型 - 提出利用电光（EO）非线性效应，仅通过传播即可完成AI计算过程，而无需中间阶段的数字处理，利用马赫-曾德尔干涉仪（MZI）器件可以轻松实现这一点 [12] - 电光非线性具有正弦传递函数，这与传统的激活函数（例如ReLU、Sigmoid和双曲正切函数）截然不同，因此需要寻找适用于PNN的全新人工智能模型 [12] - 已提出并演示了几个基于光电非线性的AI模型，第一个模型包含一个从输入参数空间到更高维空间的非线性投影映射，通过调整MZI的工作点来训练其光电传递函数 [13] - 转换后的光学复空间中的非线性映射数据可以通过寻找超平面进行分离，类似于支持向量机 [13] - 开发的硅光子芯片使用BFO和前向差分两种算法在芯片上进行了训练，展示了它们对多个布尔逻辑进行分类的有效性，以及对鸢尾花数据集的高精度分类 [13] - 该PNN仅通过无源光子电路中信号的物理传播即可完成计算，从而保证了低功耗和低延迟计算 [13] PNN的架构与性能 - 第二个模型是上述模型的级联版本，即“垂直分层光电概率神经网络”，在该模型中，所有光路的长度不会随着层数的增加而增加，从而能够实现更深度学习模型 [16] - 提出的架构中，马赫-曾德尔干涉仪（MZI）作为非线性神经元，将输入数据和反馈信号编码到输入的单频连续波（CW）光上 [18] - 经过训练后，即使对于半损坏的输入模式，也能回忆起存储的模式，这显示了霍普菲尔德网络特有的联想记忆效应 [18] - 对于MNIST、Fashion和KMNIST数据集，三层模型的测试准确率优于两层模型 [14] 流式PNN的通用方案 - 由于运行PNN需要不可忽略的开销，因此必须对整个系统进行彻底评估和整体优化 [20] - PNN的固有优势是低延迟、高速度、低能耗等，为了充分发挥这些优势，PNN作为流式处理器，同时具备电域和光域I/O时，运行效果最佳 [20] 结论与未来展望 - 硅光子技术取得了显著进步，如今在诸多方面展现出巨大的潜力，能够从高密度I/O、带宽无关的电路开关以及光速AI加速器等多个方面提升人工智能基础设施的可持续性 [21] - 然而，将光子功能器件（例如OCS和PNN）引入传统数字基础设施并非易事，因此，未来需要对整体系统设计和实现进行更深入的研究 [21]