特斯拉,超详细解读Dojo芯片
特斯拉的 Dojo 是目前全球最大的两款处理器之一。这些巨大的晶圆级芯片使用整块 300 毫米晶圆, 这意味着一次性构建更大的计算能力根本不可能。每个 Dojo 晶圆级处理器最多可容纳 8,850 个核 心,但其中一些核心在部署后可能会引发静默数据损坏 (SDC),从而破坏大规模训练运行的结果。 大型处理器 鉴于 Dojo Training Tile(大型晶圆尺寸芯片)的极端复杂性,即使在制造过程中也不容易检测到有 缺陷的芯片,但是当涉及到静默数据损坏(SDC)时,事情会变得更加复杂。 请记住,所有类型的硬件都不可避免地会出现 SDC,但 Dojo 处理器的电流消耗高达 18,000 安培, 功耗高达 15,000 瓦,这会产生影响。不过,所有核心都应该按预期运行,否则特斯拉的 AI 训练将 变得更加复杂,因为数据损坏导致的一个错误就可能使数周的 AI 训练付诸东流。 公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容 编译自 tesla 。 在大型处理器上检测故障核心并将其禁用是一项挑战,但特斯拉开发了 Stress 工具,该工具不仅可 以在 Dojo 处理器上检测容易出现静默数据损坏的核心,还可以 ...