Workflow
特斯拉,超详细解读Dojo芯片

特斯拉Dojo处理器技术 - 特斯拉开发了Stress工具,可在不使核心离线的情况下检测Dojo处理器和集群中的静默数据损坏(SDC)核心,防止数周训练成果被毁[1] - Dojo是目前全球最大的两款晶圆级处理器之一,单个晶圆级处理器包含8,850个核心,采用台积电InFO_SoW技术封装[1][5] - 每个训练块包含25个D1芯片,每个D1芯片有354个64位RISC-V内核,支持4 TB/s片外带宽,整个训练块提供10 TB/s定向带宽[5] 静默数据损坏挑战与解决方案 - Dojo处理器电流消耗达18,000安培,功耗15,000瓦,加剧了SDC风险,单个错误可能导致数周AI训练失败[3] - 初始采用差分模糊测试技术,后改进为每个核心分配0.5 MB随机指令有效载荷,内部交换数据测试4.4 GB指令,效率显著提升[7] - 通过XOR运算将寄存器值集成到SRAM区域,缺陷核心识别率提高10倍,且不影响性能[7] 多层级故障检测能力 - Stress工具可在训练块(12个模块组成)、机柜和集群级别运行,从数百万核心中识别故障核心[9] - 大多数缺陷在1-100 GB指令执行后被发现(耗时几秒至几分钟),难检测缺陷需1,000 GB以上指令(耗时数小时)[9] - 工具轻量级运行,仅禁用故障核心,D1芯片可容忍少数核心禁用而不影响功能[9] 技术延伸与行业影响 - Stress工具发现并修复了设计级缺陷和低级软件问题,缺陷率与Google/Meta相当[11] - 计划将方法扩展至硅片投产前测试阶段,并研究硬件老化导致的性能下降[13] - 台积电预计未来将有更多公司采用其SoIC-SoW晶圆级设计技术[15]