Dojo芯片

搜索文档
特斯拉,超详细解读Dojo芯片
半导体行业观察· 2025-06-08 09:16
特斯拉Dojo处理器技术 - 特斯拉开发了Stress工具,可在不使核心离线的情况下检测Dojo处理器和集群中的静默数据损坏(SDC)核心,防止数周训练成果被毁[1] - Dojo是目前全球最大的两款晶圆级处理器之一,单个晶圆级处理器包含8,850个核心,采用台积电InFO_SoW技术封装[1][5] - 每个训练块包含25个D1芯片,每个D1芯片有354个64位RISC-V内核,支持4 TB/s片外带宽,整个训练块提供10 TB/s定向带宽[5] 静默数据损坏挑战与解决方案 - Dojo处理器电流消耗达18,000安培,功耗15,000瓦,加剧了SDC风险,单个错误可能导致数周AI训练失败[3] - 初始采用差分模糊测试技术,后改进为每个核心分配0.5 MB随机指令有效载荷,内部交换数据测试4.4 GB指令,效率显著提升[7] - 通过XOR运算将寄存器值集成到SRAM区域,缺陷核心识别率提高10倍,且不影响性能[7] 多层级故障检测能力 - Stress工具可在训练块(12个模块组成)、机柜和集群级别运行,从数百万核心中识别故障核心[9] - 大多数缺陷在1-100 GB指令执行后被发现(耗时几秒至几分钟),难检测缺陷需1,000 GB以上指令(耗时数小时)[9] - 工具轻量级运行,仅禁用故障核心,D1芯片可容忍少数核心禁用而不影响功能[9] 技术延伸与行业影响 - Stress工具发现并修复了设计级缺陷和低级软件问题,缺陷率与Google/Meta相当[11] - 计划将方法扩展至硅片投产前测试阶段,并研究硬件老化导致的性能下降[13] - 台积电预计未来将有更多公司采用其SoIC-SoW晶圆级设计技术[15]
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 23:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]