RISC-V如何走向数据中心?谷歌最新分享!
半导体行业观察·2025-12-23 09:18

文章核心观点 - 谷歌以自身从x86成功过渡到ARM架构的经验为蓝图,阐述了将RISC-V集成到其仓库级数据中心基础设施的愿景、机遇与挑战,强调标准化、强大的硬件、全面的测试和社区协作是实现RISC-V规模化应用的关键[1][2][3] 谷歌的异构计算演进路径 - 公司的数据中心架构始于通用x86平台,在2010年代中期开始尝试ARM架构,并于2022年推出Tau T2A ARM实例以及近期推出定制Axion ARM处理器[1] - 目前数据中心已混合部署x86、ARM及包括早期RISC-V组件在内的新兴架构,认为异构性和专业化是克服摩尔定律放缓、实现更高规模效率和性能的关键[1] RISC-V的机遇与标准化挑战 - RISC-V的开放性和定制潜力令人兴奋,但缺乏标准是一把“双刃剑”,需要像RVA23规范和即将发布的RISC-V服务器平台规范这样的基准来确保仓库级部署的兼容性[2] - 谷歌正通过RISC-V国际组织参与QoS和RVA23等标准的制定,并作为RISE项目的创始成员,加速Linux和LLVM的上游开发[3] 从ARM移植中汲取的经验 - 谷歌移植了超过3万个软件包,覆盖了包括YouTube、Spanner和BigQuery在内的主要工作负载,这些负载几乎占其计算资源的一半[2] - 移植过程通过集中协作、自动化和AI生成的变更来实现,为大量工作负载提供了自助服务,实际过渡比预期顺利,开发者担心的工具链崩溃问题大多只是配置、构建路径等“琐碎”小问题[2] - 少数技术问题包括浮点精度差异(通过标准化为float128解决)和一些极少的内存排序错误[2] 人工智能在架构迁移中的关键作用 - 谷歌将其Gemini AI模型应用于4万个ARM移植修改,对其进行分类以便未来自动执行更改[3] - 目前AI代理负责安全、渐进地进行部署,其过程往往难以被团队察觉[3] - 公司通过RISE和RISC-V International,利用Gemini计划的资助金资助学术界人士推进人工智能驱动的移植工作[3] 实现RISC-V仓库级规模的关键要素 - 高性能硬件:需要一款“酷炫的汽车”——即高性能服务器级SoC,至少有64个核心,每个核心支持4GB以上的内存,并优先考虑性能、可靠性和可维护性[3] - 全面测试:遵循内部“碧昂丝法则”(“如果你喜欢它,就应该测试它”),强调关键功能必须经过全面测试以简化多架构移植[3] - 社区协作:需要“朋友们”——即强大的社区协作,以打造“开箱即用、编译运行”的强大软件生态系统[3] - 强制功能:未来的RISC-V超路线图需要标准化规范,并强制包括分支记录(类似英特尔的LBR或ARM的BRBE)、侧信道加固加密和MMU支持等功能以确保安全[3]