人工智能模型可靠性

搜索文档
GPU和CPU,发出警告
半导体行业观察· 2025-07-14 09:16
NVIDIA GPUHammer安全漏洞 - NVIDIA敦促客户启用系统级错误纠正码(ECC)以防御针对GPU的RowHammer攻击变体GPUHammer 该攻击首次针对带有GDDR6内存的NVIDIA A6000 GPU 通过触发GPU内存中的位翻转篡改其他用户数据[3] - 多伦多大学研究发现GPUHammer攻击可导致AI模型准确率从80%骤降至1%以下 最严重情况下ImageNet深度神经网络模型准确率从80%降至0 1%[4][5] - 攻击原理源于重复访问内存导致DRAM电气干扰 与CPU的Spectre漏洞不同 RowHammer直接针对DRAM物理行为 而SpecHammer技术已能结合RowHammer和Spectre发起推测性攻击[4] 攻击影响与行业风险 - GPUHammer突破目标刷新率(TRR)等防护措施 在共享GPU环境中可能造成跨租户风险 恶意租户可破坏相邻工作负载的模型参数而不需直接访问[7] - 漏洞威胁延伸至边缘AI部署 自主系统和欺诈检测引擎 其无声腐败特性使故障难以被发现 对医疗 金融等受监管行业可能违反ISO/IEC 27001等合规要求[9][10] - 研究显示启用ECC会使A6000 GPU的ML推理速度降低10% 内存容量减少6 25% 但新型号如H100或RTX 5090因配备片上ECC不受影响[9][10] AMD处理器侧信道漏洞 - AMD披露瞬态调度程序攻击(TSA)影响第三代/第四代EPYC等处理器 包含TSA-L1和TSA-SQ两种变体 可能泄露内核数据导致权限提升[11][15][17] - 攻击需本地执行任意代码 虽实施难度高但趋势科技等仍评定为严重风险 最坏情况可导致操作系统内核信息泄露[11][13][15] - 受影响产品线涵盖EPYC Ryzen Instinct和Athlon系列 建议通过Windows更新缓解 但VERW指令防护可能影响系统性能[18][19] 行业技术趋势 - CrowHammer攻击已能对NIST选定的FALCON后量子签名方案实施密钥恢复 仅需几亿个签名和少量位翻转即可完全恢复密钥[10] - GPU安全态势普遍缺乏CPU级别的防护机制 如奇偶校验和指令级访问控制 使其更易受低级故障注入攻击[5] - 行业需将GPU内存完整性纳入安全审计范围 对高风险工作负载可选择性启用ECC防护 并监控错误日志检测位翻转尝试[9]