AI推理性能 - 财报，业绩电话会，研报，新闻

AI推理性能

搜索文档

36氪· 2026-01-28 09:46

文章核心观点 - 在严格的芯片出口管制倒逼下，国产数据中心AI芯片自主化进程加速，一批公司出货量或订单量已达到万卡级别，市场份额迅速攀升至35%，行业竞争进入“规模化交付验证”新阶段 [1][2] - 国产AI芯片在推理场景寻求突破，部分产品性能已接近或超过英伟达特供版H20，并通过优化致力于大幅降低推理成本，但整体在软件生态适配、先进制程与内存供应方面仍面临挑战 [12][14][11] - 行业未来可能参照光伏产业发展路径，通过激烈竞争跑出具备国际竞争力的企业，但AI芯片的竞争由软件、硬件和生态共同决定，其淘汰机制与光伏产业存在本质差异 [15][16] 国产AI芯片市场规模与份额 - 2025年上半年中国加速服务器（AI芯片）市场规模达160亿美元，出货量超过190万张，其中国产AI芯片市场份额约占35%，英伟达占62%，国产芯片需求增长速度远超英伟达 [2] - 国产AI芯片单价约在3万至20万元人民币每卡不等，出货量或订单量达到万卡规模，表明其性能、稳定性和总拥有成本已获得一定市场认可 [1] - 随着国产AI芯片代工产能提升，预计2026年国产AI推理芯片出货量将迎来一轮爆发式增长 [2] 主要参与者及出货情况 - 华为昇腾与百度昆仑芯是出货规模最大的国产AI芯片，性能突出并已用于部分模型训练场景，IDC数据显示华为昇腾市场份额位居国内第一，百度昆仑芯位居国内第三 [5] - 百度已于2025年2月点亮昆仑芯P800万卡集群，并计划未来点亮三万卡集群，客户包括金融、能源、制造等领域大型企业 [5] - 寒武纪是国内出货量最大的国产AI芯片之一，主要客户包括大型互联网公司、电信运营商和金融机构 [5] - 多家AI芯片创业公司累积出货量已超过万卡：沐曦超过2.5万卡 [8]，天数智芯已交付5.2万枚芯片 [8]，燧原科技AI加速卡及模组合计销量达9.72万张 [9] - 包括曦望、清微智能在内的非上市公司出货量或订单量也已超过万卡：曦望2025年AI芯片交付破万卡 [10]，清微智能截至2026年1月订单量累计超过至少2万卡 [10] 技术路径与产品策略 - 部分国产AI芯片创业公司为追求可用、可控及出货规模，并未采用7nm及以下先进制程和HBM内存，而是采用更成熟且本土产业链能更快量产的12nm工艺和LPDDR内存，价格可低至3万元/卡 [11] - 行业预计2026年-2027年中国市场还会有多款国产AI推理芯片上市，并迎来爆发 [11] - 国产AI芯片公司普遍注重提升推理性能以“榨干”每一枚芯片的Token（词元）生成能力，这是衡量芯片实际推理效率的核心指标 [12] - 曦望公司目标是将百万Tokens的推理成本从2025年的1元人民币降低至1分级别，其下一代启望S3芯片目标推理性能相比上一代提升十倍以上 [13] 性能表现与生态挑战 - 在推理场景，部分国产AI芯片性能表现已接近或超过英伟达特供版H20芯片，例如百度昆仑芯P800、阿里PPU在运行适配优化模型时，Token吞吐效率优于H20 [14] - 国产AI芯片在软件生态层面普遍面临适配慢、适配难的问题，无法像英伟达芯片一样快速适配市面上大部分模型，为国产芯片适配新模型通常需一两个月，导致无法第一时间使用最新模型 [15] - 据业内人士表示，某国产AI芯片在Hugging Face开源社区上适配的模型数量只有几十款，而该社区拥有超过200万款模型 [15] - 国产AI芯片上游受限于芯片代工产能，下游受限于软件生态，其交付稳定性、软件栈成熟度与生态迁移成本将决定“万卡之后”的复购与生存 [16]

Artificial Intelligence

Artificial Intelligence

SemiAnalysis：AMD vs NVIDIA 推理基准测试：谁赢了？--性能与每百万令牌成本分析

2025-05-25 22:09

纪要涉及的行业和公司 - **行业**：数据中心AI GPU行业 - **公司**：AMD、NVIDIA 纪要提到的核心观点和论据性能表现 - **不同工作负载下性能差异**：对于直接拥有并运营GPU的超大规模企业和公司，某些工作负载下英伟达每美元性能更优，其他工作负载中AMD更佳；使用短期至中期租赁服务的客户，通过Neocouds平台租用显卡时，英伟达始终在每美元性能上胜出，原因是缺乏提供AMD M00X、M25X的Neocouds服务商，导致其租赁市场价格居高不下，而英伟达有数百个Neocouds提供相关显卡，租赁市场竞争激烈[6][7]。 - **各型号GPU性能对比** - **M00X**：在大多数测试场景中无法与H200竞争，但对于Lama 05B和DeepSeekv 70B，在绝对性能和每美元性能上击败H100[12]。 - **M25X**：本应是H200的竞争对手，但因发货延迟，多数客户选择B200；在部分场景如高并发下的Llama 70B和Llama 05B测试中有优势，但整体性能受发货时间影响[8][13][74][86]。 - **B200**：软件支持仍未完善，但对于当前可部署的负载和模型占据绝对优势，M25和H200性能远不及它[13]。 - **H200**：解决了H100容量短板，在多数测试中表现出色，采用TensorRT - LLM的H200性能优势明显[22][76][88]。市场份额 - AMD在数据中心AI GPU市场份额自202年第一季度起持续增长，但2025年第一季度因英伟达推出Backwe架构产品，而AMD对标方案要到2025年第三季度面世，市场份额相应下滑，预计2025年第二季度继续下降，不过随着M55X推出和软件改进，有望在年底或明年初重新夺回部分份额[26][27]。基准测试方法论 - **强调在线吞吐量与延迟关系**：为接近现实推理工作负载，强调分析特定配置下在线吞吐量与每位用户端到端延迟的关系，而非传统离线基准测试，通过增加并发用户数测量延迟上升，得出反映实际运营和用户体验的吞吐量指标[30][31]。 - **模型选择**：针对现实世界生产负载的密集架构和稀疏混合专家（MoE）架构模型进行测试，分别选择Lama 70B、Lama 05B和DeepSeekV 70B作为代表[45][46][47]。 - **输入/输出令牌长度**：测试三种不同输入输出令牌长度组合，分别代表摘要、翻译或对话、推理密集型任务，以全面了解模型和硬件在不同推理工作负载下的性能[49][50][51][52]。 - **推理引擎**：针对不同模型选择不同推理引擎，如Lama 70B和05B选vLLM，H200平台额外评估TensorRT - LLM；DeepSeek 70B选SGLang[54][55][59][60]。 - **并行策略**：系统性评估每种GPU架构和测试场景下所有可行的张量并行（TP）配置，测量吞吐量和延迟确定最优并行策略[61][62]。成本分析 - **总拥有成本（TCO）**：AMD的M00X和M25X GPU通常每小时总成本低于NVDA的H100和H200 GPU，但在不同延迟和模型测试场景下，性价比表现不同[110][111]。 - **租赁成本**：在GPU租赁市场，AMD因供应有限、市场竞争不足，租赁价格被抬高，整体成本竞争力削弱，英伟达始终在每美元性能上优于AMD；为使AMD GPU在租赁市场与英伟达竞争，M00X和M25X在不同工作负载下需达到特定租赁价格[158][159][160][167][170][171]。其他重要但可能被忽略的内容 - **生产延迟问题**：AMD的M25X发货延迟，英伟达的GB200 NVL72也因集成NVLink背板挑战和缺乏调试工具遭遇严重延误[24][25]。 - **软件支持问题**：B200和GB200软件支持不完善，如FP8 DeepSeek V在相关推理框架上无法正常运行；AMD的M55X因量产机型未上市、存在未修复缺陷未进行测试[13][172][174]。 - **基准测试阻碍**：服务框架调优参数标志多、文档不足，代码更新快，无法跨机器并行实验，AMD维护独立代码库分支和配置等问题导致基准测试耗时且困难[182][184][185][186]。 - **持续集成测试问题**：AMD的SGLang持续集成（C）测试覆盖率远不及NVDA，有数十项单元测试缺失，影响软件质量和开发者体验[188][189]。 - **模型准确性问题**：AMD在夜间准确性测试方面此前为零，25%的测试模型在AMD平台上准确性测试失败，同一模型在ROCm上运行答案不如在NVDA上智能[194][195]。