曦望发布启望S3推理成本较上一代降约90%，押注「极致性价比」GPU与算力新范式

行业背景与公司战略定位 - AI产业正从“训练驱动”转向“推理驱动”，推理阶段更强调长期交付能力、单位成本和系统稳定性 [2] - 公司（曦望）的战略是围绕推理场景，构建“芯片+系统+生态”的整体布局，而非仅销售芯片 [2] - 公司希望通过推理算力体系的系统性创新，助力AI应用实现规模化落地与可持续增长 [3] 新一代推理芯片“启望S3”的核心性能 - 启望S3是一款面向大模型推理深度定制的GPGPU芯片，定位为“All-in 推理” [4][5] - 相比上一代产品，S3在典型推理场景下的整体性价比提升超过10倍 [5] - S3支持从FP16到FP4的精度自由切换，以提升低精度推理效率 [5] - S3在国内GPGPU产品中率先采用LPDDR6显存方案，显存容量较上一代提升4倍，缓解大模型推理的显存瓶颈 [5] - 在DeepSeek V3/R1满血版等主流大模型推理场景中，S3的单位Token推理成本较上一代降低约90%，实现“百万Token一分钱” [5] 围绕S3构建的算力产品体系 - 公司已构建与CUDA兼容的基础软件体系，支持推理应用低成本迁移，相关能力已覆盖ModelScope平台90%以上的主流大模型形态 [6] - 公司发布了面向大模型推理的寰望SC3-256超节点方案，可适配千亿、万亿级参数的多模态MoE推理场景 [6] - 寰望SC3采用全液冷设计，在同等算力规模下，整体交付成本控制在千万元级别，较行业内同类亿元级方案降低一个数量级 [6] - 公司推出了覆盖PCIe、OAM模组、一体机及AI计算集群在内的S3产品矩阵，覆盖从单机推理到大规模集群部署的多样化需求 [6] 推理云生态与交付模式创新 - 公司推出共建推理云计划，旨在将推理算力从“设备能力”转化为可标准化、可规模化的服务能力 [7][8] - 共建推理云以启望S3为底座，通过GPU池化与弹性调度整合算力资源，以MaaS（Model as a Service）为核心入口提供开箱即用的服务 [9] - 该推理云在千卡级集群场景下可用性达到99.95%，横向扩展效率超过95% [9] - 公司联合商汤科技、第四范式等生态伙伴发起“百万Token一分钱”推理成本计划，标志着大模型推理正从“技术可行”走向“经济可行” [9] 市场进展与产业合作 - 2025年，公司专注于推理GPU的芯片交付量已突破万片 [2][3] - 公司与浙江大学签署战略合作协议，联合成立“智能计算联合研发中心”，围绕光互连GPU超节点架构、计算光刻及AI气象预测等前沿方向展开研究 [10] - 公司与中交信科集团、杭钢数字科技、浙江算力科技、三一集团、协鑫科技等企业达成战略合作，推动推理算力在交通、制造、医疗等行业的落地应用 [10]