曦望发布启望S3推理成本较上一代降约90%,押注「极致性价比」GPU与算力新范式
IPO早知道·2026-01-29 08:15

行业背景与公司战略定位 - AI产业正从“训练驱动”转向“推理驱动”,推理阶段更强调长期交付能力、单位成本和系统稳定性 [2] - 公司(曦望)的战略是围绕推理场景,构建“芯片+系统+生态”的整体布局,而非仅销售芯片 [2] - 公司希望通过推理算力体系的系统性创新,助力AI应用实现规模化落地与可持续增长 [3] 新一代推理芯片“启望S3”的核心性能 - 启望S3是一款面向大模型推理深度定制的GPGPU芯片,定位为“All-in 推理” [4][5] - 相比上一代产品,S3在典型推理场景下的整体性价比提升超过10倍 [5] - S3支持从FP16到FP4的精度自由切换,以提升低精度推理效率 [5] - S3在国内GPGPU产品中率先采用LPDDR6显存方案,显存容量较上一代提升4倍,缓解大模型推理的显存瓶颈 [5] - 在DeepSeek V3/R1满血版等主流大模型推理场景中,S3的单位Token推理成本较上一代降低约90%,实现“百万Token一分钱” [5] 围绕S3构建的算力产品体系 - 公司已构建与CUDA兼容的基础软件体系,支持推理应用低成本迁移,相关能力已覆盖ModelScope平台90%以上的主流大模型形态 [6] - 公司发布了面向大模型推理的寰望SC3-256超节点方案,可适配千亿、万亿级参数的多模态MoE推理场景 [6] - 寰望SC3采用全液冷设计,在同等算力规模下,整体交付成本控制在千万元级别,较行业内同类亿元级方案降低一个数量级 [6] - 公司推出了覆盖PCIe、OAM模组、一体机及AI计算集群在内的S3产品矩阵,覆盖从单机推理到大规模集群部署的多样化需求 [6] 推理云生态与交付模式创新 - 公司推出共建推理云计划,旨在将推理算力从“设备能力”转化为可标准化、可规模化的服务能力 [7][8] - 共建推理云以启望S3为底座,通过GPU池化与弹性调度整合算力资源,以MaaS(Model as a Service)为核心入口提供开箱即用的服务 [9] - 该推理云在千卡级集群场景下可用性达到99.95%,横向扩展效率超过95% [9] - 公司联合商汤科技、第四范式等生态伙伴发起“百万Token一分钱”推理成本计划,标志着大模型推理正从“技术可行”走向“经济可行” [9] 市场进展与产业合作 - 2025年,公司专注于推理GPU的芯片交付量已突破万片 [2][3] - 公司与浙江大学签署战略合作协议,联合成立“智能计算联合研发中心”,围绕光互连GPU超节点架构、计算光刻及AI气象预测等前沿方向展开研究 [10] - 公司与中交信科集团、杭钢数字科技、浙江算力科技、三一集团、协鑫科技等企业达成战略合作,推动推理算力在交通、制造、医疗等行业的落地应用 [10]