曦望董事长徐冰：把大模型推理这件事，做到极致

行业趋势与战略背景 - AI产业正从“训练驱动”转向“推理驱动”，推理更强调长期交付能力、单位成本和系统稳定性 [3] - 到2026年，推理算力占比将达到66%，超过训练 [4] - 智能体、3D生成、视频生成、物理世界AI等多模态复杂场景加速落地，推理需求爆发，竞争焦点转向在真实业务中跑得稳、跑得久、跑得划算 [4] - 推理成本在AI应用中的占比已高达70%，是决定AI公司盈利和商业化的关键，行业未来需将推理成本从“元级”降至“分厘级” [4] - 掌握高效、可控、可持续的推理基础设施，将主导AI的落地速度，并决定国家和企业在AI下半场的竞争力 [3][5] 公司定位与历史沿革 - 曦望是一家更懂AI的GPU芯片公司，也是国内第一家all-in推理的GPU芯片公司 [4] - 公司使命是将大模型推理做到极致 [4] - 公司前身是商汤科技的大芯片部门，成立于2020年，完整经历了从人脸识别、自动驾驶到大模型、多模态、物理AI的整个AI发展周期 [5] - 公司从第一天开始就基于真实业务场景设计芯片，被客户需求打磨 [5] - 2025年全球大模型token消耗量增长了100倍 [5] - 公司团队已超过300人，聚拢了来自英伟达、AMD、昆仑芯、商汤等公司的芯片研发精英，核心技术骨干平均有15年行业经验 [5] 产品技术与研发进展 - 公司正式亮相新一代推理GPU芯片启望S3，并披露围绕推理场景构建的算力产品体系及共建推理云生态计划 [3] - 公司并非简单做又一个GPU，而是从底层架构就为推理场景重新设计，彻底重写 [6] - 公司专为大模型推理场景做架构设计，目标是实现极致的成本效益，设计决策的根本出发点是真实业务场景中每个token的成本、能耗和SLA稳定性 [7] - 公司计划将中国的推理成本拉到“百万token一分钱”的新级别，并将其变成行业新基准 [7] - 过去8年，公司累计投入了20亿研发资金，成功量产了S1和S2芯片，S3已发布，并规划了S4和S5的路径图 [7] - S1和S2证明了公司具备芯片设计、量产和被头部客户应用的能力 [7] - 公司致力于让推理成本下降90%，并提供稳定服务，以重写中国AI产业的损益表，助力全行业盈利增收 [7] 商业模式与生态布局 - 公司不希望只做一家卖芯片的公司，而是围绕推理场景，构建“芯片+系统+生态”的整体布局 [3][8] - 商业模式包括：为产业提供推理GPU卡、一体化服务器、整机、集群方案；与商汤、范式等AI巨头、算力厂商和芯片厂商深度合作，成为现有算力系统的推理分流及成本优化层 [8] - 公司目标是让算力更便宜、部署更简单、生态更开放 [9] - 公司致力于成为推理时代让算力便宜稳定且可用的核心底座，连接底层芯片架构、国家产业政策、云厂商、AI公司及千行百业 [9] 财务与运营里程碑 - 过去一年，公司完成近30亿元的战略融资 [6] - 2025年，公司实现了破万片的芯片交付，收入大幅增长，并拿下了多个头部客户的订单 [6]