曦望董事长徐冰:把大模型推理这件事,做到极致
搜狐财经·2026-01-29 19:35

行业趋势与战略背景 - AI产业正从“训练驱动”转向“推理驱动”,推理更强调长期交付能力、单位成本和系统稳定性 [3] - 到2026年,推理算力占比将达到66%,超过训练 [4] - 智能体、3D生成、视频生成、物理世界AI等多模态复杂场景加速落地,推理需求爆发,竞争焦点转向在真实业务中跑得稳、跑得久、跑得划算 [4] - 推理成本在AI应用中的占比已高达70%,是决定AI公司盈利和商业化的关键,行业未来需将推理成本从“元级”降至“分厘级” [4] - 掌握高效、可控、可持续的推理基础设施,将主导AI的落地速度,并决定国家和企业在AI下半场的竞争力 [3][5] 公司定位与历史沿革 - 曦望是一家更懂AI的GPU芯片公司,也是国内第一家all-in推理的GPU芯片公司 [4] - 公司使命是将大模型推理做到极致 [4] - 公司前身是商汤科技的大芯片部门,成立于2020年,完整经历了从人脸识别、自动驾驶到大模型、多模态、物理AI的整个AI发展周期 [5] - 公司从第一天开始就基于真实业务场景设计芯片,被客户需求打磨 [5] - 2025年全球大模型token消耗量增长了100倍 [5] - 公司团队已超过300人,聚拢了来自英伟达、AMD、昆仑芯、商汤等公司的芯片研发精英,核心技术骨干平均有15年行业经验 [5] 产品技术与研发进展 - 公司正式亮相新一代推理GPU芯片启望S3,并披露围绕推理场景构建的算力产品体系及共建推理云生态计划 [3] - 公司并非简单做又一个GPU,而是从底层架构就为推理场景重新设计,彻底重写 [6] - 公司专为大模型推理场景做架构设计,目标是实现极致的成本效益,设计决策的根本出发点是真实业务场景中每个token的成本、能耗和SLA稳定性 [7] - 公司计划将中国的推理成本拉到“百万token一分钱”的新级别,并将其变成行业新基准 [7] - 过去8年,公司累计投入了20亿研发资金,成功量产了S1和S2芯片,S3已发布,并规划了S4和S5的路径图 [7] - S1和S2证明了公司具备芯片设计、量产和被头部客户应用的能力 [7] - 公司致力于让推理成本下降90%,并提供稳定服务,以重写中国AI产业的损益表,助力全行业盈利增收 [7] 商业模式与生态布局 - 公司不希望只做一家卖芯片的公司,而是围绕推理场景,构建“芯片+系统+生态”的整体布局 [3][8] - 商业模式包括:为产业提供推理GPU卡、一体化服务器、整机、集群方案;与商汤、范式等AI巨头、算力厂商和芯片厂商深度合作,成为现有算力系统的推理分流及成本优化层 [8] - 公司目标是让算力更便宜、部署更简单、生态更开放 [9] - 公司致力于成为推理时代让算力便宜稳定且可用的核心底座,连接底层芯片架构、国家产业政策、云厂商、AI公司及千行百业 [9] 财务与运营里程碑 - 过去一年,公司完成近30亿元的战略融资 [6] - 2025年,公司实现了破万片的芯片交付,收入大幅增长,并拿下了多个头部客户的订单 [6]