未来智造局｜“百万token一分钱” 推理GPU驱动大模型下半场发展

行业趋势：AI发展进入“推理驱动”新阶段 - AI行业正由“训练驱动”迈向“推理驱动”的下半场，推理算力成为决定AI商业化成败的核心要素 [1] - 2026年被业内视为人工智能推理应用爆发元年，德勤预测当年推理算力占AI计算量的比重将达66%，首次超过训练算力 [2] - 随着大模型逐步走向落地，在AI发展从“训练驱动”迈向“推理驱动”的关键阶段，夯实推理算力底座对推动AI服务实体经济具有重要意义 [2] 市场需求与痛点 - 推理成本占据人工智能应用的比例已经高达70%，直接决定了一家人工智能公司能否盈利 [3] - 2025年全球大模型token消耗量增长了近100倍，算力需求爆发式增长与高成本之间的矛盾突出 [4] - 目前多数推理场景沿用训推一体芯片，存在成本高昂、供应不稳定、运维投入大等问题，无法匹配行业爆发式需求 [3] - 当前市场上推理的百万token价格约1到10元，若成本下降一半，应用将大规模爆发；当价格降至0.1元以下时，将引发推理市场全面爆发 [8] 公司战略与产品发布 - 国产AI芯片企业曦望（Sunrise）近日发布了新一代专用推理GPU芯片启望S3，提出“百万词元（token）一分钱”的目标 [1] - 公司从2018年开始研发第一代芯片启望S1，2020年实现量产并落地数万片规模；2023年推出第二代芯片启望S2；近日发布第三代芯片启望S3 [3] - 曦望是国内算力领域首家聚焦于推理GPU的芯片企业 [3] - 公司提出围绕推理场景构建算力体系、共建AI推理平台，探索面向人工智能应用的新型算力服务模式 [1] 产品技术优势与成本目标 - 启望S3从底层架构开始为推理场景重新设计，实现性能、能效与成本的系统性优化，可以满足多模态、智能体等复杂推理需求 [5] - 该芯片通过芯片架构、存储体系和系统协同的全方位优化，实现了十倍以上的推理性价比提升 [5] - 公司目标是将推理成本再降一个数量级，推动“百万token一分钱”成为行业新基准 [5] - 据测算，目前曦望已将每百万token成本降至约0.57元，优于市场平均水平 [5] 生态合作与行业影响 - 曦望提出共建AI推理平台为核心的算力服务新模式，通过与商汤科技、范式智能等合作伙伴协同，提供稳定、可预期的算力服务 [8] - 公司与浙江大学共建“智能计算联合研发中心”，聚焦半导体虚拟制造以及AI在科学计算等领域的应用 [8] - 曦望与杭钢数字、浙江算力科技牵手，将推理基础设施铺向浙江、辐射全国，并与三一重工、游族网络等十几家企业签约，将推理算力嵌入制造、能源、机器人等具体场景 [8] - 国产推理芯片的性价比优势，将推动中国AI应用实现类似移动互联网时代的爆发式增长 [9] - 在国际上，每当百万token的成本降低一倍，市场上出现的应用程序数量就会增加6到8倍 [9] 行业挑战与解决方案 - 目前整个算力服务面临三大挑战：一是资源利用率低，传统架构下GPU闲置率常超过40%；二是适配效率不足；三是运维复杂，硬件问题中75%与GPU相关 [6] - 基于此，曦望联合合作伙伴共同推出推理系统级解决方案，通过自研GPU与软硬件全栈优化，破解行业痛点，提升算力调度效率 [6] - 推理时代的算力竞争不是单点技术比拼，需要构建协同创新、开放融合的产业生态 [2] 未来展望 - 未来十年，中国AI时代的底层根基将是规模化、高性价比的推理基础设施 [1] - 以推理算力为核心、以AI推理平台为载体的新型算力模式，正在成为人工智能时代的重要基础设施形态 [9] - 专用推理芯片的技术突破，将加速芯片与模型的协同创新，推动人工智能商业化落地提速 [7]