行业趋势:AI发展进入“推理驱动”新阶段 - AI行业正由“训练驱动”迈向“推理驱动”的下半场,推理算力成为决定AI商业化成败的核心要素 [1] - 2026年被业内视为人工智能推理应用爆发元年,德勤预测当年推理算力占AI计算量的比重将达66%,首次超过训练算力 [2] - 随着大模型逐步走向落地,在AI发展从“训练驱动”迈向“推理驱动”的关键阶段,夯实推理算力底座对推动AI服务实体经济具有重要意义 [2] 市场需求与痛点 - 推理成本占据人工智能应用的比例已经高达70%,直接决定了一家人工智能公司能否盈利 [3] - 2025年全球大模型token消耗量增长了近100倍,算力需求爆发式增长与高成本之间的矛盾突出 [4] - 目前多数推理场景沿用训推一体芯片,存在成本高昂、供应不稳定、运维投入大等问题,无法匹配行业爆发式需求 [3] - 当前市场上推理的百万token价格约1到10元,若成本下降一半,应用将大规模爆发;当价格降至0.1元以下时,将引发推理市场全面爆发 [8] 公司战略与产品发布 - 国产AI芯片企业曦望(Sunrise)近日发布了新一代专用推理GPU芯片启望S3,提出“百万词元(token)一分钱”的目标 [1] - 公司从2018年开始研发第一代芯片启望S1,2020年实现量产并落地数万片规模;2023年推出第二代芯片启望S2;近日发布第三代芯片启望S3 [3] - 曦望是国内算力领域首家聚焦于推理GPU的芯片企业 [3] - 公司提出围绕推理场景构建算力体系、共建AI推理平台,探索面向人工智能应用的新型算力服务模式 [1] 产品技术优势与成本目标 - 启望S3从底层架构开始为推理场景重新设计,实现性能、能效与成本的系统性优化,可以满足多模态、智能体等复杂推理需求 [5] - 该芯片通过芯片架构、存储体系和系统协同的全方位优化,实现了十倍以上的推理性价比提升 [5] - 公司目标是将推理成本再降一个数量级,推动“百万token一分钱”成为行业新基准 [5] - 据测算,目前曦望已将每百万token成本降至约0.57元,优于市场平均水平 [5] 生态合作与行业影响 - 曦望提出共建AI推理平台为核心的算力服务新模式,通过与商汤科技、范式智能等合作伙伴协同,提供稳定、可预期的算力服务 [8] - 公司与浙江大学共建“智能计算联合研发中心”,聚焦半导体虚拟制造以及AI在科学计算等领域的应用 [8] - 曦望与杭钢数字、浙江算力科技牵手,将推理基础设施铺向浙江、辐射全国,并与三一重工、游族网络等十几家企业签约,将推理算力嵌入制造、能源、机器人等具体场景 [8] - 国产推理芯片的性价比优势,将推动中国AI应用实现类似移动互联网时代的爆发式增长 [9] - 在国际上,每当百万token的成本降低一倍,市场上出现的应用程序数量就会增加6到8倍 [9] 行业挑战与解决方案 - 目前整个算力服务面临三大挑战:一是资源利用率低,传统架构下GPU闲置率常超过40%;二是适配效率不足;三是运维复杂,硬件问题中75%与GPU相关 [6] - 基于此,曦望联合合作伙伴共同推出推理系统级解决方案,通过自研GPU与软硬件全栈优化,破解行业痛点,提升算力调度效率 [6] - 推理时代的算力竞争不是单点技术比拼,需要构建协同创新、开放融合的产业生态 [2] 未来展望 - 未来十年,中国AI时代的底层根基将是规模化、高性价比的推理基础设施 [1] - 以推理算力为核心、以AI推理平台为载体的新型算力模式,正在成为人工智能时代的重要基础设施形态 [9] - 专用推理芯片的技术突破,将加速芯片与模型的协同创新,推动人工智能商业化落地提速 [7]
未来智造局|“百万token一分钱” 推理GPU驱动大模型下半场发展
新华财经·2026-02-02 16:51