范式智能&曦望|推出“百万Token一分钱”计划重构大模型推理成本边界

行业现状与挑战 - 当前大模型推理成本是制约AI落地的重要因素主流大模型服务的输入Token价格约为0.4至2元/百万输出Token价格约为1至4元/百万 [3] - 处理长文档、高频交互等场景成本压力显著例如10万字文档的智能总结成本可能超过1元 [3] - 国产算力生态面临模型适配难、资源利用率低等挑战部分场景下GPU利用率不足40% [3] 合作与解决方案 - 范式智能与曦望共同宣布推出“百万Token一分钱”推理成本计划将大模型推理成本降至每百万Token仅需1分钱 [1] - 该计划基于曦望新一代推理GPU芯片启望S3 通过原生支持FP8/FP4低精度推理和定制化架构优化在典型场景下实现单位Token成本降低约90% [3] - 范式智能的PhanthyCloud云服务平台通过HAMi vGPU社区优化资源调度以提升GPU利用率并依托“信创模盒 ModelHub XC”大模型社区解决国产芯片与主流模型的兼容问题 [3] 战略意义与行业影响 - 合作旨在将AI从“奢侈品”变为“日用品” 践行“AI for Everyone”使命助力中小企业、政务机构等以极低成本拥抱智能化 [7] - 此举标志着行业正从“堆参数”转向“拼成本、拼体验” 国产推理芯片已具备支撑产业级应用的成熟度 [7] - 业内专家认为此举有望成为AI基础设施发展的分水岭推动行业从“技术验证”全面迈入“规模应用”新阶段 [9] 公司背景 - 曦望是中国全栈自研AI算力芯片企业专注大模型推理GPU研发 2025年芯片交付量突破万片近一年完成约30亿元战略融资公司前身为商汤科技大芯片部门 [10] - 范式智能是全球领先的通用人工智能科技公司以“AI for Everyone”为使命业务覆盖企业服务、消费电子、智慧能源、智慧体育等领域已在全球落地超10,000个AI应用 [11]