Workflow
Token费用
icon
搜索文档
国产GPU厂商放言:2030年百亿Token只要1分钱
是说芯语· 2026-03-08 11:30
文章核心观点 - AI应用大规模落地的核心瓶颈在于高昂的计算成本,特别是Token费用,行业正致力于通过硬件创新和架构优化,在未来5-10年内将成本降低数个数量级,以推动Agentic AI(代理式人工智能)的普及 [1][3][8] AI应用成本与算力需求 - 2026年初爆火的AI应用OpenClaw消耗Token过多,导致使用成本高昂,许多人难以承受 [1] - 近两个月国产AI大模型的调用量已超越谷歌、OpenAI、Anthropic,主要因其Token费用更便宜,但成本仍需进一步大幅降低 [1] - 随着AI代理执行大规模网络搜索、图像生成和复杂数据分析,全球Token消耗量瞬间飙升了1000倍 [8] - 爆发式的计算需求造成了巨大的算力真空,无论硬件如何扩张,在Agentic AI渗透人类工作的趋势下,算力将长期处于受限状态 [8] 国产芯片发展路线与目标 - 国产GPU初创企业云天励飞提出,未来5到10年全球AI竞争焦点将从“谁最聪明”转向“最能让AI应用大规模落地” [3] - 该公司目标是在“十五五”期间(未来5年)将AI计算成本降低100万倍,目标是到2030年实现百亿Token仅需1分钱 [3] - 公司发布了新一代GPU路线图,将推出名为GPNPU的芯片,该芯片融合GPU与NPU特性,可兼容CUDA,声称仅需一行代码即可完成从GPU到国产芯片的部署迁移 [3] - 公司设计了prefill与decode分离的系统架构:P芯片侧重计算密集,D芯片侧重访存密集,旨在实现极致推理效率与性价比 [3] - 其GPNPU芯片将采用多芯片协同的超节点设计:计划在2026年推出第一代超节点P芯片,算力对标NVIDIA的Hopper架构;2027年推出第一代超节点D芯片,主打超低时延推理,对标NVIDIA的Blackwell架构 [3] - 计划在2028年推出第二代超节点D芯片,对标NVIDIA的Rubin芯片,有望实现毫秒级推理时延 [4] Agentic AI的生态与影响 - NVIDIA CEO黄仁勋将开源软件OpenClaw评价为“当代最重磅的软件发布”,认为其普及速度在短短三周内已超越了Linux过去三十年的成就,成为历史上下载量最大的开源软件 [6] - 黄仁勋将AI生态比作一个“五层蛋糕”,指出OpenClaw所在的应用程序层是目前产出最高、最具回报的领域 [7] - OpenClaw的流行向世界证明了AI可以深入高度个性化的环境,直接解决普通用户和企业的冗余任务 [7] - NVIDIA的下一代架构Vera Rubin将重点针对智能体AI的约束进行优化,通过提升板载显存容量和引入ICMS等平台,致力于解决长上下文处理等核心痛点,市场对其需求预计将非常巨大 [9]