Workflow
AI reasoning models
icon
搜索文档
The rise of AI reasoning models comes with a big energy tradeoff
Fortune· 2025-12-06 05:56
行业趋势:AI推理模型成为主流 - 几乎所有领先的AI开发商都在专注于构建模仿人类推理方式的AI模型[1] - 自OpenAI约一年前发布首个推理模型o1以来,许多其他AI公司也发布了类似系统,旨在解决科学、数学和编程等领域的复杂多步骤问题[5] - 推理系统已迅速成为执行更复杂任务的行业规范[6] 研究核心发现:推理模型能耗激增 - AI推理模型在响应1000个书面提示时,平均消耗的电力是未配备或禁用此功能替代方案的30倍[2] - 能耗增加很大程度上是由于推理模型在响应时会生成更多的文本[6] - 研究评估了40个开源、免费的AI模型,包括来自OpenAI、Alphabet旗下谷歌和微软的软件[3] 具体模型能耗数据对比 - 中国初创公司深度求索的R1模型精简版在关闭推理功能时仅消耗50瓦时来响应提示,开启后则需7,626瓦时,能耗差异巨大[3] - 微软的Phi 4推理模型开启推理功能时消耗9,462瓦时,关闭时约为18瓦时[8] - OpenAI最大的gpt-oss模型在计算最密集的“高”设置下开启推理消耗8,504瓦时,在“低”设置下消耗5,313瓦时[8] AI能耗激增的宏观影响 - AI的能源需求飙升已受到越来越多的审视,科技公司竞相建设更多更大的数据中心以支持AI,引发了对电网压力和消费者能源成本上升的担忧[4] - 彭博社9月的一项调查发现,在过去五年中,数据中心附近地区的批发电价上涨了高达267%[4] - 微软、谷歌和亚马逊此前已承认,数据中心的建设可能使其长期气候目标复杂化[4] 行业关注点转移与内部观点 - 关于AI功耗的讨论多集中在用于训练AI系统的大型设施上,但科技公司正将更多资源转向推理,即AI系统训练后的运行过程[9] - 谷歌8月发布的内部研究估计,其Gemini AI服务处理单个文本提示的能耗中位数为0.24瓦时,并称该数字“远低于许多公开估计”[9] - 微软CEO萨提亚·纳德拉表示,行业必须为AI数据中心的使用获得“社会许可”,并利用AI行善和促进广泛经济增长[10] 研究背景与建议 - 该研究由Hugging Face研究科学家Sasha Luccioni和Salesforce Inc. AI可持续发展负责人Boris Gamazaychikov领导的AI Energy Score项目进行[2] - 研究旨在更好地理解AI能源需求的演变,并帮助人们认识到不同类型的AI模型适用于不同的任务,并非每个查询都需要调用计算最密集的AI推理系统[7] - 研究人员建议更智能地使用AI,为正确的任务选择合适的模型很重要[7]
NVIDIA Dynamo Open-Source Library Accelerates and Scales AI Reasoning Models
Globenewswire· 2025-03-19 02:17
文章核心观点 - NVIDIA推出开源推理软件Dynamo,可加速和扩展AI推理模型,以最低成本和最高效率运行AI工厂,提高推理性能并降低成本,增加代币收入 [1][3] 产品介绍 - Dynamo是NVIDIA Triton Inference Server™的继任者,可协调和加速跨数千个GPU的推理通信,采用分离式服务优化大语言模型处理和生成阶段,确保GPU资源最大利用率 [3] - 同一数量GPU下,Dynamo使运行Llama模型的AI工厂性能和收入翻倍,运行DeepSeek - R1模型时每GPU生成代币数量提升超30倍 [4] - 具备动态调整GPU、定位特定GPU、卸载推理数据等功能,可提高吞吐量并降低成本 [5] - 完全开源,支持多种框架,可让企业、初创公司和研究人员开发和优化AI模型服务方式,加速AI推理采用 [6] 应用案例 - 映射推理系统内存知识,将新推理请求路由到匹配GPU,避免重复计算,释放GPU响应新请求 [7] - Perplexity AI期待利用Dynamo增强分布式服务能力,提高推理服务效率,满足新AI推理模型计算需求 [8] - Cohere计划用Dynamo为其Command系列模型提供代理AI功能,认为其有助于为企业客户提供优质用户体验 [8][9] - 支持分离式服务,将大语言模型不同计算阶段分配到不同GPU,适用于新NVIDIA Llama Nemotron模型家族,可提高吞吐量和响应速度 [9] - Together AI计划将其推理引擎与Dynamo集成,实现推理工作负载跨GPU节点无缝扩展,动态解决模型管道各阶段流量瓶颈 [10] 关键创新 - GPU Planner:动态添加和移除GPU,适应波动的用户需求,避免GPU过度或供应不足 [14] - Smart Router:引导请求跨大型GPU集群,减少重复或重叠请求的GPU重新计算,释放GPU响应新请求 [14] - Low - Latency Communication Library:支持先进的GPU到GPU通信,抽象异构设备数据交换复杂性,加速数据传输 [14] - Memory Manager:智能地将推理数据卸载和重新加载到低成本内存和存储设备,不影响用户体验 [15] 产品可用性 - 将在NVIDIA NIM™微服务中提供,并在未来版本的NVIDIA AI Enterprise软件平台中得到支持,具备生产级安全、支持和稳定性 [15]