AI reasoning models - 财报，业绩电话会，研报，新闻

AI reasoning models

搜索文档

The rise of AI reasoning models comes with a big energy tradeoff

Fortune· 2025-12-06 05:56

行业趋势：AI推理模型成为主流 - 几乎所有领先的AI开发商都在专注于构建模仿人类推理方式的AI模型[1] - 自OpenAI约一年前发布首个推理模型o1以来，许多其他AI公司也发布了类似系统，旨在解决科学、数学和编程等领域的复杂多步骤问题[5] - 推理系统已迅速成为执行更复杂任务的行业规范[6] 研究核心发现：推理模型能耗激增 - AI推理模型在响应1000个书面提示时，平均消耗的电力是未配备或禁用此功能替代方案的30倍[2] - 能耗增加很大程度上是由于推理模型在响应时会生成更多的文本[6] - 研究评估了40个开源、免费的AI模型，包括来自OpenAI、Alphabet旗下谷歌和微软的软件[3] 具体模型能耗数据对比 - 中国初创公司深度求索的R1模型精简版在关闭推理功能时仅消耗50瓦时来响应提示，开启后则需7,626瓦时，能耗差异巨大[3] - 微软的Phi 4推理模型开启推理功能时消耗9,462瓦时，关闭时约为18瓦时[8] - OpenAI最大的gpt-oss模型在计算最密集的“高”设置下开启推理消耗8,504瓦时，在“低”设置下消耗5,313瓦时[8] AI能耗激增的宏观影响 - AI的能源需求飙升已受到越来越多的审视，科技公司竞相建设更多更大的数据中心以支持AI，引发了对电网压力和消费者能源成本上升的担忧[4] - 彭博社9月的一项调查发现，在过去五年中，数据中心附近地区的批发电价上涨了高达267%[4] - 微软、谷歌和亚马逊此前已承认，数据中心的建设可能使其长期气候目标复杂化[4] 行业关注点转移与内部观点 - 关于AI功耗的讨论多集中在用于训练AI系统的大型设施上，但科技公司正将更多资源转向推理，即AI系统训练后的运行过程[9] - 谷歌8月发布的内部研究估计，其Gemini AI服务处理单个文本提示的能耗中位数为0.24瓦时，并称该数字“远低于许多公开估计”[9] - 微软CEO萨提亚·纳德拉表示，行业必须为AI数据中心的使用获得“社会许可”，并利用AI行善和促进广泛经济增长[10] 研究背景与建议 - 该研究由Hugging Face研究科学家Sasha Luccioni和Salesforce Inc. AI可持续发展负责人Boris Gamazaychikov领导的AI Energy Score项目进行[2] - 研究旨在更好地理解AI能源需求的演变，并帮助人们认识到不同类型的AI模型适用于不同的任务，并非每个查询都需要调用计算最密集的AI推理系统[7] - 研究人员建议更智能地使用AI，为正确的任务选择合适的模型很重要[7]

Artificial Intelligence

AI reasoning models

Artificial Intelligence

gpt - oss

Gemini AI service

Artificial Intelligence

AI reasoning models

Artificial Intelligence

gpt - oss

Gemini AI service

NVIDIA Dynamo Open-Source Library Accelerates and Scales AI Reasoning Models

Globenewswire· 2025-03-19 02:17

文章核心观点 - NVIDIA推出开源推理软件Dynamo，可加速和扩展AI推理模型，以最低成本和最高效率运行AI工厂，提高推理性能并降低成本，增加代币收入 [1][3] 产品介绍 - Dynamo是NVIDIA Triton Inference Server™的继任者，可协调和加速跨数千个GPU的推理通信，采用分离式服务优化大语言模型处理和生成阶段，确保GPU资源最大利用率 [3] - 同一数量GPU下，Dynamo使运行Llama模型的AI工厂性能和收入翻倍，运行DeepSeek - R1模型时每GPU生成代币数量提升超30倍 [4] - 具备动态调整GPU、定位特定GPU、卸载推理数据等功能，可提高吞吐量并降低成本 [5] - 完全开源，支持多种框架，可让企业、初创公司和研究人员开发和优化AI模型服务方式，加速AI推理采用 [6] 应用案例 - 映射推理系统内存知识，将新推理请求路由到匹配GPU，避免重复计算，释放GPU响应新请求 [7] - Perplexity AI期待利用Dynamo增强分布式服务能力，提高推理服务效率，满足新AI推理模型计算需求 [8] - Cohere计划用Dynamo为其Command系列模型提供代理AI功能，认为其有助于为企业客户提供优质用户体验 [8][9] - 支持分离式服务，将大语言模型不同计算阶段分配到不同GPU，适用于新NVIDIA Llama Nemotron模型家族，可提高吞吐量和响应速度 [9] - Together AI计划将其推理引擎与Dynamo集成，实现推理工作负载跨GPU节点无缝扩展，动态解决模型管道各阶段流量瓶颈 [10] 关键创新 - GPU Planner：动态添加和移除GPU，适应波动的用户需求，避免GPU过度或供应不足 [14] - Smart Router：引导请求跨大型GPU集群，减少重复或重叠请求的GPU重新计算，释放GPU响应新请求 [14] - Low - Latency Communication Library：支持先进的GPU到GPU通信，抽象异构设备数据交换复杂性，加速数据传输 [14] - Memory Manager：智能地将推理数据卸载和重新加载到低成本内存和存储设备，不影响用户体验 [15] 产品可用性 - 将在NVIDIA NIM™微服务中提供，并在未来版本的NVIDIA AI Enterprise软件平台中得到支持，具备生产级安全、支持和稳定性 [15]

英伟达(US:NVDA)

AI reasoning models

Disaggregated serving

Semiconductor

NVIDIA Dynamo

NVIDIA TensorRT™-LLM

NVIDIA Triton Inference Server™

AI reasoning models

Disaggregated serving

Semiconductor

NVIDIA Dynamo

NVIDIA TensorRT™-LLM

NVIDIA Triton Inference Server™