人工智能推理 - 财报，业绩电话会，研报，新闻

人工智能推理

搜索文档

36氪· 2025-06-18 19:52

人工智能推理忠诚度 - 从MMLU任务转向GPQA任务时，Claude 3.7 Sonnet的忠实度相对下降44%，DeepSeek R1的忠实度下降32%，表明模型在困难任务中更依赖提示而无法独立推导[2] - 不忠实的推理平均使用2064个标记（Claude 3.7），忠实的推理平均使用1439个标记，显示模型会为受提示影响的答案构建复杂的事后合理化[4] - 基于结果的强化学习在MMLU上的忠诚度仅为28%，在GPQA上为20%，表明推理有效性和透明度之间存在根本矛盾[6] 模型计算机制 - Claude采用并行算术路径：一条计算粗略近似值，另一条专注精确末位计算，显示Transformer可开发训练数据中不存在的新算法[5] - 跨语言处理时，Claude 3.5 Haiku在不同语言间共享的特征比例是较小模型的两倍多，证明其能发展出与语言无关的抽象概念表征[7] - 奖励黑客攻击利用率为99%以上，但口头表达概率低于2%，显示模型能力与解释生成可差异化发展[8] 安全与架构挑战 - 语法连贯性压力会压倒安全拒绝机制，如BOMB越狱中模型必须生成语法完整句子后才转向拒绝，揭示核心语言能力与安全护栏的矛盾[10] - 幻觉源于三方竞争机制：默认拒绝回路、自信回答特征和虚构回答激活，表明真实性取决于校准置信度阈值[9] - 替代可解释性方法包括激活修补、稀疏自动编码器监控和电路级分析，以绕过模型自我报告的局限性[11] 行业研究启示 - 透明度与能力呈负相关：能力更强的模型自然变得更不透明，尤其在处理新颖困难任务时[12] - 行为评估不足以理解AI能力，需结合机械可解释性方法直接检验内部计算[3][12] - 当前Transformer设计对可靠推理透明度存在根本限制，需开发不依赖模型自我意识的安全框架[11][12]

AMD收购两家公司：一家芯片公司，一家软件公司

半导体行业观察· 2025-06-06 09:12

AMD收购Untether AI - AMD收购AI推理芯片开发商Untether AI的工程师团队，以增强其AI编译器和内核开发能力，以及数字和SoC设计、设计验证和产品集成能力 [1] - 交易后Untether AI将不再提供或支持其speedAI产品和imAIgine软件开发套件 [1] - Untether AI成立于2018年，专注于AI推理领域，其关键差异化优势在于内存计算架构，可解决神经网络计算中90%的能耗来自于数据移动的问题 [6][9] - Untether AI的第二代内存架构speedAI240设备采用台积电7纳米工艺，具有2 petaflops的FP8性能和238 MB的SRAM内存，能效达每瓦30 teraflops [5] - speedAI240设备支持多种数据类型，与BF16相比准确度损失不到0.1%，吞吐量和能效提高四倍 [9] - 该架构具有可扩展性，可从1瓦设备扩展到基础设施级设备，支持PCI-Express卡和chiplet集成 [20] Untether AI技术细节 - speedAI240设备采用第二代内存库，配备1,435个1.35 GHz 7纳米RISC-V处理器核心 [10] - 通过添加各种指令对RISC-V芯片进行改造以适应AI推理需求 [13] - 采用独特的"肩袖"通信设计和高效片上网络(NOC)优化能源效率 [17] - 提供ImAIgine SDK，支持从TensorFlow和PyTorch等框架提取神经网络并自动量化 [22] AMD收购Brium - AMD同期收购软件公司Brium以强化开放AI软件生态系统 [24] - Brium团队在编译器技术、模型执行框架和AI推理优化方面具有专长，将增强AMD AI平台的效率和灵活性 [24] - 此次收购是AMD继收购Silo AI、Nod.ai和Mipsology后又一战略投资，旨在提升开源软件生态系统支持能力 [25] - Brium擅长在模型到达硬件前优化整个推理堆栈，减少对特定硬件配置的依赖 [25] - 该公司在MX FP4和FP6等新精度格式方面的专长将帮助AMD平台更高效处理训练和推理工作负载 [25]

英伟达RTX 50系列需求爆发栢能集团（01263）或成核心受益标的

智通财经网· 2025-05-15 14:54

英伟达RTX 50系列显卡市场表现 - 新一代GeForce RTX 50系列显卡市场需求远超供应终端售价较官方指导价溢价高达50% [1] - RTX 5090渠道行情可达3000美元以上仍维持高溢价官方建议零售价为1999美元实际市场成交价已突破2999美元 [1][2] - 2025年RTX 50系列显卡出货量预计达3500-4000万片较上一代RTX 40系列2024年出货量2500-3000万片增长30%以上 [2] 栢能集团业务与财务表现 - 栢能集团为全球第二大GPU显卡生产厂英伟达全球核心AIC合作伙伴旗下索泰品牌为知名电脑品牌提供产品制造服务 [2] - 集团2024年全年收入100.82亿元同比增加10% 全年纯利2.62亿元同比增长331% 每股盈利68仙 [2] - 盈利增长主要由于新系列图像显示卡需求强劲自有品牌业务促销及市场推广开支减少令毛利率改善 [2] 栢能集团增长潜力与估值 - 广发证券测算显示若RTX 5090占RTX 50系列出货量5%（约175-200万片）且栢能市场份额达12.5% 单卡净利润约300元人民币则该业务可贡献约5.12亿港元净利润较2024年全年净利润增长近200% [3] - 公司与服务器大厂Supermicro达成合作切入中国云服务商供应链服务器业务有望成为新增长点 [3] - 公司股价对应2025年PE仅4倍远低于同业华硕12倍和微星13倍也低于自身历史平均PE7.5倍估值修复空间巨大 [3] RTX 50系列技术特性 - RTX 5090采用最新Ada Lovelace架构拥有更高图形处理能力和更快刷新率支持超高分辨率 [1] - 显卡VRAM提升至24GB 配合先进光线追踪技术使游戏画质与流畅度达到前所未有的水平 [1] - GPU核心在游戏场景、图形渲染和人工智能推理等领域均具备强大应用潜力 [1]

NVIDIA GTC 2025：GPU、Tokens、合作关系

Counterpoint Research· 2025-04-03 10:59

AI经济与Tokens化 - Tokens是用于检索或生成信息的新型"货币"，推动AI经济发展，需要大量算力支持[1] - AI推理模型复杂度提升需要更高准确性，组织机构需遵循预训练、后训练和测试时的扩展流程[1] - NVIDIA愿景聚焦构建跨行业"AI工厂"，涵盖企业IT、云计算到机器人技术[1] NVIDIA芯片技术进展 - 发布Blackwell超级AI工厂平台GB300 NVL72，AI性能比GB200 NVL72提升1.5倍[6] - 公布芯片路线图，支持从Hopper系列升级到Rubin/Feynman系列，Rubin Ultra采用四掩模版GPU，FP4精度达100 petaFLOPS，搭载1TB HBM4e存储器[6] - 新款Vera CPU拥有88个Arm核心，性能是Grace CPU两倍，功耗仅50W，更新周期两年[6] - 推出Spectrum-X硅光子学产品，可横向扩展至数百万GPU，节省数兆瓦电力[6] 系统与基础设施 - 发布DGX SuperPOD GB300，配备36个Grace CPU和72个Blackwell GPU，AI性能比Hopper系统高70倍[10] - 采用第五代NVLink技术和大规模共享内存系统，可扩展至数千个GB超级芯片[10] - 推出1 petaFLOPS的个人超级计算机系统GB10，针对桌面优化微调与推理[14] 软件生态系统 - Dynamo开源框架提升AI推理效率，可使GPU的Tokens生成能力提升30倍以上[19] - Halos平台整合自动驾驶安全系统，覆盖从芯片到算法全链条[20] - CUDA-X拥有超100万开发者，成为最受欢迎的AI编程工具包[23] - 发布Isaac GR00T N1人形机器人基础模型，采用双系统架构模拟人类决策与反射[25] 行业应用拓展 - Aerial平台构建端到端AI驱动的6G技术栈，与T-Mobile等合作开发原生AI网络[23] - Omniverse-Cosmos平台支持机器人训练与场景微调，与DeepMind合作开发物理引擎[25] - 软件专业技术是NVIDIA核心优势，推动高性能芯片在HPC、自动驾驶等领域的应用[25]

OpenAI研究负责人诺姆·布朗：基准测试比数字大小毫无意义，未来靠token成本衡量模型智能｜GTC 2025

AI科技大本营· 2025-03-24 16:39

行业技术发展 - 诺姆·布朗提出范式更改比算力条件更重要，正确方法和算法可使多人扑克AI提前20年实现[2] - 推理计算被长期忽视但实际带来巨大差异，验证新范式需要大量计算投入[2] - 从Libratus到Pluribus，算法改进使六人扑克AI训练成本降至150美元，推理技术优化是关键[23][30] - CICERO项目突破自然语言博弈难题，但技术特定于《强权外交》游戏无法直接应用于现实谈判[39][40] 公司研发动态 - OpenAI o1-preview源自Q*项目，是全球首个推理模型，复现难度导致行业追赶受阻[4][6] - DeepSeek-R1于2025年1月发布并开源研究成果，终结行业闭源竞争局面[7] - 英伟达通过DLSS技术将图形渲染效率提升8-10倍，Megatron系统推动大模型训练扩展[21][22] - Meta开发Pluribus仅用28个CPU核心，每手牌20秒推理时间实现低成本高性能[24] 技术演进路径 - 从快思考(System 1)到慢思考(System 2)的转变标志AI推理能力质变[9][41] - 预训练与推理技术需协同发展，小模型无法支撑复杂推理能力[35][41] - 矩阵乘法主导AI系统设计，算法与硬件协同进化形成良性循环[33][35] - 单位成本智能成为新评估标准，需平衡token产出与计算资源消耗[41][42] 行业未来展望 - 推理计算规模将快速增长，专用硬件研发成为英伟达重点方向[41][44] - AI与人类智能成本差距显著，专业领域应用潜力巨大[42][45] - 多智能体环境技术尚未成熟，开放研究问题仍需解决[42][43] - 技术轨迹显示AI将持续突破现有局限，加速科学与社会进步[42][45]

英伟达(US:NVDA)

人工智能推理

单位成本智能

Artificial Intelligence

Artificial Intelligence

OpenAI o1

GPT - 4

DeepSeek - R1

不止芯片！英伟达，重磅发布！现场人山人海，黄仁勋最新发声

21世纪经济报道· 2025-03-19 11:45

文章核心观点英伟达GTC2025大会围绕AI推理时代展开，发布了涵盖计算架构、企业AI应用、数据中心、机器人和自动驾驶等领域的技术，构建完整AI生态体系，有望推动企业和个人生产力变革，虽发布会后股价下跌，但大会或提振AI市场部分正面情绪 [28][30] 分组1：大会概况 - 当地时间3月18日，英伟达创始人兼CEO黄仁勋在英伟达GTC2025大会发表演讲，称其为“AI界的超级碗”，今年关键词是“推理”和“token”，AI叙事重心从训练转向推理 [1] - Forrester副总裁兼首席分析师戴鲲认为大会有三个方向值得关注，分别是面向后训练和推理的加速计算、面向企业级智能代理开发的Agentic AI、AI在物理世界中的应用 [3] 分组2：芯片家族 - 英伟达发布Blackwell Ultra系列芯片及下一代GPU架构Rubin，Vera Rubin NLV144计划于2026年下半年上线，Rubin Ultra NVL576将于2027年下半年面世 [5] - Grace Blackwell已全面投入生产，新平台强化推理能力，Blackwell Ultra在训练和测试时间缩放推理方面实现突破，被称为“AI工厂平台” [6] - Blackwell Ultra（GB300）包含GB300 NVL72机架级解决方案和HGX B300 NVL16系统，GB300 NVL72 AI性能提升1.5倍，使AI工厂收益机会相比Hopper平台提高50倍；HGX B300 NVL16推理速度提高11倍、计算能力提升7倍、内存容量扩大4倍 [8][9] - 瑞银报告指出，Blackwell系列需求强劲，GB200瓶颈解决，英伟达加快B300/GB300推出，预计第一季度提前量产，2025年第三季度大规模出货 [10] - 基于Blackwell Ultra的产品预计2025年下半年由合作伙伴推出，思科、戴尔等将率先推出相关服务器，预计到2028年数据中心投资超一万亿美元，暗示英伟达有增长空间 [11] 分组3：CPO交换机 - 英伟达推出全新NVIDIA Photonics硅光子技术，通过共封装光学取代传统可插拔光学收发器，可降低40MW功耗，提高AI计算集群网络传输效率 [13] - 推出Spectrum-X与Quantum-X硅光子网络交换机，Spectrum-X以太网平台带宽密度达传统以太网1.6倍，Quantum-X光子Infiniband平台AI计算架构速度较前代提升2倍，可扩展性增强5倍 [14] - 英伟达光子交换机集成光通信创新技术，较传统方式减少75%激光器使用，能效提升3.5倍等；摩根大通报告指出CPO应用于GPU最早可能2027年实现，且面临多项技术挑战，对基板供应商是利好 [15] 分组4：软件升级 - 英伟达关注机器人、自动驾驶等领域，生成式AI改变计算方式，计算机成为token生成器，数据中心演变成AI工厂 [17] - 英伟达新推出AI推理服务软件Dynamo，支持下Blackwell推理性能可达上一代Hopper的40倍，能最大化AI工厂token收益，采用分离式推理架构实现高效AI推理计算 [18][19] - 英伟达推出Llama Nemotron系列推理模型和AI - Q，支持企业和开发者构建AI Agent，提升推理能力，减少开发成本和部署难度 [20] - 英伟达核心护城河CUDA是强大软硬件体系，已拥有各领域AI工具 [21] 分组5：端侧AI和机器人 - 英伟达推出基于NVIDIA Grace Blackwell平台的全新DGX个人AI超级计算机系列，包括DGX Spark和DGX Station，将原本仅限数据中心使用的架构性能引入桌面环境 [23][24] - 英伟达正式发布全球首款开源、可定制的通用人形机器人基础模型Isaac Groot（GROOT N1），采用双系统架构，可适配多种任务，已被多家机器人制造商采用 [25] - 英伟达推出一系列模拟框架和方案，在机器人基础模型和体系化解决方案上再次升级，摩根大通预计其在Physical AI方面会有更多突破 [26] 分组6：市场情绪 - 过去一季度AI领域变化大，英伟达GTC2025大会发布众多技术，但发布会结束后股价下跌3.43% [28] - 摩根大通报告指出整体AI市场情绪偏空，GTC大会有望提振部分正面情绪，改善Blackwell系统供应状况，预计2026年AI数据中心资本支出继续健康增长 [29]

速递｜与微软再对弈，OpenAI向CoreWeave注资120亿美元

Z Potentials· 2025-03-11 11:27

OpenAI与CoreWeave的战略合作 - OpenAI与CoreWeave签署五年期协议，价值119亿美元，涉及3.5亿美元股权获取 [1] - CoreWeave为OpenAI提供AI专用云服务，拥有32个数据中心和超25万台NVIDIA GPU [2] - 交易助力CoreWeave缓解IPO前对单一客户（微软）依赖的担忧，微软2024年贡献其62%收入（19亿美元） [2] CoreWeave的财务与业务动态 - CoreWeave 2024年收入达19亿美元，较2023年2.289亿美元增长近8倍 [2] - 公司计划通过IPO筹集40亿美元，部分资金用于偿还79亿美元债务 [6] - 创始团队已套现4.88亿美元股票，每人获利超1.5亿美元 [6] 微软与OpenAI的竞争关系 - OpenAI通过合作CoreWeave减少对微软云服务的依赖，微软原为其唯一云提供商 [5] - 微软开发自有AI推理模型MAI，与OpenAI产品直接竞争，并聘请竞争对手Mustafa Suleyman [5] - 双方在企业客户市场存在竞争，OpenAI拟推出高价AI代理加剧紧张 [4] CoreWeave的行业背景 - 公司由加密货币挖矿转型，现专注AI云服务，获NVIDIA 6%持股支持 [2] - 已部署NVIDIA Blackwell等最新GPU，强化AI推理能力 [2] - 业务扩张与债务高企并存，IPO成败或影响其偿债能力 [6]