Workflow
人工智能推理
icon
搜索文档
一图看懂 | Token工厂概念股
市值风云· 2026-03-18 18:16
核心观点 - AI产业的核心焦点已从模型训练阶段全面转向推理阶段 即持续、海量的Token生成 [1][5] - 英伟达CEO黄仁勋在GTC 2024提出“AI Token工厂”概念 指出代币成为人工智能的经济单位 [5] - 随着AI大模型进化为“自主执行任务的智能体” 推理需求将驱动相关基础设施和应用的发展 [5] 产业链相关公司 - **智能体平台**:涉及公司包括OpenClaw、优刻得-W [6] - **智算中心建设与算力服务**:涉及公司包括光环新网、润泽科技、东方国信、科华数据、顺网科技 [6] - **数据与算力基础设施**:涉及公司包括奥飞数据、光环新网、同有科技 [7] - **行业应用与解决方案**:涉及公司包括东方国信、国联股份 [7]
推理芯片时代,正式开启
半导体行业观察· 2026-03-17 10:27
英伟达发布新一代推理芯片Groq 3 LPU - 在GTC大会上,英伟达首席执行官黄仁勋宣布推出专为人工智能推理设计的新一代芯片Nvidia Groq 3语言处理单元(LPU),该芯片融合了公司以200亿美元从初创公司Groq获得授权的知识产权[2] - 黄仁勋强调人工智能推理的转折点已经到来,指出AI需要进行推理以完成思考和行动,推理任务对低延迟有极高要求[2] - 英伟达Groq 3 LPU的发布距其与Groq达成合作协议仅两个半月,凸显了推理市场发展的紧迫性[3] 推理芯片的技术架构与优势 - Groq的加速推理方法采用芯片上处理单元和SRAM内存交错排列的设计,取代了GPU常用的高带宽内存(HBM),实现了简化的线性数据流,以满足低延迟需求[5] - 与Rubin GPU相比,Groq 3 LPU仅配备500 MB的SRAM内存,运算速度为每秒1.2千万亿次浮点运算(petaFLOPS),但其内存带宽高达每秒150 TB,是Rubin GPU(每秒22 TB)的七倍,这种设计使其在推理任务上表现卓越[6] - 推理分解技术成为趋势,亚马逊网络服务(AWS)部署的系统将推理分为预填充和解码两部分,Cerebras CS-3芯片通过集成44 GB的SRAM和21 PB/s的网络连接来解决内存带宽问题[7] - 英伟达计划在其Nvidia Groq 3 LPX组合计算托盘中利用推理分解技术,每个托盘容纳8个Groq 3 LPU和一个Vera Rubin(结合了Rubin GPU与Vera CPU),以充分发挥各自优势,目前该产品已开始量产[8] 推理芯片市场的竞争格局与驱动力 - 分析指出,训练AI模型是成本支出,而推理是能直接产生收入的“利润中心”,低延迟能创造更多收入[9] - GPU(主要由英伟达主导)在大型训练和推理中占主导,但推理需求的激增正在创造GPU以外的机会,尤其是在企业从试点转向生产阶段之际[9] - 对于许多规模较小的公司(如员工约1万而非10万),在部署AI时面临电力、散热和GPU供应限制,使得GPU密集型集群不切实际,这为专用推理芯片创造了机会[10][11] - 根据Futurum Group 2025年11月的调查,到2025年,GPU占数据中心计算支出的58%;到2026年,XPU(如ASIC和定制加速器)预计增长22%,超过GPU(19%)和CPU(14%)[11] - 随着推理工作负载总量超过训练,对架构多样性的需求更大,因为替代XPU架构可以在特定推理任务上实现更高效率[12] 主要厂商的推理战略布局 - 英伟达已意识到对专用推理处理器的需求,2024年其数据中心约40%的收入来自推理业务;2025年9月发布了专为大规模上下文推理设计的Rubin CPX GPU[12] - 除了计划收购SambaNova,英特尔在其至强CPU中集成AMX加速器,并提供专用于推理的Gaudi AI加速器[13] - AMD在2025年11月收购了推理初创公司MK1,以优化其GPU在大规模企业部署中的高速推理[13] - 谷歌最新的TPU芯片和高通即将推出的AI200/AI250芯片也被视为推理领域的有力竞争者[13] - 数据中心推理领域的其他竞争者包括Cerebras(其系统约70%的工作负载集中在推理)和基于RISC-V的Tenstorrent[14][15] - 韩国公司如FuriosaAI和Rebellions也在NPU(网络处理单元)领域从边缘到数据中心进行多元化发展[15] 初创公司机遇与市场挑战 - 初创公司正在解决影响推理性能的内存和网络瓶颈,例如SiFive推出协处理器以降低内存延迟,NeuReality推出支持超以太网规范的网络接口卡,d-Matrix的内存解决方案据称运行速度比HBM快四倍且成本更低[16] - 分析师预计英伟达将保持主导,但多样化的需求为专业解决方案提供了抢占市场份额的空间,市场仍处于早期阶段,有足够空间容纳众多供应商[14][18] - 尽管GPU因其可编程性和多功能性仍占主导,但专用推理芯片在成本、功耗和性能上的优势创造了巨大机遇,主流企业预计在2026年更广泛采用技术,可能释放对以推理为中心的初创公司的需求[18] - 市场可能出现更多整合,一些早期初创企业面临挑战,例如SambaNova以16亿美元出售被视为“甩卖”[18]
英伟达,谜之操作
半导体行业观察· 2026-03-11 10:00
英伟达进军电信RAN市场的战略意图 - 英伟达自2024年初开始,鼓励业界将其GPU视为RAN工作负载和电信网络中AI推理的双用途解决方案[2] - 2023年10月,英伟达向诺基亚投资10亿美元,诺基亚同时公布了基于英伟达芯片的RAN路线图[2] - 英伟达认为,AI推理GPU需要部署在更多设施中以降低延迟,这对于机器人等“物理AI”应用至关重要,这或将成为电信运营商新的增长点[3] 电信运营商对AI-RAN的普遍怀疑态度 - 除了美国T-Mobile和日本软银,几乎没有其他电信运营商相信边缘AI推理会成为增长点的说法[5] - 边缘计算的先例(如英国电信与AWS的合作)并未带来新的服务或收入,导致业界对AI-RAN持怀疑态度[5] - 英国电信高管认为,在英国这样的小国,延迟并非巨大挑战,质疑在网络边缘部署昂贵计算资源的收益[5] - Verizon首席技术官表示,更倾向于将GPU部署在核心网络,用于运行AI推理,而非RAN工作负载[6] RAN市场现状与投资趋势 - 全球RAN产品支出已从2022年的450亿美元下降至2024年的350亿美元,并趋于稳定[6] - 诺基亚预计,除中国和俄罗斯外,其RAN产品及服务的潜在市场规模在2028年将维持在约390亿欧元(451亿美元)[6] - 在5G服务市场增长缓慢的背景下,许多电信运营商已决定削减网络投资,缺乏增加RAN投入的动力[6] 英伟达-诺基亚合作的风险与挑战 - 英伟达对诺基亚的投资是诺基亚CEO的一次豪赌,打破了以往依赖定制芯片的策略[7] - 诺基亚在美国市场份额下滑后,其与合作伙伴Marvell共同投资定制芯片的合理性受到质疑[7] - 若GPU方案成本过高令运营商却步,在排除中国供应商的市场中,爱立信和三星可能成为仅存的可行选择[9] - 诺基亚存在因无法说服运营商而进一步丢失市场份额的风险,类似情况在5G初期因使用昂贵的FPGA芯片时曾发生过[9] 技术路径与合作伙伴关系的不确定性 - 诺基亚首席技术官表示,与英伟达的交易是产品组合的扩展,旨在将定制芯片与GPU结合使用,但并未排除Marvell[10] - 知情人士认为,诺基亚不太可能与Marvell就6G技术展开合作,维持两条独立的RAN开发路线代价高昂[10] - 为英伟达GPU开发的RAN软件,特别是在关键的第一层(Layer 1),能否轻松移植到其他硬件仍存疑问[10] - 诺基亚高管认为,其约80%的软件是通用的,为英伟达GPU开发的软件未来或可移植到其他GPU或CPU上[11] GPU在RAN中的技术经济性争论 - 针对GPU功耗过高的批评,诺基亚计划使用的是应其要求开发的低功耗GPU,而非用于LLM训练的高功耗型号[12] - 支持者认为,使用GPU可使电信行业共享其他更大规模行业的巨额投资,在经济性上可能与CPU和定制芯片相当[14] - GPU在RAN人工智能领域可能更具优势,例如用AI替代人工开发的算法以提高频谱效率[14] - 反对者认为,RAN所需的AI模型相对轻量级,爱立信的定制芯片和英特尔的CPU(集成AMX加速器)已能处理相同的AI功能[15] - 有专家怀疑RAN效率的提升空间,认为香农定律对传输信息量设定了硬性限制[16] 诺基亚的战略动机与市场影响 - 诺基亚CEO面临扭转移动业务颓势的巨大压力,转向英伟达的通用IT硬件旨在降低定制芯片设计的成本[16] - 得益于英伟达10亿美元的投资,诺基亚资金充裕,而与英特尔达成CPU合作此前似乎并不可行[16] - 与英伟达的合作立即提振了诺基亚股价,使其股价比2023年10月初高出60%[17] - 此次合作使英伟达成为5G/6G话题的核心,引发了市场对AI-RAN作为下一个重大突破的广泛讨论[17]
HBF,存储芯片巨头出招
半导体芯闻· 2026-02-26 18:22
文章核心观点 - SK海力士与闪迪联合启动“HBF规范标准化联盟”,旨在推动面向人工智能推理时代的新型存储解决方案——高带宽闪存(HBF)的全球标准化,以优化整个AI生态系统并奠定共同发展基础 [1] HBF技术定位与行业背景 - 人工智能行业重心正从模型“训练”快速转向实际服务“推理”阶段,同时访问AI服务的用户激增,对快速高效内存的需求变得至关重要 [1] - 现有内存架构难以同时满足推理阶段对高容量数据处理和能效的要求,HBF作为一种能够解决这些限制的替代方案应运而生 [1] - HBF是一种位于超高速内存HBM和高容量存储设备SSD之间的新型内存层,弥补了HBM卓越性能和SSD高容量特性之间的差距,同时确保了推理领域所需的容量扩展性和能效 [2] - 在AI推理市场,涵盖CPU、GPU、内存和存储的系统级优化比单个芯片性能更能决定竞争力,因此能同时提供HBM和HBF的综合内存解决方案提供商作用日益重要 [2] HBF的战略价值与市场前景 - HBF有望提升人工智能系统的可扩展性,同时降低总体拥有成本(TCO) [2] - 业界预计,包括HBF在内的混合存储解决方案的需求将在2030年前后显著增长 [2] - 人工智能基础设施的核心在于优化整个生态系统,而不仅仅是竞争单个技术的性能,HBF标准化旨在建立一个协作框架,并通过展示优化的内存架构来创造新价值 [3] 公司的战略举措与合作 - SK海力士与闪迪共同组建专门工作组,负责在OCP(开放计算项目)下的关键任务,并开始全面的标准化工作 [1] - 两家公司计划积极推进HBF的快速标准化和商业化,利用其在HBM和NAND领域积累的设计、封装技术以及广泛的大规模生产经验 [2]
刚刚,又一位xAI华人离职,曾和马斯克并排坐发Grok 3
36氪· 2026-02-10 17:55
核心事件 - 马斯克旗下AI公司xAI的联合创始人吴宇怀宣布已从公司离职 [2] 离职人员背景 - 吴宇怀出生于1995年 拥有深厚的学术与行业背景 先后毕业于加拿大纽布伦斯威克大学和多伦多大学 师从“AI教父”杰弗里·辛顿获得博士学位 并在斯坦福大学完成博士后研究 [3] - 其工作经历包括在谷歌DeepMind AlphaGo团队和OpenAI实习 博士后在斯坦福期间加入谷歌工作至2023年 随后作为11位联合创始人之一共同创办了xAI [3] - 吴宇怀的主要研究方向是打造具备推理能力的机器 曾主导或深度参与自训练增强推理模型STAR、定理证明器Alpha Geometry及语言模型Minerva等项目 目标是创造自动化AI“数学家” [4] - 他在xAI的核心任务是将数学推理领域的积累应用于Grok模型开发 Grok 3在数学和逻辑推理上的表现是其带领团队取得的成果 [4] - 吴宇怀是xAI团队中5位华人创始成员之一 在2025年2月18日的Grok 3发布会上 他与另一位华人联创Jimmy Ba一同坐在C位 [6] 公司团队动态 - 自2024年初至今 xAI已有多位核心联合创始人相继离职 包括Kyle Kosic(2024年4月)、Christian Szegedy(2025年2月)和Igor Babuschkin(2025年8月) [8] - 就在上个月 Grok的核心架构师之一、华人联创杨格宣布因病离职 转为非正式顾问 其透露被诊断出患有莱姆病 可能因长期高强度工作透支身体导致症状显现 [8][9] - 在短短一年多时间里 这支由马斯克组建的创始“梦之队”已有近半创始成员离开 其中一个月内连续折损两位华人联创 [10] 事件背景与市场关注点 - 吴宇怀的离职时间点耐人寻味 在马斯克旗下SpaceX于2月3日正式官宣收购xAI仅一周后宣布 引发外界对其离职是否与收购有关的猜测 [10] - 连续流失创始成员 可能引发外界对xAI团队稳定性和未来发展的信任担忧 [10]
速递|a16z全程跟进:vLLM之父创AI推理Inferact,顶级投资阵容融资,估值达8亿美元
搜狐财经· 2026-01-23 12:46
公司融资与估值 - AI初创企业Inferact完成1.5亿美元种子轮融资,公司估值达到8亿美元 [2] - 本轮融资由安德森·霍洛维茨基金和光速创投领投,红杉资本、Altitude资本、红点创投及真格基金参与投资 [2] - 公司成立于2025年11月,并于近期正式对外公开 [3] 公司业务与技术核心 - Inferact专注于人工智能推理阶段,即AI模型完成训练后能够开始回答问题、解决任务的环节 [2] - 公司技术核心围绕开源项目vLLM构建,该项目于2023年发布,旨在帮助企业将AI模型高效部署在数据中心硬件上 [2] - vLLM项目最初由加州大学伯克利分校启动,现由PyTorch基金会监管,已吸引了来自AI产业数千名开发者的贡献 [2] - 公司首要任务是继续将vLLM作为独立的开源项目进行支持,所有改进都将回馈社区 [4] - 第二个目标是开发独立的商业产品,帮助企业更高效地在各类硬件上运行AI模型 [4] 行业背景与市场机遇 - AI行业面临的最大挑战将不再是构建新模型,而是如何经济高效且稳定可靠地运行现有模型 [2] - 过去企业需要等待数年才能迎来新模型发布,因为训练系统缓慢且昂贵,但随着现有模型足够强大,情况已发生改变 [3] - 开发者创建的AI产品必须持续与模型进行通信,这推高了成本并给系统带来压力,推理环节正成为瓶颈,且问题在未来几年可能愈发严峻 [3][4] - 此次大规模的种子轮融资反映出市场机遇的规模,以及即使微小的效率提升也能对成本产生显著影响 [4] 团队背景与投资者关系 - Inferact由首席执行官Simon Mo领导,他是vLLM项目的原始维护者之一 [3] - 安德森·霍洛维茨基金会参与可追溯至vLLM项目的早期阶段,vLLM在2023年成为其“AI开源资助计划”的首个受助项目 [3] - 在Inferact成立之前,安德森·霍洛维茨基金会还主办了该项目的首场社区聚会,为建立紧密联系奠定了早期基础 [3] 技术应用与市场认可 - 亚马逊公司不仅其云业务,连购物应用程序也依赖vLLM软件来运行内部人工智能系统,这证明了vLLM应用的广泛程度 [5]
速递|a16z全程跟进:vLLM之父创AI推理Inferact,顶级投资阵容融资,估值达8亿美元
Z Potentials· 2026-01-23 12:13
公司融资与估值 - AI初创企业Inferact已完成1.5亿美元种子轮融资,公司估值达8亿美元 [2] - 本轮融资由安德森·霍洛维茨基金和光速创投领投,红杉资本、Altitude资本、红点创投及真格基金参与投资 [2] - 公司成立于2025年11月,并于近期正式对外公开 [3] 公司背景与技术核心 - Inferact由vLLM项目的原始维护者之一Simon Mo领导 [3] - 公司技术核心围绕开源项目vLLM构建,该项目于2023年发布,旨在帮助企业将AI模型高效部署在数据中心硬件上 [2] - vLLM最初由加州大学伯克利分校启动,现由PyTorch基金会监管,已吸引了来自AI产业数千名开发者的贡献 [2] - 公司将自身创立渊源与伯克利分校孵化的其他成功软件项目(如Apache Spark和Ray)相类比 [3] 行业趋势与公司定位 - 公司专注于人工智能推理阶段,即AI模型完成训练后能够开始回答问题、解决任务的环节 [2] - 公司预判,未来AI行业面临的最大挑战将不再是构建新模型,而是如何经济高效且稳定可靠地运行现有模型 [2] - 投资者认为其兴趣反映了AI行业更广泛的转变:过去企业需等待数年迎来新模型发布,而现有模型已足够强大,开发者无需等待重大升级即可使用 [3] - 推理环节正成为瓶颈,因为开发者创建的AI产品必须持续与模型进行通信,这推高了成本并给系统带来压力,且该问题在未来几年可能会愈发严峻 [4] 公司战略与市场机遇 - 公司的首要任务是继续将vLLM作为独立的开源项目进行支持,所有改进都将回馈社区 [4] - 第二个目标是开发独立的商业产品,帮助企业更高效地在各类硬件上运行AI模型 [4] - 大规模的种子轮融资反映出市场机遇的规模,以及即使微小的效率提升也能对成本产生的显著影响 [4] - 公司并非试图取代或限制开源项目,而是旨在建立一项能够支持并拓展该项目的业务 [4] - vLLM应用广泛,例如亚马逊公司不仅其云业务,连购物应用程序也依赖该软件来运行内部人工智能系统 [4] 投资者关系 - 安德森·霍洛维茨基金会参与可追溯至vLLM项目的早期阶段,vLLM在2023年成为其“AI开源资助计划”的首个受助项目 [3] - 在Inferact成立之前,安德森·霍洛维茨基金会还主办了该项目的首场社区聚会,为与团队建立紧密联系奠定了早期基础 [3]
SambaNova收购,陷入僵局
半导体行业观察· 2026-01-22 12:05
文章核心观点 - 人工智能芯片初创公司SambaNova Systems在与英特尔的收购谈判陷入僵局后,正寻求从科技公司和半导体制造商处筹集3亿至5亿美元的新资金 [1] - 英特尔此前曾讨论以约16亿美元(含债务)的估值收购SambaNova,但谈判破裂,目前仍在考虑是否追加投资 [1] - 英特尔新任首席执行官陈立武(也是SambaNova的董事长)的战略重心与SambaNova的专长高度重合,都聚焦于人工智能推理,这为双方未来的潜在合作或交易奠定了基础 [3][4][5][6] SambaNova的融资与估值动态 - SambaNova正寻求筹集3亿至5亿美元新资金 [1] - 公司迄今已筹集11.4亿美元资金,在2021年一轮融资中估值达到51亿美元 [6] - 但据彭博社报道,任何潜在交易对SambaNova的估值都可能低于其2021年融资轮中获得的50亿美元估值 [6] - 公司的重要投资者包括:软银愿景基金(2021年投资6.76亿美元)、Walden International(领投2018年5600万美元A轮融资)、英特尔资本、贝莱德、SK Telecom等 [5] SambaNova的业务与技术专长 - 公司专注于人工智能硬件和全栈软件解决方案,业务重心已从训练转向推理设计 [3] - 核心技术采用可重构数据流单元芯片,与英伟达GPU不同,其拥有丰富的片上内存,并将整个神经网络图直接映射到硬件,避免了内存移动开销,提高了效率,尤其适合大规模推理工作负载 [3] - 基于其第四代RDU处理器SN40L,公司构建了针对运行已训练AI模型优化的系统,产品包括:SambaRack(基于多个含16个SN40L RDU的模块构建)、SambaCloud(支持DeepSeek、Llama和Qwen等推理模型)、SambaManaged(完全托管的推理云平台) [4] - 为进行业务重心调整,公司曾裁员77人,约占其500名员工总数的15% [3] 英特尔的战略动向与AI布局 - 英特尔正在调整其人工智能路线图,计划重返人工智能市场 [2] - 公司取消了原定今年发布的Falcon Shores人工智能加速芯片计划,转而专注于开发“机架级系统解决方案” [2] - 作为回归计划的一部分,英特尔发布了代号为“Crescent Island”的160GB节能型GPU,专为风冷企业服务器上的推理工作负载设计,预计2026年下半年出货 [2] - 英特尔首席技术官Sachin Katti强调了人工智能应用中从静态训练向实时推理的转型,以及针对特定任务定制异构系统的必要性 [3] - 英特尔此前旨在提供更高性价比GPU以对抗英伟达的策略未奏效,而AMD已迅速占据追赶者位置 [3] - 通过收购SambaNova,英特尔可以获得一家专注于人工智能推理的芯片、系统和云开发商,这与英特尔当前以推理为核心的人工智能路线图高度契合 [4] - 公司近期“不进行收购”的战略在首席执行官陈立武上任后受到质疑,可能发生转变 [5] 英特尔与SambaNova的关联及潜在交易 - 英特尔与SambaNova的收购谈判曾对这家人工智能初创公司给出约16亿美元(含债务)的估值 [1] - 英特尔首席执行官陈立武同时担任SambaNova的董事长,其风险投资公司Walden International是SambaNova的创始投资者之一,这引发了一些业内人士关于利益冲突的讨论 [1][5] - 陈立武在就任英特尔首席执行官后表示,目标是开发全栈式人工智能解决方案,提高准确性和能效,并推动以推理模型、智能体人工智能和物理人工智能为核心的下一代计算 [6] - 这表明陈立武非常了解SambaNova,且其战略规划与SambaNova的业务专长一致,预示着英特尔在人工智能领域的下一步战略可能与之相关 [6]
速递|AI推理服务商Baseten Labs再融3亿美元,英伟达、Alphabet联手下注
Z Potentials· 2026-01-21 13:52
公司融资与估值 - 人工智能初创公司Baseten Labs以50亿美元的估值筹集了3亿美元资金 [3] - 此轮融资使公司估值较不到六个月前的上一轮融资翻了一倍多,上一轮融资于去年9月以21.5亿美元的估值筹集了1.5亿美元 [3] 融资轮次详情 - 本轮3亿美元的新融资由风险投资公司IVP与谷歌母公司Alphabet的增长投资部门CapitalG共同领投 [3] - 英伟达公司也参与了此轮融资,投资金额达1.5亿美元 [3] 公司业务聚焦 - 公司专注于人工智能推理,即AI系统训练完成后运行它们的过程 [3]
英伟达向人工智能推理初创公司Baseten投资1.5亿美元
新浪财经· 2026-01-21 05:54
公司融资与估值 - 人工智能推理初创公司Baseten完成3亿美元融资 [1] - 公司本轮融资后估值达到50亿美元 [1] - 当前估值几乎是上一轮估值的两倍 [1] 投资方构成 - 本轮融资由风险投资公司IVP和Alphabet独立增长基金CapitalG领投 [1] - 芯片巨头英伟达参与投资 [1] - 英伟达作为交易的一部分向Baseten注资1.5亿美元 [1] 行业趋势与战略布局 - 此交易凸显了英伟达在人工智能推理领域对初创公司的积极布局 [1] - 行业关注点正从训练模型转向大规模运行和推理(即AI模型根据输入生成输出) [1] - 英伟达正加大对人工智能推理相关初创公司的投资力度 [1] - 英伟达在向自身AI芯片客户投资的同时,也继续投资外部初创公司 [1]