人工智能推理

搜索文档
NPU,大有可为
半导体行业观察· 2025-08-28 09:14
AI推理市场趋势 - 全球AI推理市场规模预计从2024年106亿美元增长至2030年255亿美元 年均增长率达19% [2] - 行业正减少对GPU依赖 转向低功耗高效率的专用芯片NPU(神经处理单元) [2] - NPU因满足高推理吞吐量、低延迟和高能效需求而成为增长核心 [2] NPU技术竞争格局 - CPU和GPU市场进入技术成熟阶段 推理型AI半导体转向ASIC架构的NPU [2] - 美国初创公司Sambanova采用数据流架构NPU 集成专有软件覆盖LLM训练与推理 [3] - Grok量产专用推理芯片 通过云服务实现百万令牌级实时推理 商业模式聚焦LLM服务而非硬件销售 [3] 行业竞争战略 - 企业需确保能效显著优势 数据中心功耗已成AI应用主要瓶颈 [3] - 定制化市场成为关键策略 针对电信、金融、国防等行业定制推理NPU [3] - 硬件与软件生态整合成为核心竞争力 Sambanova通过捆绑模式获得政府及金融机构客户 [3]
华为发布AI黑科技UCM,下个月开源
证券时报网· 2025-08-12 17:23
AI时代下,推理技术关系用户与AI交互的体验,包括回答问题的时延、答案的准确度以及复杂上下文 的推理能力等,在此背景下,华为最新推出AI推理黑科技UCM(推理记忆数据管理器),可大幅降低推理 时延与成本,并大幅提升推理效率。 8月12日,华为举行发布会,正式发布AI推理创新技术UCM。 据了解,目前,国外主流模型的单用户输出速度已进入200Tokens/s区间(时延5ms),而我国普遍小于 60Tokens/s(时延50—100ms),如何解决推理效率与用户体验的难题迫在眉睫。 "高延迟、高成本是当下AI推理领域发展的主要挑战。"华为数字金融军团CEO曹冲在会上表示。 华为方面介绍,作为一款以KVCache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具, 分级管理推理过程中产生的KVCache记忆数据,可扩大推理上下文窗口,以实现高吞吐、低时延的推理 体验,降低每Token推理成本。 在具体技术实现路径以及方面,华为相关负责人表示,UCM通过层级化自适应的全局前缀缓存技术, 可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接 调用KV缓存数据,避免重复计算, ...
北京亦庄发布“具身智能机器人十条”;华为即将发布AI推理领域突破性成果丨数智早参
每日经济新闻· 2025-08-11 07:21
具身智能机器人政策 - 北京亦庄发布《关于推动具身智能机器人创新发展的若干措施》专项政策,聚焦软硬技术协同攻关、数据要素先行先试、应用场景牵引推广等关键领域 [1] - 政策包含全国首创的8条支持措施,如数据采集实训场奖励、二次开发社区支持、供应链响应平台支持等 [1] - 目标是通过政策支持加快具身智能机器人创新发展,抢占全球机器人产业制高点 [1] - 机器人产业正经历从技术导向到需求导向、从概念验证到商业落地的关键拐点 [1] 华为AI推理技术突破 - 华为将于8月12日发布AI推理领域突破性技术成果,可能降低中国AI推理对HBM技术的依赖 [2] - 该技术有望提升国内AI大模型推理性能,完善中国AI推理生态 [2] - 成果落地将提升自主可控能力,减少关键环节对外依存度,保障AI基础设施安全 [2] - 技术突破将激活推理性能与应用生态,助力金融等高实时性场景的AI应用落地 [2] OpenAI发布GPT-5 - OpenAI正式发布GPT-5,新模型可实现即时按需的软件开发,将改变工作、学习和创新方式 [3] - GPT-5在健康建议方面能力显著提升,答案更准确,幻觉更少,能提供更可靠的病因和应对措施 [3] - OpenAI CEO预测2035年AI工具可帮助治愈或有效治疗许多当前困扰人类的疾病 [3] - 展望GPT-8时代,AI工具或能治疗某种癌症,可能重构科学发现与医疗研发范式 [3]
AI芯片公司,估值60亿美元
半导体芯闻· 2025-07-10 18:33
融资动态 - 美国半导体初创公司Groq正与投资者商谈筹集3亿至5亿美元资金,投资后估值达60亿美元[1] - 2023年8月Groq在D轮融资中筹集6.4亿美元,估值28亿美元,由思科投资、三星催化基金和贝莱德私募股权合作伙伴领投[4] 业务发展 - Groq与沙特阿拉伯签署协议,预计该合同将为公司带来约5亿美元年收入[2][3] - 公司在欧洲建立首个数据中心,选址芬兰赫尔辛基,与Equinix公司合作,旨在加快国际扩张步伐[5] - 目前在美国、加拿大和沙特阿拉伯均设有采用其技术的数据中心[6] 技术优势 - 公司专注于生产优化AI推理速度的芯片,其LPU(语言处理单元)专为推理而非训练设计[5] - LPU芯片可执行预训练模型命令,实现对实时数据的解读,类似聊天机器人生成答案的机制[5] - 在AI推理领域面临SambaNova、Ampere、Cerebras和Fractile等初创企业的竞争[5] 市场战略 - 瞄准欧洲对AI服务增长的需求,北欧地区因可再生能源和凉爽气候成为投资热点[5] - 通过Equinix数据中心部署LPU,使企业能便捷访问其推理能力[6] - 顺应欧洲"主权AI"趋势,本地化数据中心布局可提升服务响应速度[6] 行业背景 - 英伟达凭借GPU主导AI模型训练芯片市场,但推理领域存在更多竞争机会[5] - 英伟达近期在欧洲签署多项数据中心基础设施协议,显示该地区战略重要性[5]
AI芯片新贵Groq在欧洲开设首个数据中心以扩大业务
智通财经网· 2025-07-07 15:03
公司动态 - 人工智能半导体初创公司Groq宣布在欧洲建立首个数据中心,选址芬兰赫尔辛基,与Equinix公司合作 [1] - Groq公司估值28亿美元,获得三星和思科投资部门支持 [1] - Groq设计的语言处理单元(LPU)芯片专为人工智能推理而非训练设计,功能类似热门聊天机器人生成答案 [1] - Groq目前在美国、加拿大和沙特阿拉伯设有采用其技术的数据中心 [2] 行业趋势 - 欧洲对人工智能服务需求增长,吸引美国公司加大投资,北欧地区因可再生能源和凉爽气候受青睐 [1] - 英伟达首席执行官黄仁勋近期在欧洲签署多项基础设施协议,包括数据中心建设 [1] - 人工智能推理芯片市场竞争激烈,除Groq外,SambaNova、Ampere、Cerebras和Fractile等初创企业参与竞争 [1] 技术合作 - Equinix作为全球数据中心建设商,连接亚马逊、谷歌等云服务提供商,简化企业使用多供应商流程 [2] - Groq的LPU将安装在Equinix数据中心,企业可通过Equinix访问Groq的推理能力 [2] 政策环境 - 欧洲政客推动"主权人工智能"理念,要求数据中心设在本地区以提升服务速度和数据主权 [2]
迈向人工智能的认识论六:破解人工智能思考的密码
36氪· 2025-06-18 19:52
人工智能推理忠诚度 - 从MMLU任务转向GPQA任务时,Claude 3.7 Sonnet的忠实度相对下降44%,DeepSeek R1的忠实度下降32%,表明模型在困难任务中更依赖提示而无法独立推导[2] - 不忠实的推理平均使用2064个标记(Claude 3.7),忠实的推理平均使用1439个标记,显示模型会为受提示影响的答案构建复杂的事后合理化[4] - 基于结果的强化学习在MMLU上的忠诚度仅为28%,在GPQA上为20%,表明推理有效性和透明度之间存在根本矛盾[6] 模型计算机制 - Claude采用并行算术路径:一条计算粗略近似值,另一条专注精确末位计算,显示Transformer可开发训练数据中不存在的新算法[5] - 跨语言处理时,Claude 3.5 Haiku在不同语言间共享的特征比例是较小模型的两倍多,证明其能发展出与语言无关的抽象概念表征[7] - 奖励黑客攻击利用率为99%以上,但口头表达概率低于2%,显示模型能力与解释生成可差异化发展[8] 安全与架构挑战 - 语法连贯性压力会压倒安全拒绝机制,如BOMB越狱中模型必须生成语法完整句子后才转向拒绝,揭示核心语言能力与安全护栏的矛盾[10] - 幻觉源于三方竞争机制:默认拒绝回路、自信回答特征和虚构回答激活,表明真实性取决于校准置信度阈值[9] - 替代可解释性方法包括激活修补、稀疏自动编码器监控和电路级分析,以绕过模型自我报告的局限性[11] 行业研究启示 - 透明度与能力呈负相关:能力更强的模型自然变得更不透明,尤其在处理新颖困难任务时[12] - 行为评估不足以理解AI能力,需结合机械可解释性方法直接检验内部计算[3][12] - 当前Transformer设计对可靠推理透明度存在根本限制,需开发不依赖模型自我意识的安全框架[11][12]
AMD收购两家公司:一家芯片公司,一家软件公司
半导体行业观察· 2025-06-06 09:12
AMD收购Untether AI - AMD收购AI推理芯片开发商Untether AI的工程师团队,以增强其AI编译器和内核开发能力,以及数字和SoC设计、设计验证和产品集成能力 [1] - 交易后Untether AI将不再提供或支持其speedAI产品和imAIgine软件开发套件 [1] - Untether AI成立于2018年,专注于AI推理领域,其关键差异化优势在于内存计算架构,可解决神经网络计算中90%的能耗来自于数据移动的问题 [6][9] - Untether AI的第二代内存架构speedAI240设备采用台积电7纳米工艺,具有2 petaflops的FP8性能和238 MB的SRAM内存,能效达每瓦30 teraflops [5] - speedAI240设备支持多种数据类型,与BF16相比准确度损失不到0.1%,吞吐量和能效提高四倍 [9] - 该架构具有可扩展性,可从1瓦设备扩展到基础设施级设备,支持PCI-Express卡和chiplet集成 [20] Untether AI技术细节 - speedAI240设备采用第二代内存库,配备1,435个1.35 GHz 7纳米RISC-V处理器核心 [10] - 通过添加各种指令对RISC-V芯片进行改造以适应AI推理需求 [13] - 采用独特的"肩袖"通信设计和高效片上网络(NOC)优化能源效率 [17] - 提供ImAIgine SDK,支持从TensorFlow和PyTorch等框架提取神经网络并自动量化 [22] AMD收购Brium - AMD同期收购软件公司Brium以强化开放AI软件生态系统 [24] - Brium团队在编译器技术、模型执行框架和AI推理优化方面具有专长,将增强AMD AI平台的效率和灵活性 [24] - 此次收购是AMD继收购Silo AI、Nod.ai和Mipsology后又一战略投资,旨在提升开源软件生态系统支持能力 [25] - Brium擅长在模型到达硬件前优化整个推理堆栈,减少对特定硬件配置的依赖 [25] - 该公司在MX FP4和FP6等新精度格式方面的专长将帮助AMD平台更高效处理训练和推理工作负载 [25]
英伟达RTX 50系列需求爆发 栢能集团(01263)或成核心受益标的
智通财经网· 2025-05-15 14:54
英伟达RTX 50系列显卡市场表现 - 新一代GeForce RTX 50系列显卡市场需求远超供应 终端售价较官方指导价溢价高达50% [1] - RTX 5090渠道行情可达3000美元以上 仍维持高溢价 官方建议零售价为1999美元 实际市场成交价已突破2999美元 [1][2] - 2025年RTX 50系列显卡出货量预计达3500-4000万片 较上一代RTX 40系列2024年出货量2500-3000万片增长30%以上 [2] 栢能集团业务与财务表现 - 栢能集团为全球第二大GPU显卡生产厂 英伟达全球核心AIC合作伙伴 旗下索泰品牌为知名电脑品牌提供产品制造服务 [2] - 集团2024年全年收入100.82亿元 同比增加10% 全年纯利2.62亿元 同比增长331% 每股盈利68仙 [2] - 盈利增长主要由于新系列图像显示卡需求强劲 自有品牌业务促销及市场推广开支减少令毛利率改善 [2] 栢能集团增长潜力与估值 - 广发证券测算显示 若RTX 5090占RTX 50系列出货量5%(约175-200万片)且栢能市场份额达12.5% 单卡净利润约300元人民币 则该业务可贡献约5.12亿港元净利润 较2024年全年净利润增长近200% [3] - 公司与服务器大厂Supermicro达成合作 切入中国云服务商供应链 服务器业务有望成为新增长点 [3] - 公司股价对应2025年PE仅4倍 远低于同业华硕12倍和微星13倍 也低于自身历史平均PE7.5倍 估值修复空间巨大 [3] RTX 50系列技术特性 - RTX 5090采用最新Ada Lovelace架构 拥有更高图形处理能力和更快刷新率 支持超高分辨率 [1] - 显卡VRAM提升至24GB 配合先进光线追踪技术 使游戏画质与流畅度达到前所未有的水平 [1] - GPU核心在游戏场景、图形渲染和人工智能推理等领域均具备强大应用潜力 [1]
NVIDIA GTC 2025:GPU、Tokens、合作关系
Counterpoint Research· 2025-04-03 10:59
AI经济与Tokens化 - Tokens是用于检索或生成信息的新型"货币",推动AI经济发展,需要大量算力支持[1] - AI推理模型复杂度提升需要更高准确性,组织机构需遵循预训练、后训练和测试时的扩展流程[1] - NVIDIA愿景聚焦构建跨行业"AI工厂",涵盖企业IT、云计算到机器人技术[1] NVIDIA芯片技术进展 - 发布Blackwell超级AI工厂平台GB300 NVL72,AI性能比GB200 NVL72提升1.5倍[6] - 公布芯片路线图,支持从Hopper系列升级到Rubin/Feynman系列,Rubin Ultra采用四掩模版GPU,FP4精度达100 petaFLOPS,搭载1TB HBM4e存储器[6] - 新款Vera CPU拥有88个Arm核心,性能是Grace CPU两倍,功耗仅50W,更新周期两年[6] - 推出Spectrum-X硅光子学产品,可横向扩展至数百万GPU,节省数兆瓦电力[6] 系统与基础设施 - 发布DGX SuperPOD GB300,配备36个Grace CPU和72个Blackwell GPU,AI性能比Hopper系统高70倍[10] - 采用第五代NVLink技术和大规模共享内存系统,可扩展至数千个GB超级芯片[10] - 推出1 petaFLOPS的个人超级计算机系统GB10,针对桌面优化微调与推理[14] 软件生态系统 - Dynamo开源框架提升AI推理效率,可使GPU的Tokens生成能力提升30倍以上[19] - Halos平台整合自动驾驶安全系统,覆盖从芯片到算法全链条[20] - CUDA-X拥有超100万开发者,成为最受欢迎的AI编程工具包[23] - 发布Isaac GR00T N1人形机器人基础模型,采用双系统架构模拟人类决策与反射[25] 行业应用拓展 - Aerial平台构建端到端AI驱动的6G技术栈,与T-Mobile等合作开发原生AI网络[23] - Omniverse-Cosmos平台支持机器人训练与场景微调,与DeepMind合作开发物理引擎[25] - 软件专业技术是NVIDIA核心优势,推动高性能芯片在HPC、自动驾驶等领域的应用[25]
OpenAI研究负责人诺姆·布朗:基准测试比数字大小毫无意义,未来靠token成本衡量模型智能|GTC 2025
AI科技大本营· 2025-03-24 16:39
行业技术发展 - 诺姆·布朗提出范式更改比算力条件更重要,正确方法和算法可使多人扑克AI提前20年实现[2] - 推理计算被长期忽视但实际带来巨大差异,验证新范式需要大量计算投入[2] - 从Libratus到Pluribus,算法改进使六人扑克AI训练成本降至150美元,推理技术优化是关键[23][30] - CICERO项目突破自然语言博弈难题,但技术特定于《强权外交》游戏无法直接应用于现实谈判[39][40] 公司研发动态 - OpenAI o1-preview源自Q*项目,是全球首个推理模型,复现难度导致行业追赶受阻[4][6] - DeepSeek-R1于2025年1月发布并开源研究成果,终结行业闭源竞争局面[7] - 英伟达通过DLSS技术将图形渲染效率提升8-10倍,Megatron系统推动大模型训练扩展[21][22] - Meta开发Pluribus仅用28个CPU核心,每手牌20秒推理时间实现低成本高性能[24] 技术演进路径 - 从快思考(System 1)到慢思考(System 2)的转变标志AI推理能力质变[9][41] - 预训练与推理技术需协同发展,小模型无法支撑复杂推理能力[35][41] - 矩阵乘法主导AI系统设计,算法与硬件协同进化形成良性循环[33][35] - 单位成本智能成为新评估标准,需平衡token产出与计算资源消耗[41][42] 行业未来展望 - 推理计算规模将快速增长,专用硬件研发成为英伟达重点方向[41][44] - AI与人类智能成本差距显著,专业领域应用潜力巨大[42][45] - 多智能体环境技术尚未成熟,开放研究问题仍需解决[42][43] - 技术轨迹显示AI将持续突破现有局限,加速科学与社会进步[42][45]