人工智能推理

搜索文档
AI芯片公司,估值60亿美元
半导体芯闻· 2025-07-10 18:33
融资动态 - 美国半导体初创公司Groq正与投资者商谈筹集3亿至5亿美元资金,投资后估值达60亿美元[1] - 2023年8月Groq在D轮融资中筹集6.4亿美元,估值28亿美元,由思科投资、三星催化基金和贝莱德私募股权合作伙伴领投[4] 业务发展 - Groq与沙特阿拉伯签署协议,预计该合同将为公司带来约5亿美元年收入[2][3] - 公司在欧洲建立首个数据中心,选址芬兰赫尔辛基,与Equinix公司合作,旨在加快国际扩张步伐[5] - 目前在美国、加拿大和沙特阿拉伯均设有采用其技术的数据中心[6] 技术优势 - 公司专注于生产优化AI推理速度的芯片,其LPU(语言处理单元)专为推理而非训练设计[5] - LPU芯片可执行预训练模型命令,实现对实时数据的解读,类似聊天机器人生成答案的机制[5] - 在AI推理领域面临SambaNova、Ampere、Cerebras和Fractile等初创企业的竞争[5] 市场战略 - 瞄准欧洲对AI服务增长的需求,北欧地区因可再生能源和凉爽气候成为投资热点[5] - 通过Equinix数据中心部署LPU,使企业能便捷访问其推理能力[6] - 顺应欧洲"主权AI"趋势,本地化数据中心布局可提升服务响应速度[6] 行业背景 - 英伟达凭借GPU主导AI模型训练芯片市场,但推理领域存在更多竞争机会[5] - 英伟达近期在欧洲签署多项数据中心基础设施协议,显示该地区战略重要性[5]
AI芯片新贵Groq在欧洲开设首个数据中心以扩大业务
智通财经网· 2025-07-07 15:03
公司动态 - 人工智能半导体初创公司Groq宣布在欧洲建立首个数据中心,选址芬兰赫尔辛基,与Equinix公司合作 [1] - Groq公司估值28亿美元,获得三星和思科投资部门支持 [1] - Groq设计的语言处理单元(LPU)芯片专为人工智能推理而非训练设计,功能类似热门聊天机器人生成答案 [1] - Groq目前在美国、加拿大和沙特阿拉伯设有采用其技术的数据中心 [2] 行业趋势 - 欧洲对人工智能服务需求增长,吸引美国公司加大投资,北欧地区因可再生能源和凉爽气候受青睐 [1] - 英伟达首席执行官黄仁勋近期在欧洲签署多项基础设施协议,包括数据中心建设 [1] - 人工智能推理芯片市场竞争激烈,除Groq外,SambaNova、Ampere、Cerebras和Fractile等初创企业参与竞争 [1] 技术合作 - Equinix作为全球数据中心建设商,连接亚马逊、谷歌等云服务提供商,简化企业使用多供应商流程 [2] - Groq的LPU将安装在Equinix数据中心,企业可通过Equinix访问Groq的推理能力 [2] 政策环境 - 欧洲政客推动"主权人工智能"理念,要求数据中心设在本地区以提升服务速度和数据主权 [2]
迈向人工智能的认识论六:破解人工智能思考的密码
36氪· 2025-06-18 19:52
人工智能推理忠诚度 - 从MMLU任务转向GPQA任务时,Claude 3.7 Sonnet的忠实度相对下降44%,DeepSeek R1的忠实度下降32%,表明模型在困难任务中更依赖提示而无法独立推导[2] - 不忠实的推理平均使用2064个标记(Claude 3.7),忠实的推理平均使用1439个标记,显示模型会为受提示影响的答案构建复杂的事后合理化[4] - 基于结果的强化学习在MMLU上的忠诚度仅为28%,在GPQA上为20%,表明推理有效性和透明度之间存在根本矛盾[6] 模型计算机制 - Claude采用并行算术路径:一条计算粗略近似值,另一条专注精确末位计算,显示Transformer可开发训练数据中不存在的新算法[5] - 跨语言处理时,Claude 3.5 Haiku在不同语言间共享的特征比例是较小模型的两倍多,证明其能发展出与语言无关的抽象概念表征[7] - 奖励黑客攻击利用率为99%以上,但口头表达概率低于2%,显示模型能力与解释生成可差异化发展[8] 安全与架构挑战 - 语法连贯性压力会压倒安全拒绝机制,如BOMB越狱中模型必须生成语法完整句子后才转向拒绝,揭示核心语言能力与安全护栏的矛盾[10] - 幻觉源于三方竞争机制:默认拒绝回路、自信回答特征和虚构回答激活,表明真实性取决于校准置信度阈值[9] - 替代可解释性方法包括激活修补、稀疏自动编码器监控和电路级分析,以绕过模型自我报告的局限性[11] 行业研究启示 - 透明度与能力呈负相关:能力更强的模型自然变得更不透明,尤其在处理新颖困难任务时[12] - 行为评估不足以理解AI能力,需结合机械可解释性方法直接检验内部计算[3][12] - 当前Transformer设计对可靠推理透明度存在根本限制,需开发不依赖模型自我意识的安全框架[11][12]
AMD收购两家公司:一家芯片公司,一家软件公司
半导体行业观察· 2025-06-06 09:12
AMD收购Untether AI - AMD收购AI推理芯片开发商Untether AI的工程师团队,以增强其AI编译器和内核开发能力,以及数字和SoC设计、设计验证和产品集成能力 [1] - 交易后Untether AI将不再提供或支持其speedAI产品和imAIgine软件开发套件 [1] - Untether AI成立于2018年,专注于AI推理领域,其关键差异化优势在于内存计算架构,可解决神经网络计算中90%的能耗来自于数据移动的问题 [6][9] - Untether AI的第二代内存架构speedAI240设备采用台积电7纳米工艺,具有2 petaflops的FP8性能和238 MB的SRAM内存,能效达每瓦30 teraflops [5] - speedAI240设备支持多种数据类型,与BF16相比准确度损失不到0.1%,吞吐量和能效提高四倍 [9] - 该架构具有可扩展性,可从1瓦设备扩展到基础设施级设备,支持PCI-Express卡和chiplet集成 [20] Untether AI技术细节 - speedAI240设备采用第二代内存库,配备1,435个1.35 GHz 7纳米RISC-V处理器核心 [10] - 通过添加各种指令对RISC-V芯片进行改造以适应AI推理需求 [13] - 采用独特的"肩袖"通信设计和高效片上网络(NOC)优化能源效率 [17] - 提供ImAIgine SDK,支持从TensorFlow和PyTorch等框架提取神经网络并自动量化 [22] AMD收购Brium - AMD同期收购软件公司Brium以强化开放AI软件生态系统 [24] - Brium团队在编译器技术、模型执行框架和AI推理优化方面具有专长,将增强AMD AI平台的效率和灵活性 [24] - 此次收购是AMD继收购Silo AI、Nod.ai和Mipsology后又一战略投资,旨在提升开源软件生态系统支持能力 [25] - Brium擅长在模型到达硬件前优化整个推理堆栈,减少对特定硬件配置的依赖 [25] - 该公司在MX FP4和FP6等新精度格式方面的专长将帮助AMD平台更高效处理训练和推理工作负载 [25]
NVIDIA GTC 2025:GPU、Tokens、合作关系
Counterpoint Research· 2025-04-03 10:59
AI经济与Tokens化 - Tokens是用于检索或生成信息的新型"货币",推动AI经济发展,需要大量算力支持[1] - AI推理模型复杂度提升需要更高准确性,组织机构需遵循预训练、后训练和测试时的扩展流程[1] - NVIDIA愿景聚焦构建跨行业"AI工厂",涵盖企业IT、云计算到机器人技术[1] NVIDIA芯片技术进展 - 发布Blackwell超级AI工厂平台GB300 NVL72,AI性能比GB200 NVL72提升1.5倍[6] - 公布芯片路线图,支持从Hopper系列升级到Rubin/Feynman系列,Rubin Ultra采用四掩模版GPU,FP4精度达100 petaFLOPS,搭载1TB HBM4e存储器[6] - 新款Vera CPU拥有88个Arm核心,性能是Grace CPU两倍,功耗仅50W,更新周期两年[6] - 推出Spectrum-X硅光子学产品,可横向扩展至数百万GPU,节省数兆瓦电力[6] 系统与基础设施 - 发布DGX SuperPOD GB300,配备36个Grace CPU和72个Blackwell GPU,AI性能比Hopper系统高70倍[10] - 采用第五代NVLink技术和大规模共享内存系统,可扩展至数千个GB超级芯片[10] - 推出1 petaFLOPS的个人超级计算机系统GB10,针对桌面优化微调与推理[14] 软件生态系统 - Dynamo开源框架提升AI推理效率,可使GPU的Tokens生成能力提升30倍以上[19] - Halos平台整合自动驾驶安全系统,覆盖从芯片到算法全链条[20] - CUDA-X拥有超100万开发者,成为最受欢迎的AI编程工具包[23] - 发布Isaac GR00T N1人形机器人基础模型,采用双系统架构模拟人类决策与反射[25] 行业应用拓展 - Aerial平台构建端到端AI驱动的6G技术栈,与T-Mobile等合作开发原生AI网络[23] - Omniverse-Cosmos平台支持机器人训练与场景微调,与DeepMind合作开发物理引擎[25] - 软件专业技术是NVIDIA核心优势,推动高性能芯片在HPC、自动驾驶等领域的应用[25]
OpenAI研究负责人诺姆·布朗:基准测试比数字大小毫无意义,未来靠token成本衡量模型智能|GTC 2025
AI科技大本营· 2025-03-24 16:39
行业技术发展 - 诺姆·布朗提出范式更改比算力条件更重要,正确方法和算法可使多人扑克AI提前20年实现[2] - 推理计算被长期忽视但实际带来巨大差异,验证新范式需要大量计算投入[2] - 从Libratus到Pluribus,算法改进使六人扑克AI训练成本降至150美元,推理技术优化是关键[23][30] - CICERO项目突破自然语言博弈难题,但技术特定于《强权外交》游戏无法直接应用于现实谈判[39][40] 公司研发动态 - OpenAI o1-preview源自Q*项目,是全球首个推理模型,复现难度导致行业追赶受阻[4][6] - DeepSeek-R1于2025年1月发布并开源研究成果,终结行业闭源竞争局面[7] - 英伟达通过DLSS技术将图形渲染效率提升8-10倍,Megatron系统推动大模型训练扩展[21][22] - Meta开发Pluribus仅用28个CPU核心,每手牌20秒推理时间实现低成本高性能[24] 技术演进路径 - 从快思考(System 1)到慢思考(System 2)的转变标志AI推理能力质变[9][41] - 预训练与推理技术需协同发展,小模型无法支撑复杂推理能力[35][41] - 矩阵乘法主导AI系统设计,算法与硬件协同进化形成良性循环[33][35] - 单位成本智能成为新评估标准,需平衡token产出与计算资源消耗[41][42] 行业未来展望 - 推理计算规模将快速增长,专用硬件研发成为英伟达重点方向[41][44] - AI与人类智能成本差距显著,专业领域应用潜力巨大[42][45] - 多智能体环境技术尚未成熟,开放研究问题仍需解决[42][43] - 技术轨迹显示AI将持续突破现有局限,加速科学与社会进步[42][45]
不止芯片!英伟达,重磅发布!现场人山人海,黄仁勋最新发声
21世纪经济报道· 2025-03-19 11:45
文章核心观点 英伟达GTC2025大会围绕AI推理时代展开,发布了涵盖计算架构、企业AI应用、数据中心、机器人和自动驾驶等领域的技术,构建完整AI生态体系,有望推动企业和个人生产力变革,虽发布会后股价下跌,但大会或提振AI市场部分正面情绪 [28][30] 分组1:大会概况 - 当地时间3月18日,英伟达创始人兼CEO黄仁勋在英伟达GTC2025大会发表演讲,称其为“AI界的超级碗”,今年关键词是“推理”和“token”,AI叙事重心从训练转向推理 [1] - Forrester副总裁兼首席分析师戴鲲认为大会有三个方向值得关注,分别是面向后训练和推理的加速计算、面向企业级智能代理开发的Agentic AI、AI在物理世界中的应用 [3] 分组2:芯片家族 - 英伟达发布Blackwell Ultra系列芯片及下一代GPU架构Rubin,Vera Rubin NLV144计划于2026年下半年上线,Rubin Ultra NVL576将于2027年下半年面世 [5] - Grace Blackwell已全面投入生产,新平台强化推理能力,Blackwell Ultra在训练和测试时间缩放推理方面实现突破,被称为“AI工厂平台” [6] - Blackwell Ultra(GB300)包含GB300 NVL72机架级解决方案和HGX B300 NVL16系统,GB300 NVL72 AI性能提升1.5倍,使AI工厂收益机会相比Hopper平台提高50倍;HGX B300 NVL16推理速度提高11倍、计算能力提升7倍、内存容量扩大4倍 [8][9] - 瑞银报告指出,Blackwell系列需求强劲,GB200瓶颈解决,英伟达加快B300/GB300推出,预计第一季度提前量产,2025年第三季度大规模出货 [10] - 基于Blackwell Ultra的产品预计2025年下半年由合作伙伴推出,思科、戴尔等将率先推出相关服务器,预计到2028年数据中心投资超一万亿美元,暗示英伟达有增长空间 [11] 分组3:CPO交换机 - 英伟达推出全新NVIDIA Photonics硅光子技术,通过共封装光学取代传统可插拔光学收发器,可降低40MW功耗,提高AI计算集群网络传输效率 [13] - 推出Spectrum-X与Quantum-X硅光子网络交换机,Spectrum-X以太网平台带宽密度达传统以太网1.6倍,Quantum-X光子Infiniband平台AI计算架构速度较前代提升2倍,可扩展性增强5倍 [14] - 英伟达光子交换机集成光通信创新技术,较传统方式减少75%激光器使用,能效提升3.5倍等;摩根大通报告指出CPO应用于GPU最早可能2027年实现,且面临多项技术挑战,对基板供应商是利好 [15] 分组4:软件升级 - 英伟达关注机器人、自动驾驶等领域,生成式AI改变计算方式,计算机成为token生成器,数据中心演变成AI工厂 [17] - 英伟达新推出AI推理服务软件Dynamo,支持下Blackwell推理性能可达上一代Hopper的40倍,能最大化AI工厂token收益,采用分离式推理架构实现高效AI推理计算 [18][19] - 英伟达推出Llama Nemotron系列推理模型和AI - Q,支持企业和开发者构建AI Agent,提升推理能力,减少开发成本和部署难度 [20] - 英伟达核心护城河CUDA是强大软硬件体系,已拥有各领域AI工具 [21] 分组5:端侧AI和机器人 - 英伟达推出基于NVIDIA Grace Blackwell平台的全新DGX个人AI超级计算机系列,包括DGX Spark和DGX Station,将原本仅限数据中心使用的架构性能引入桌面环境 [23][24] - 英伟达正式发布全球首款开源、可定制的通用人形机器人基础模型Isaac Groot(GROOT N1),采用双系统架构,可适配多种任务,已被多家机器人制造商采用 [25] - 英伟达推出一系列模拟框架和方案,在机器人基础模型和体系化解决方案上再次升级,摩根大通预计其在Physical AI方面会有更多突破 [26] 分组6:市场情绪 - 过去一季度AI领域变化大,英伟达GTC2025大会发布众多技术,但发布会结束后股价下跌3.43% [28] - 摩根大通报告指出整体AI市场情绪偏空,GTC大会有望提振部分正面情绪,改善Blackwell系统供应状况,预计2026年AI数据中心资本支出继续健康增长 [29]
速递|与微软再对弈,OpenAI向CoreWeave注资120亿美元
Z Potentials· 2025-03-11 11:27
OpenAI与CoreWeave的战略合作 - OpenAI与CoreWeave签署五年期协议,价值119亿美元,涉及3.5亿美元股权获取 [1] - CoreWeave为OpenAI提供AI专用云服务,拥有32个数据中心和超25万台NVIDIA GPU [2] - 交易助力CoreWeave缓解IPO前对单一客户(微软)依赖的担忧,微软2024年贡献其62%收入(19亿美元) [2] CoreWeave的财务与业务动态 - CoreWeave 2024年收入达19亿美元,较2023年2.289亿美元增长近8倍 [2] - 公司计划通过IPO筹集40亿美元,部分资金用于偿还79亿美元债务 [6] - 创始团队已套现4.88亿美元股票,每人获利超1.5亿美元 [6] 微软与OpenAI的竞争关系 - OpenAI通过合作CoreWeave减少对微软云服务的依赖,微软原为其唯一云提供商 [5] - 微软开发自有AI推理模型MAI,与OpenAI产品直接竞争,并聘请竞争对手Mustafa Suleyman [5] - 双方在企业客户市场存在竞争,OpenAI拟推出高价AI代理加剧紧张 [4] CoreWeave的行业背景 - 公司由加密货币挖矿转型,现专注AI云服务,获NVIDIA 6%持股支持 [2] - 已部署NVIDIA Blackwell等最新GPU,强化AI推理能力 [2] - 业务扩张与债务高企并存,IPO成败或影响其偿债能力 [6]