Workflow
AI推理
icon
搜索文档
智通决策参考︱恒指稳步推进 重点观察机器人和稀土概念表现
智通财经· 2025-05-12 08:51
地缘政治与市场影响 - 印巴宣布停火,乌克兰提议5月15日在土耳其恢复俄乌直接谈判,显示地缘冲突趋缓 [1] - 中美会谈长达8小时进入解决分歧阶段,会谈结果将对市场走向起重大引领作用 [1] - 美国4月CPI数据及美联储主席鲍威尔讲话受关注,市场观察6月降息可能性 [1] 行业与公司动态 - 国家部署打击战略矿产走私出口专项行动,涉及镓、锗、锑、钨、中重稀土等资源 [2] - 宇树科技在上海成立分公司并扩招,机器人板块动向值得关注 [2] - 腾讯控股、京东、阿里等互联网巨头本周公布财报 [1] 万国数据-SW(09698)财报分析 - 2024年营业收入103.22亿元(+5.5%),调整后EBITDA 48.76亿元(+3%),国际业务出表后口径 [3] - 4Q24国际业务完成B轮融资,上市公司持股35.6%,合并报表口径调整后EBITDA 51.93亿元(+12.3%) [3] - 国内业务运营面积613,583平方米(+12%),机柜利用率73.8%,单价2011元/平米/月 [3] - 2025年国内新签订单152MW,资本开支预算上调至43亿元,23亿元用于新订单建设 [4] - 海外业务DayOne累计签单467MW,运营规模121MW,2024年收入1.73亿美元,计划18个月内上市 [4] 建筑行业出海趋势 - 中国建筑企业国际竞争力强,中国交建、中国建筑等进入ENR 2024年度全球前10强 [5] - 雅万高铁、中欧班列等"一带一路"项目展现技术实力,越南和发榕桔钢厂、克罗地亚风电项目为标志性工程 [6] - 八大建筑央企2024年海外新签同比+13.3%,2025年一季度同比+23.9%,中钢国际海外新签同比+54% [7] - 港股重点关注中交建(01800)、中国中铁(00390)、中铁建(01186)、中国能源建设(03996) [7] 港股市场数据 - 恒生期指(五月)未平仓合约总数96870张,净数36007张,结算日2024年05月29日 [8] - 恒生指数牛熊街货分布显示22868点熊证密集,港股存在做多动力,本周看涨 [8] - 港元汇率强势,资本持续流入,科技、生物制药、新消费等稀缺标的受资金青睐 [10]
芯片新贵,集体转向
半导体行业观察· 2025-05-10 10:53
AI芯片行业趋势 - AI芯片行业正从大规模训练市场转向更具现实落地潜力的推理市场,Nvidia在训练市场占据绝对主导地位,而其他公司如Graphcore、英特尔Gaudi等纷纷转向推理领域 [1] - 训练市场门槛极高,需要重资本、重算力和成熟的软件生态,新晋企业难以与Nvidia竞争,推理市场则更易规模化和商业化 [1][4] - 推理市场的优势在于内存和网络需求较低,适合初创企业切入,而Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink技术 [21][22] Graphcore转型 - Graphcore曾专注于训练芯片IPU,其Colosual MK2 GC200 IPU采用台积电7nm制程,性能接近Nvidia A100,2020年估值达28亿美元 [4] - IPU在稀疏数据处理(如分子研究)和医疗领域表现突出,微软曾用于新冠X光片识别,速度比传统芯片快10倍 [5] - 由于训练市场竞争失败,Graphcore被软银收购后转向推理市场,推出轻量级推理方案,聚焦金融、医疗和政府场景 [5][6] 英特尔Gaudi策略调整 - 英特尔2019年以20亿美元收购Habana Labs,Gaudi2采用7nm制程,吞吐量性能比Nvidia A100高2倍 [7] - 内部管理混乱导致Gaudi市场表现不佳,2023年转向"训练+推理并重",Gaudi3强调推理性价比,成本优势达30% [9][10] - 英特尔终止Falcon Shores开发,Gaudi3现面向企业私有化部署,如语义搜索和客服机器人 [10][11] Groq技术定位 - Groq创始人曾参与Google TPU开发,其LPU架构采用确定性设计,专注低延迟推理,适合大模型推理任务 [13] - 2024年展示Llama 2-70B模型推理速度达300 token/秒,吸引金融、军事等延迟敏感领域客户 [15] - Groq转型推理即服务(Inference-as-a-Service),通过GroqCloud平台提供API,与LangChain等生态集成 [16] SambaNova业务转向 - SambaNova的RDU芯片曾主打训练优势,但2022年后转向推理即服务,推出企业AI系统SambaNova Suite [17][19] - 聚焦金融、政府等私有化部署需求,提供合规化推理解决方案,与拉美金融机构和欧洲能源公司合作 [20][21] - 2024年裁员15%,完全放弃训练市场,专注推理商业化 [19] 技术对比与市场逻辑 - 训练芯片需复杂内存层级(HBM/DDR)和全互联网络,Nvidia凭借CUDA生态和硬件优化占据绝对优势 [21][22] - 推理芯片门槛较低,初创企业可通过垂直场景(如医疗、金融)或技术差异化(如Groq的低延迟)竞争 [23] - 行业进入"真实世界"阶段,竞争焦点从算力转向成本、部署和维护便利性 [23]
AI推理时代 边缘云不再“边缘”
中国经营报· 2025-05-09 23:09
边缘云技术革命 - 边缘云突破传统集中式计算模式 将数据处理能力下沉至网络边缘 实现数据快速响应和处理 [1] - 在AI大模型竞争中 行业焦点从训练阶段转向AI推理 边缘云成为新竞争焦点 [1] - 边缘云靠近节点 可提升数据交互和AI推理即时性与效率 同时保障信息安全 [1][5] AI推理需求爆发 - AI推理计算需求可能是训练需求的10倍甚至更多 企业更关注"后训练"阶段部署问题 [1] - 巴克莱报告指出 AI推理计算需求预计占通用人工智能总计算需求的70%以上 达训练需求的4.5倍 [3] - 英伟达创始人预测 推理算力需求规模增长将"轻松超过去年估计的100倍" [3] 行业技术动态 - OpenAI推出O1推理模型 Anthropic上线依赖推理的Agent功能 DeepSeek R1推理模型引发全球关注 [3] - DeepSeek采用跨节点专家并行模式 通过全面开源将AI推理资源池成本降至百卡/千卡范围 [4] - DeepSeek轻量灵活的部署方式已获科技、金融、政务等多行业接入 推动端侧AI爆发 [4] 边缘云核心优势 - 边缘云地理分布广泛 缩短交互链路 降低数据传输开销和成本 [5] - 边缘云节点容量大、健壮性强 结合边缘推理可支持企业数字化和智能化转型 [5] - 边缘侧提供额外能力如边缘缓存和安全防护 增强模型部署安全性 [5] 市场竞争要素 - 未来竞争核心在于成本/性能计算 包括推理成本、延迟和吞吐量 [6] - 边缘推理靠近终端用户和数据源 可提升用户体验和效率 同时满足"数据主权"需求 [6] - AI行业投资已开始转向推理 推理效率需综合评估吞吐量、时延和成本 [6]
Sambanova裁员,放弃训练芯片
半导体行业观察· 2025-05-06 08:57
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:本文编译自zach,谢谢。 四月下旬,资金最雄厚的AI芯片初创公司之一SambaNova Systems大幅偏离了最初的目标。与许 多其他AI芯片初创公司一样,SambaNova最初希望为训练和推理提供统一的架构。但从今年开 始,他们放弃了训练的雄心,裁掉了15%的员工,并将全部精力放在AI推理上。而且,他们并非 第一家做出这种转变的公司。 2017 年,Groq 还在吹嘘他们的训练性能,但到了2022 年,他们完全专注于推理基准。Cerebras CS-1 最初主要用于训练工作负载,但CS-2 和后来的版本将重点转向了推理。SambaNova 似乎是 第一代 AI 芯片初创公司中最后一个仍然认真专注于训练的公司,但这种情况终于发生了变化。那 么,为什么所有这些初创公司都从训练转向了推理呢?幸运的是,作为 SambaNova 的前员工(指 代本文作者zach,该作者自称 2019 年至 2021 年期间在 SambaNova Systems 工作),我(指代 本文作者zach,下同)有一些内部人士的见解。 SambaNova 非常重视在其硬件上训练模型。他们发布 ...
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 08:18
行业需求与市场动态 - 大型语言模型对推理芯片的需求激增,导致英伟达GPU供不应求,需求遍及所有地区 [3][4] - token生成量自年初以来增长5倍以上,给生态系统带来巨大压力,推动对处理工作负载的投资激增 [4] - AI公司用户数量呈爆炸式增长,例如Open Router等API公司数据显示,GPU资源争夺激烈,甚至出现"最后一块GB200"在2025年仅剩一块的状况 [4] 英伟达的供应与业绩 - 英伟达Blackwell芯片(尤其是GB200/300型号)供应受限,短期内无法满足爆炸式需求 [6] - Hopper GPU需求虽改善,但云客户5-6年折旧周期可能导致投资回报率不理想 [6] - 美元上行、供应紧张和出口限制叠加,引发市场对英伟达短期盈利的担忧 [6] 摩根士丹利的观点与调整 - 摩根士丹利将英伟达目标价从162美元轻微下调至160美元,主要反映同行组整体估值下降,而非公司基本面变化 [3][6] - 下调目标价体现对英伟达短期业绩的谨慎态度,但长期增长潜力依然强劲 [3][8] - 截至发稿,英伟达股价为111美元,较大摩目标价高45%左右 [6] 推理需求的关键性 - 摩根士丹利认为推理需求是关键,由使用模型并产生收入的部分驱动,证明推理模型的扩展是真实存在的 [4] - 推理需求与仅依赖风险投资的训练需求有本质区别 [4]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
华尔街见闻· 2025-04-27 18:38
投资者情绪与需求变化 - 过去四周投资者情绪因宏观经济和供应链风险恶化 但英伟达GPU核心需求因大型语言模型对推理芯片需求飙升且遍及所有地区 [1] - token生成量自年初以来增长5倍以上 给生态系统带来巨大压力并推动处理工作负载的投资激增 [1] - 多家AI公司报告用户数量爆炸式增长 例如Open Router等API公司因推理软件需求被迫争抢GPU资源 [1] 英伟达芯片供需状况 - 英伟达Blackwell芯片供应受限 尤其是GB200/300型号无法满足爆炸式需求 [2] - Hopper GPU需求有所改善 但云客户5-6年折旧周期导致投资回报率不理想 [2] - 美元上行、供应紧张和出口限制叠加 引发市场对英伟达短期盈利担忧 [2] 摩根士丹利对英伟达的评估 - 摩根士丹利将英伟达目标价从162美元下调至160美元 主要反映同行组整体估值下降而非公司基本面变化 [2] - 截止发稿英伟达股价为111美元 较大摩目标价高45%左右 [2] - 摩根士丹利认为供应限制和毛利率压力影响市场情绪 但对长期增长潜力保持信心 [4] 财务预测调整 - 摩根士丹利将2026财年收入预测上调10.7% 每股收益上调11.9% 并认为这些数字可能仍非常保守 [5]
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 18:19
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自 eetimes ,谢谢。 ZeroPoint Technologies 和 Rebellions 旨在开发一种 AI 加速器,以降低 AI 推理的成本和功耗。 据称,ZeroPoint Technologies 的内存优化技术能够快速压缩数据、增加数据中心的内存容量并提 高每瓦的 AI 推理性能。 2025年4月,瑞典内存优化知识产权(IP)供应商ZeroPoint Technologies(以下简称ZeroPoint) 宣布与Rebellions建立战略合作伙伴关系,共同开发用于AI推理的下一代内存优化AI加速器。该 公司计划在 2026 年发布一款新产品,并声称"有望实现前所未有的代币/秒/瓦特性能水平"。 作为合作的一部分,两家公司将使用 ZeroPoint 的内存压缩、压缩和内存管理技术来增加基本模 型推理工作流程的内存带宽和容量。 ZeroPoint 首席执行官 Klas Moreau 声称其基于硬件的内存 优化引擎比现有的软件压缩方法快 1,000 倍。 ZeroPoint 的内存压缩 IP 价值主张 首先,压缩和解压缩。其次,压缩生成的 ...
大模型一体机塞进这款游戏卡,价格砍掉一个数量级
量子位· 2025-04-09 16:58
大模型一体机硬件选择 - 大模型一体机中可使用英特尔锐炫显卡作为N卡的替代方案 [1][2] - 飞致云测试显示4张锐炫A770显卡完成大型任务耗时50分钟,比N卡方案慢20分钟但成本仅为半张N卡价格 [6][7] - 英特尔方案将私有化部署成本从百万元级降低一个数量级,性价比显著提升 [12][13][14] 英特尔技术组合优势 - 采用锐炫显卡+至强W处理器的组合拳模式,显卡负责推理加速,CPU协调计算与异构加速 [16][17][20] - 通过优化显存带宽(A770卡间通信20G/秒)和低时延技术提升多卡并行效率,支持70B模型12路实时聊天 [20] - 适配多样化场景:2卡工作站至8卡一体机均可部署,覆盖30-50人团队需求 [9][20][30] 行业应用案例 - 飞致云MaxKB系统应用于知识问答、智能客服等场景,实现效率与成本优化 [5][22] - 超云推出塔式工作站至8卡高端一体机,支持32B-70B模型金融投顾、文档处理 [28][29][30][38] - 云尖边缘推理工作站支持4卡轻量化模型,适用于OCR、智能质检等本地化AI应用 [32] 一体机部署趋势 - 开箱即用、深度定制化特点加速企业部署,无需复杂调试且启动成本低 [35][36][37] - 一体机在运维简化、稳定性和专机专用方面优于传统IT系统与云服务 [39][40][41] - 英特尔方案兼容DeepSeek、Qwen、Baichuan等主流开源模型,适配多业务场景 [43][44] 行业生态与愿景 - 开源模型推动AI普惠,一体机承担类似PC普及的历史使命 [45][46] - 英特尔复刻PC时代成功经验,联合合作伙伴降低AI部署门槛 [46]
AI芯片,需求如何?
半导体行业观察· 2025-04-05 10:35
行业格局变化 - 2023年AI推理领域出现新趋势,传统云服务商(AWS、Azure、谷歌云)之外涌现大量配备Nvidia芯片的GPU云提供商,形成新的竞争格局[1] - 行业出现重大转变,大多数AI基础设施开始在三大云提供商之外构建,创造新的市场机会[1] - 新兴GPU云提供商建立的数据中心配备数千个Nvidia芯片,推动AI推理等计算需求[1] Parasail公司概况 - 由Mike Henry和Tim Harris于2023年底创立,获得1000万美元种子资金[1] - 商业模式类似电力公司,连接AI推理需求方与GPU计算资源供应方[1] - 提供聚合的无合同GPU容量,宣称超过Oracle云基础设施规模[2] - 使用AI部署网络连接企业与GPU提供商,确保工作负载获得所需计算能力[2] 技术优势 - 成本优势显著:相比OpenAI或Anthropic可节省15-30倍成本,相比其他开源提供商节省2-5倍[3] - 部署速度快:GPU设置仅需数小时,推理可在几分钟内完成[3] - 提供多种Nvidia GPU选择,包括H200、H100、A100和RTX4090,价格区间为每小时0.65-3.25美元[3] - 构建全球性Kubernetes编排系统,克服不同GPU云提供商的技术差异[5][6] - 实现跨多个提供商的集群管理,使全球GPU云成为工作节点[6] 市场表现 - 2024年1月开始封闭测试,需求持续增长[8] - 年度经常性收入(ARR)已超过七位数[8] - 客户包括SambaNova、Oumi、Rasa和Elicit等AI领域公司[8] 行业洞察 - 市场存在"奇怪悖论":GPU看似稀缺但实际有大量闲置容量,问题在于优化和利用率不足[9] - 下一代AI应用需求几乎无限,将取代传统互联网应用[9] - 当前市场Nvidia GPU占主导地位,但预计未来会发生变化[9] 团队背景 - 创始人Henry曾创立AI平台公司Mythic,融资1.65亿美元,开发过AI加速硬件[2] - 联合创始人Harris是自动驾驶公司Swift Navigation的创始人[2] - 计划扩充目前12人的团队,重点增加工程岗位[9]
【电子】英伟达GTC2025发布新一代GPU,推动全球AI基础设施建设——光大证券科技行业跟踪报告之五(刘凯/王之含)
光大证券研究· 2025-03-22 22:46
英伟达GTC大会核心观点 - 提出Agentic AI作为AI技术发展的中间态 按照"Generative AI Agentic AI Physical AI"三阶段进化路线推进 [3] - 全球数据中心建设投资额预计2028年达到1万亿美元 Scaling Law发展需要更大规模算力资源投入 [3] 芯片产品规划 - Blackwell Ultra芯片2025年下半年供货 基于Blackwell架构 AI推理性能显著提升 [4] - GB300 NVL72机架级解决方案AI性能比GB200 NVL72提升1.5倍 已全面投产 [4] - Vera Rubin系列芯片为下一代AI平台 预计2026年下半年推出Vera Rubin 2027年下半年推出Vera Rubin Ultra [4] 光通信技术突破 - 推出115.2T的800G Quantum-x CPO交换机 采用微环调制器1.6T硅光CPO芯片 预计2025下半年上市 [5] - 基于CPO共封装光学平台打造Spectrum-x系列光交换机 包括128端口800G和512端口800G型号 [5] 软件与生态系统 - 推出AI推理服务软件Dynamo 支持Blackwell芯片实现推理性能飞跃 [6] - 发布NIM服务支持企业构建AI Agent 推出AI-Q(NVIDIA IQ Blueprint)框架 [6] - 推出DGX Spark个人AI超级计算机和GR00T N1人形机器人模型框架 [6] 大会规模与内容 - 包含1000多场会议 400多项展示和技术实战培训活动 [2] - 聚焦代理式AI 机器人 加速计算等前沿领域发展 [2]