推理服务器

搜索文档
红帽:AI的未来是开放的,开源方案可加快释放生成式AI潜能
环球网· 2025-06-30 09:23
【环球网科技报道 记者 林迪】"混合云已成为企业运营的普遍选择,它在成本、便捷性、安全性方面具备显著优势。而 AI 的发展更是日新月异,生成式 AI 已深刻影响我们的生活与企业运营。"近日,红帽全球副总裁兼大中华区总裁曹衡康对记者表示,红帽致力于以开源模式推动 AI 发展,成为开源 AI 领域的 重要驱动力量。 近期,2025 年红帽全球峰会发布了众多前沿技术以及产品更新,旨在助力企业更好地应对当下数字化转型浪潮中的诸多挑战,为企业未来的发展注入强劲 动力。近期,红帽相关负责人对此进行了深入分享与解读。 红帽在此次峰会还重点推出 OpenShift 虚拟化服务升级版。该服务可在多云环境下运行,支持 AWS、Azure、Google Cloud 等主流云平台。自推出以来, OpenShift 虚拟化客户增长迅猛,不到两年客户数量增长 3 倍,生产中的集群数量翻倍,管理的虚拟机数量也实现 3 倍增长。其凭借卓越性能与广泛兼容 性,助力企业灵活构建虚拟化环境,满足多样业务需求。 值得关注的是,红帽 AI 推理服务器的发布旨在为 AI 发展注入新活力。该服务器基于热门的 vLLM 架构打造,聚焦于提升推理效率与性能。 ...
对话红帽全球副总裁曹衡康:AI成本下降了 芯片的量一定会起来
每日经济新闻· 2025-06-14 17:02
基于这一背景,红帽在2025年推出了推理服务器。根据红帽方面介绍,使用推理服务器的最大优势就是 降低企业的算力成本。不过,该公司高管也在采访中多次强调,红帽不做硬件,只做软件。 随着未来算力成本的降低,行业对芯片算力卡的需求是否会有变化?曹衡康告诉《每日经济新闻》记 者,在他看来,目前AI的应用还不够多。"毕竟用AI成本太高。假设今天(原本)有1000家企业用 (AI),成本降低了会是1万家、10万家、100万家企业用。GPU(图形处理器)的量一定会起来的。 现在我们的做法就是让门槛更低。"曹衡康称。 封面图片来源:视觉中国-VCG211322973159 每经记者|杨卉 每经编辑|魏官红 DeepSeek爆火后,算力成本终会降低成了行业共识。但选择哪一路径,是数据中心、一体机还是推理 服务器,业内尚未有统一的定论和参考模式。6月13日,在"2025红帽媒体Open讲"线下交流会上,红帽 全球副总裁兼大中华区总裁曹衡康告诉《每日经济新闻》记者,在红帽看来,今年是AI(人工智能) 的推理元年。AI进入了推理后,意味着所有的AI应用将正式开始上线运行,并且为企业带来业务收入 以及内部成本控制等实际效益。 红帽大中 ...
鲲鹏昇腾开发者大会2025:华鲲振宇AI全栈能力构建AI开发新范式
搜狐财经· 2025-05-29 19:44
大会期间,华为正式发布多样化算力集群软件开源社区 openFuyao,华为、华鲲振宇、某国有大行、中国移动、联通数科、博云科技等六家单位作为筹备 委员会成员出席发布仪式。华鲲振宇副总裁赵彦钧入选筹备委员会成员,AI 开发部部长徐洋入选技术委员会,深度参与社区长期发展与技术路线规划。 5月23日,以 "心怀挚爱,共绽光芒" 为主题的鲲鹏昇腾开发者大会 2025 在北京中关村国际创新中心成功举办。华鲲振宇作为鲲鹏&昇腾生态唯一战略级 伙伴,向开发者全景呈现AI全栈解决方案,携手华为、伙伴及开发者共推国产化算力自主创新、共建多样化算力集群软件生态。 自研元启AI开发平台开放体验 在展区内,华鲲振宇独立展台开放AI全栈解决方案体验,开发者现场深度体验自研元启AI开发赋能平台,通过零代码构建智能体、自动化生成知识图 谱、图形化流程编排等功能,开发者可以直观感受像搭积木一样搭建个人/企业智能体,有效解决AI应用开发门槛高的痛点,助力企业让大模型真正运行 起来。 作为鲲鹏唯一战略级整机合作伙伴,华鲲振宇算力创新产品——"卡多多"AT9508 G3推理服务器受邀亮相鲲鹏展区,基于鲲鹏创新架构,支持生态内最高 规格的10卡双宽 ...
联想集团(00992.HK):三大业务全面增长 有望持续受益于AI发展
格隆汇· 2025-05-27 10:12
IDG:PC 地位稳固,AIPC 持续渗透。第四财季智能设备业务实现营业额118.1 亿美元,同比+12.9%, 环比-14.3%;经营利润率同比-0.6pct 至6.8%。第四财季手机出货量同比+6%,亚太/欧洲-中东-非洲区分 别实现179%/32%的增速,海外市占率提升至第四位;平板出货量同比+18%。 机构:东吴证券 研究员:张良卫/李博韦 投资要点 事件:公司发布24/25 财年业绩,24/25 财年公司实现营收690.8 亿美元,同比+21.4%;归母净利润13.8 亿美元,同比+37.0%;第四财季公司实现营收169.8 亿美元,同比+22.5%,环比-9.6%;归母净利润0.9 亿美元,同比-63.7%,环比-87.0%;非香港财务报告准则归母净利润2.8 亿美元,同比+24.7%,环 比-35.3%。归母净利润下滑主要系非现金认股权证公允值亏损所致。 盈利预测与投资评级:我们预计公司各项业务将持续受益于AI 浪潮,AIDC、AIPC 产品、个人及企业 智能体将推动公司业绩稳健增长,我们将公司FY2026/2027 年预期归母净利润由15.8/16.8 亿美元上调至 16.0/17.6 亿美元 ...
联想集团(00992):FY2025业绩点评:三大业务全面增长,有望持续受益于AI发展
东吴证券· 2025-05-26 21:28
报告公司投资评级 - 维持“买入”评级 [1] 报告的核心观点 - 联想集团24/25财年业绩良好,各业务板块表现出色,预计各项业务将持续受益于AI浪潮,AIDC、AIPC产品、个人及企业智能体将推动公司业绩稳健增长,上调公司FY2026/2027年预期归母净利润,并预测FY2028归母净利润 [7] 根据相关目录分别进行总结 业绩情况 - 24/25财年公司实现营收690.8亿美元,同比+21.4%;归母净利润13.8亿美元,同比+37.0%;第四财季公司实现营收169.8亿美元,同比+22.5%,环比-9.6%;归母净利润0.9亿美元,同比-63.7%,环比-87.0%;非香港财务报告准则归母净利润2.8亿美元,同比+24.7%,环比-35.3%,归母净利润下滑主要系非现金认股权证公允值亏损所致 [7] 各业务板块表现 - **IDG**:第四财季智能设备业务实现营业额118.1亿美元,同比+12.9%,环比-14.3%;经营利润率同比-0.6pct至6.8%。第四财季手机出货量同比+6%,亚太/欧洲 - 中东 - 非洲区分别实现179%/32%的增速,海外市占率提升至第四位;平板出货量同比+18%,PC市占率达23.8%领先优势扩大。AIPC在中国市场笔记本总销量中占比16%,超额完成目标,公司预计至2025年AIPC渗透率将达25%左右,2027年将达80%左右,公司持续推进“个人智能双胞胎”,未来将推出更多搭载“天禧”个人超级智能体的终端产品,AIPC侧竞争力可进一步提升 [7] - **ISG**:第四财季基础设施方案业务实现营业额41.2亿美元,同比+62.6%,环比+4.6%;经营利润率同比+4.0pct至0.1%,连续两季度盈利。受服务器订单增加和企业业务复苏驱动,全年CSP业务/企业基础设施营收同比+92%/+20%。海神液冷解决方案全年收入同比+68%,第四财季同比+244%加速增长。公司已发布新一代ThinkSystem V4服务器等产品,ISG业绩有望持续增长 [7] - **SSG**:第四财季方案服务业务实现营业额21.5亿美元,同比+18.1%,环比-4.7%;经营利润率同比+1.2pct至22.7%。第四财季解决方案和“即服务”业务收入占比同比+4pct至60%,业绩可持续性提升。SSG混合云服务全年订单同比+82%,其中GPU即服务增长高达13倍。公司加速推进生成式AI应用,推出AI智能体平台等新品组合,携手合作伙伴完善企业级AI应用,有望在AI普及过程中收获增量 [7] 盈利预测 - 预计公司FY2026/2027/2028年归母净利润分别为16.0/17.6/19.7亿美元,2025年5月26日收盘价对应PE分别为9.3/8.4/7.5倍 [7] 财务预测表 - 给出联想集团FY2025A - FY2028E的资产负债表、利润表、现金流量表及主要财务比率等数据,包括流动资产、营业总收入、经营活动现金流等项目的预测值及相关比率变化 [8]
联想集团ISG业务连续两季度盈利 Q4营收同比增长63%
格隆汇· 2025-05-22 13:37
公司业绩 - 公司2024/25财年全年营收达4985亿元人民币 同比增长21.5% 创历史第二高位 [1] - 全年盈利同比增长36% 增速快于营收增长 [1] - 第四季度ISG业务营收299.6亿人民币 同比增长63% 连续第二个季度实现盈利 [1] - 中国市场营收同比增长113% 海神液冷解决方案收入同比大增244% [1] 产品与技术 - 公司发布新一代ThinkSystem V4服务器和ThinkEdge SE100入门级AI推理服务器 [1] - 第六代Neptune海神液冷技术带来40%的能源效率提升 [1] - 存储产品组合迎来史上最大规模更新 发布21款存储产品及全新数据存储解决方案 [1] ISG业务表现 - ISG全年营收1048亿人民币 同比增长63% 盈利能力大幅改善 [2] - 云基础设施(CSP)业务收入同比增长92% [2] - 企业基础设施(E/SMB)收入增速达20% 创历史新高 [2] - 海神液冷解决方案收入同比增长68% [2] - AI服务器业务实现高速增长 拓展至高频交易、新能源及智慧医疗等行业 [2] - 存储业务营收同比增长24% [2] 行业前景 - IDC预计2025年全球基础设施市场将增长18% 达2650亿美元 [2] - AI服务器2025年市场规模预计达1472亿美元 2024-2027年复合年增长率18% [2] - 生成式AI和多模态模型加速落地将推动企业级AI基础设施投入持续释放 [2] 发展战略 - ISG将坚持"云基础设施+拓展企业基础设施"业务模式 [2] - 持续优化产品结构 强化市场销售能力 提升端到端运营韧性 [2] - 加码AI服务器、液冷方案和边缘计算布局 打造混合式智能基础设施平台 [2]
氪星晚报|谷歌CEO:Gemini AI应用月活用户已超4亿;马来西亚将为芯片制造行业提供激励措施;中石油等在锦州成立车用能源销售新公司
36氪· 2025-05-21 18:42
大公司: 阿联酋政府与空客签署谅解备忘录,以推动本地航空制造能力建设 当地时间5月20日,阿联酋工业与先进技术部同空客公签署谅解备忘录,旨在推动本地航空制造能力提 升。备忘录确立了双方在航空工业领域建立长期合作的框架,旨在推动阿联酋国家工业的可持续增长, 发展本地供应链体系,并促进本地企业融入空中客车的全球价值链。(界面) 小鹏汽车:预计二季度交付量10.2万-10.8万辆,同比增237.7-257.5% 36氪获悉,小鹏汽车发布2025年第一季度财报。财报显示,该季度净亏损6.60亿元,上年同期净亏损 13.7亿元,市场预期净亏损13.86亿元;交付量94008台,同比增长330.8%。预计第二季度营收175亿 元-187亿元,同比增长约115.7%-130.5%;交付量10.2万-10.8万辆,同比增237.7-257.5%。截至发稿,小 鹏汽车美股盘前涨超6%。 华是科技:实控人之一、董事、总经理叶建标留置时间延长三个月 36氪获悉,华是科技公告,公司于2025年2月21日披露了实际控制人之一、董事、总经理叶建标被桐庐 县监察委员会实施留置及立案调查的事项。2025年5月20日,公司接到叶建标家属告知, ...
5.21犀牛财经晚报:金饰价格再次破千元 阿里大文娱更名“虎鲸文娱”
犀牛财经· 2025-05-21 18:27
华泰苏州恒泰租赁住房REIT今日在上交所上市 5月21日,华泰苏州恒泰租赁住房REIT(508085)在上交所举行上市仪式。华泰苏州恒泰租赁住房REIT 基金份额5亿份,发售价格2.73元/份,募集资金总额13.67亿元。华泰苏州恒泰租赁住房REIT原始权益人 为苏州工业园区公租房管理有限公司,基金管理人和专项计划管理人为华泰证券(上海)资产管理有限 公司。(上交所发布) 机构:2025年第一季新能源车销量突破400万辆 年增39% 根据TrendForce集邦咨询最新统计,2025年第一季全球纯电动车(BEV)、插电混合式电动车 (PHEV)和氢燃料电池车等新能源车合计销量达402万辆,年增39%,新能源车占第一季全球汽车销售 比例为18.4%。(智通财经) 一箭六星!力箭一号遥七运载火箭发射成功 北京时间2025年5月21日12时5分,力箭一号遥七运载火箭在东风商业航天创新试验区发射升空,将搭载 的泰景三号4星、泰景四号02A星、星睿十一号卫星、星迹源一号卫星、立方108 1星、西光壹号2星共6 颗卫星顺利送入预定轨道,飞行试验任务获得圆满成功。此次任务是力箭一号运载火箭的第7次飞行。 (央视新闻) 人形 ...
红帽公司宣布推出红帽AI推理服务器
快讯· 2025-05-21 17:36
开源解决方案提供商红帽公司近日宣布推出红帽AI推理服务器(Red Hat AI Inference Server),这是在混 合云中普及生成式AI(gen AI)的重要一步。作为红帽AI中的新产品,该企业级推理服务器源自强大的 vLLM社区项目,并通过红帽对Neural Magic技术的集成进一步增强,可以提供更高的速度、加速器效 率和成本效益,助力实现红帽"在任意云环境中的任意AI加速器上运行任意生成式AI模型"的愿景。(36 氪) ...
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
量子位· 2025-05-19 12:37
华为昇腾技术突破 - 华为昇腾在超大规模MoE模型推理性能上全面超越英伟达Hopper架构,实现"英伟达含量为0"的突破 [1] - 通过"以数学补物理"策略,利用数学理论、算法和建模弥补硬件局限,最大化发挥芯片和系统能力 [1] - 具体产品性能: - CloudMatrix 384超节点在50ms时延下单卡Decode吞吐达1920 Tokens/s [1][18] - Atlas 800I A2推理服务器在100ms时延下单卡吞吐达808 Tokens/s [1][21] 技术开源与披露 - 公司将全面开源昇腾超大规模MoE模型推理部署技术,包括技术报告和核心代码 [2] - 技术披露周活动将展示最新进展,相关资源可通过指定链接获取 [40][41] 行业趋势与挑战 - 大模型发展重心从训练转向推理应用落地,企业竞争焦点转向推理效率 [5][6] - 超大规模MoE模型(如6710亿参数的DeepSeek V3)带来三大挑战: - 内存压力:单个专家2.5G,64GB内存硬件难以承载 [7] - 通信开销:跨芯片数据传输耗时超过计算时间 [8] - 架构创新负担:如MLA机制导致中间变量激增 [9] 技术解决方案 硬件部署优化 - 采用PD分离部署解耦Prefill和Decode时延约束 [10] - CloudMatrix 384超节点采用144卡EP并行部署,128卡专用于路由专家 [17] - Atlas 800I A2采用多节点互联,2机16卡Prefill+4机32卡Decode [20] 框架与模型优化 - 基于vLLM框架适配DP/EP并行策略,优化调度分桶和分层传输 [12] - 采用A8W8C16量化策略(INT8+BF16),差异化部署不同机型 [13] - API Server横向扩展方案提升高并发场景QPS,动态负载均衡技术解决显存占用问题 [22] 通信优化 - FlashComm方案降低25%通信量并提升10%推理性能 [25] - 层内并行转换方案消除节点内卡间求和操作 [26] - 计算通信并发机制最大化硬件利用率,MLA层计算性能提升10% [27] 算子优化 - AMLA算法将乘性计算转为加性等价形式,减少数据搬运 [31] - L1/L2缓存精细化管理提升命中率,K-buffer流水排布掩盖计算耗时 [31] - 通算融合算子实现Token粒度流水排布,降低卡间同步开销 [31] 性能实测数据 - Prefill阶段:16K序列端到端耗时631ms,卡均吞吐1622 Tokens/s [34][36] - Decode阶段: - 2K输入+2K输出场景下吞吐达808 Tokens/s(90%接受率) [32] - 1K输入+2K输出场景下吞吐达876 Tokens/s(90%接受率) [32] - SiliconLLM框架部署DeepSeek-R1实现单卡1920 Tokens/s,等效H100性能 [38][39]