AI推理
搜索文档
上证早知道|个人消费贷财政贴息来了!下月开源 华为AI大动作!中国恒大 被取消上市地位
上海证券报· 2025-08-13 07:06
财政与金融政策 - 财政部、中国人民银行、金融监管总局印发《个人消费贷款财政贴息政策实施方案》,明确在2025年9月1日至2026年8月31日期间对符合条件的个人消费贷款给予财政贴息 [1][3] - 九部门印发《服务业经营主体贷款贴息政策实施方案》,财政部门对服务业经营主体贷款按本金进行贴息,贴息期限不超过1年,年贴息比例1个百分点,中央和省级财政分别承担90%和10%,单户贴息贷款规模最高达100万元 [2] - 国务院批准自2025年8月12日12时01分起,在90天内继续暂停实施24%的对美加征关税税率,保留10%的税率 [2] 科技与创新 - 华为发布AI推理创新技术UCM(推理记忆数据管理器),计划于2025年9月正式开源,旨在扩大推理上下文窗口并降低每Token推理成本 [1][8] - 昆仑万维在中国发布并开源自研世界模型Matrix系列升级版Matrix-Game 2.0,支持生成跨场景长时视频并保持动作和视觉时序一致性 [6] - 中国移动四川公司携手华为完成全国首个1120MHz频谱带宽下的5G-A多载波聚合性能测试,单用户下载速率达到11.13Gbps [6] - 广立微通过全资子公司收购LUCEDA NV 100%股权,LUCEDA是硅光芯片设计自动化软件领域的全球领军企业 [21] 产业发展与规划 - 工业和信息化部等七部门印发《关于推动脑机接口产业创新发展的实施意见》,目标到2027年关键技术取得突破,产业规模壮大,打造2至3个产业发展集聚区;到2030年培育2至3家有全球影响力的领军企业 [10][11] - 福建省通信管理局印发《福建省信息通信行业推动新型信息基础设施高质量发展行动计划(2025-2027年)》,目标到2027年推动"双千兆"网络普及,5G积极演进,万兆光网创新 [4] - 广州市人民政府等印发实施方案,鼓励国内保险机构在南沙设立私募股权投资基金,推动"险资入穗",支持保险机构通过债券、股票等方式投资科创企业 [4] 市场动态与数据 - 2025年上半年全球智能眼镜市场出货量同比增长110%,主要受Ray-Ban Meta智能眼镜强劲需求及小米、雷鸟科技等新进入者推动 [6] - 浙商证券测算显示,2025年至2027年液冷市场规模预计分别为354亿元、716亿元和1082亿元,2027年有望突破千亿元 [12] - IDC预计2025年至2029年中国液冷服务器市场年复合增长率达48%,2028年市场规模约162亿美元 [12] - 2025年全球存储市场预计维持双位数增长,突破2300亿美元 [9] 公司公告与业绩 - 中国恒大将被联交所取消上市地位,最后上市日为2025年8月22日,8月25日上午九时起取消上市地位 [1][7] - 特斯拉Model 3长续航后轮驱动版正式上线,续航830公里(CLTC),5.2秒百公里加速 [6] - 臻镭科技上半年营业收入2.05亿元,同比增长73.64%,净利润6231.97万元,同比增长1006.99% [17] - 国盾量子拟与中电信量子信息科技集团签订销售合同,金额7654.18万元,另提供技术服务合同金额1400万元 [15] - 海思科收到国家药监局批准,同意HSK47977片开展临床试验,该药品为口服BCL6 PROTAC小分子制剂,用于治疗非霍奇金淋巴瘤 [18][19] 投资与资金流动 - 全市场新基金启动募集连续三周单周不低于30只,权益基金占比超八成,指数基金为主力军 [22] - 今年以来公募净申购权益类基金总额超26亿元,南方基金运用固有资金投资旗下权益基金不少于2.3亿元 [23] 行业倡议与合作 - 中国有色金属工业协会锂业分会倡议锂产业链企业加强上下游协同,维护产业安全,抵制无序竞争,合理布局产能 [5][6]
晚报 | 8月13日主题前瞻
选股宝· 2025-08-12 22:37
养鸡 - 7月初白羽鸡毛鸡价格跌破3元/斤,8月最高飙升至3.7元/斤,鸡苗价格从1.5元/只涨至4.2元/只,山东鸡苗价格一个多月上涨300% [1] - 上半年祖代肉种鸡更新量同比下降36.72%,将影响7个月后父母代肉种鸡和14个月后商品代白羽肉鸡供给 [1] - 高温导致雏鸡存活率下降15%,40-60日龄在栏鸡数量环比减少8%,8月补栏对应国庆前出栏 [1] 华为产业链 - 华为发布AI推理创新技术UCM,可扩大推理上下文窗口,降低每Token推理成本,计划2025年9月开源 [2] - UCM技术通过优化KV Cache记忆数据管理解决HBM资源不足导致的推理体验下降问题 [2] - 该技术发布正值AI产业从追求模型能力转向追求推理体验最优化的关键节点 [2] 消费金融 - 财政部等部门实施个人消费贷款贴息政策与服务业经营主体贷款贴息政策 [3] - 政策覆盖餐饮住宿、健康、养老等8类消费领域,通过1%贷款贴息有望增加百亿级消费动力 [3] - 政策从供需两端发力提振消费,餐饮住宿、消费金融公司和信贷金融机构将受益 [3] 量子通信 - 中国科学技术大学团队利用AI技术在60毫秒内构建2024个原子的无缺陷二维和三维原子阵列 [4] - 该方法刷新了中性原子体系无缺陷原子阵列规模的世界纪录 [4] - 研究成果为大规模中性原子量子计算奠定关键技术基础 [4] 宏观行业新闻 - 九部门印发《服务业经营主体贷款贴息政策实施方案》 [5] - 三部门印发《个人消费贷款财政贴息政策实施方案》 [6] - 商务部对加拿大进口豌豆淀粉进行反倾销调查 [6] - 发改委举办推进低空经济高质量发展专题培训 [6] - 中国信通院发布《脑机接口技术与应用研究报告(2025年)》 [6] - 干法锂电池隔膜企业就行业反内卷达成共识 [6] - 广州加强区块链、人工智能等数字服务机构招商引资 [6] 行情回顾 - 国产芯片、AI芯片、液冷服务器、新疆概念、脑科学、光通信、机器人、东数西算/算力、雅江电站、房地产、大消费、军工、RWA、医药、资产重组、ST股等板块表现活跃 [8][9][10][11][12]
华为AI推理新技术犀利!中国银联大模型效率提高了125倍
21世纪经济报道· 2025-08-12 22:11
技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 [1] - 技术通过推理框架 算力 存储三层协同 实现高吞吐 低时延的推理体验 降低每Token推理成本 [1][5] 技术原理 - KV Cache是一种优化Transformer模型推理速度的技术 通过缓存历史token的Key和Value矩阵 避免重复计算 提升推理速度并降低计算成本 [3] - KV Cache采用用内存换计算的工程优化手段 作为模型推理过程中的记忆本临时保存计算中间结果 [3] - UCM包含三大组件:推理引擎插件Connector 支持多级KV Cache管理及加速算法的功能库Accelerator 高性能KV Cache存取适配器Adapter [5] 性能提升 - 依托UCM层级化自适应的全局前缀缓存技术 系统可直接调用KV缓存数据 使首Token时延最大降低90% [5] - 在中国银联客户之声业务场景试点中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [5] - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 而国内普遍小于60 Tokens/s(时延50-100ms) [4] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强且对速度 效率 安全要求高 成为验证技术的标杆场景 [5] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果规模化应用 [6] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 包括直通加速 KV检索索引与底层文件系统元数据融合 [8] - UCM具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [8] - 相比业界仅停留在Prefix Cache层面 UCM将稀疏全流程算法 后缀检索算法等投入商用 提供更丰富可靠的算法库 [8] 生态建设 - UCM通过开放统一的南北向接口 可适配多类型推理引擎框架 算力及存储系统 [9] - 计划于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [9] - 华为在AI布局上持续进行产业链各环节升级 实现从单点算力模组转向系统性优化的趋势 [9]
降低传统路径依赖,华为推出AI推理新技术
第一财经· 2025-08-12 20:43
华为UCM技术发布 - 华为推出AI推理新技术UCM 以KV Cache和记忆管理为中心 通过推理框架、算力和存储三层协同优化Tokens流转效率 [1] - UCM可将首Token时延最高降低90% 系统吞吐最大提升22倍 实现10倍级上下文窗口扩展 [2] - 华为计划在9月正式开源UCM 希望联合产业界推进AI推理生态建设 [3] 国内外推理效率对比 - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 中国普遍小于60 Tokens/s(时延50-100ms) [1] - 中国头部互联网公司在推理Token数上与海外头部公司存在差距 [1] - 国内在KV Cache软件体系构建上尚未形成完整解决方案 国外已有成熟推理加速软件框架能与各类硬件平台适配 [2] 技术架构创新 - UCM不再单纯依赖HBM高带宽内存 而是在存储层面构建多层级可灵活调配的资源体系 [2] - 系统级推理架构优化需要从芯片级、软件级到框架级协同考虑 形成完整推理架构 [3] - 业界缺乏普适适用的框架与加速机制 需通过产业协同解决AI落地效率与成本问题 [3]
华为在沪发布AI推理创新技术UCM 9月将正式开源
搜狐财经· 2025-08-12 19:53
产品发布与技术特点 - 华为发布UCM推理记忆数据管理器 作为以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐低时延的推理体验 降低每Token推理成本 [2] - UCM包含三大组件 推理引擎插件Connector对接不同引擎与算力 功能库Accelerator支持多级KV Cache管理及加速算法 高性能KV Cache存取适配器Adapter 通过推理框架算力存储三层协同实现更优体验更低成本 [3] - UCM通过层级化自适应的全局前缀缓存技术 使系统直接调用KV缓存数据避免重复计算 首Token时延最大降低90% 同时将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 根据记忆热度在HBM DRAM SSD等存储介质中实现按需流动 融合多种稀疏注意力算法实现存算深度协同 使长序列场景下TPS每秒处理token数提升2-22倍 显著降低每Token推理成本 [3] 应用场景与合作伙伴 - 华为携手中国银联率先在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4] 开源计划与生态建设 - 华为正式公布UCM开源计划 通过开放统一的南北向接口适配多类型推理引擎框架算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 携手全产业共同推动AI推理生态的繁荣发展 [4] 行业背景与发展趋势 - 人工智能已步入发展深水区 AI推理正成为下一个爆发式增长的关键阶段 [2] - AI时代模型训练推理效率与体验的量纲都以Token数为表征 Token经济已经到来 [2] - 为保障流畅的推理体验企业需持续加大算力投入 在推理效率与成本之间找到最佳平衡点成为全行业亟待解决的重要课题 [2]
华为:AI推理创新技术UCM将于今年9月正式开源
新浪科技· 2025-08-12 19:21
产品发布 - 华为发布AI推理创新技术UCM推理记忆数据管理器 包括推理引擎插件Connector 功能库Accelerator 高性能KV Cache存取适配器Adapter三大组件 [2] - UCM技术通过推理框架 算力 存储三层协同 实现AI推理更优体验和更低成本 [2] 技术应用 - 华为与中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [3] 行业观点 - AI时代模型训练和推理效率的量纲以Token数为表征 Token经济已经到来 [2] - 企业需持续加大算力投入保障推理体验 但需在推理效率与成本之间找到最佳平衡点 [2] 生态发展 - 华为公布UCM开源计划 通过开放统一南北向接口适配多类型推理引擎框架 算力及存储系统 [3] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [3] - 中国银联将联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [3]
华为发布AI推理创新技术
半导体芯闻· 2025-08-12 17:48
AI推理技术创新 - 华为联合中国银联发布AI推理创新技术UCM(推理记忆数据管理器),旨在实现高吞吐、低时延的推理体验 [2] - UCM技术以KV Cache为中心,融合多类型缓存加速算法工具,分级管理推理记忆数据,扩大推理上下文窗口,降低每Token推理成本 [3] AI推理行业趋势 - AI正从训练向推理结构性转变,推理体验成为AI应用的关键,包括时延、准确度和复杂上下文推理能力 [2] - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms),而国内普遍小于60 Tokens/s(时延50-100ms),提升推理效率迫在眉睫 [2] 其他行业动态 - 半导体行业投资规模达10万亿 [4] - 芯片巨头市值出现大幅下跌 [4] - 黄仁勋评价HBM为技术奇迹,Jim Keller认为RISC-V将胜出 [4]
华为发布AI推理“黑科技” 助力解决AI推理效率与用户体验难题
中国基金报· 2025-08-12 15:50
行业趋势与重心转移 - AI产业从追求模型能力极限转向追求推理体验最优化,推理体验成为衡量AI模型价值的黄金标尺[2] - 随着AI迈入代理式人工智能时代,模型规模化扩张、长序列需求激增,导致KV Cache容量增长超出显存承载能力[7] - Token经济时代来临,训练和推理的效率与体验均以Token为表征,巨大的Token处理量带来高昂运营成本[8] 华为UCM技术核心与性能 - UCM是一款以KV Cache为中心的推理加速套件,通过分级管理记忆数据来扩大推理上下文窗口,实现高吞吐、低时延[3] - UCM通过动态KV逐层卸载、位置编码扩展等技术,将超长序列Cache分层卸载至外置存储,实现10倍级推理上下文窗口扩展[7] - UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现数据按需流动,融合稀疏注意力算法使长序列场景下TPS提升2至22倍[8] - 该技术可支持用户输入超过17万Tokens的超长序列推理,解决超长序列模型推不动的问题[10] 国内外技术对比与生态构建 - 国外领先芯片厂商通过硬件迭代、软件优化和生态绑定构建AI推理“铁三角”,短期内难以被替代[7] - 中国企业在单点硬件技术上有所突破,但国产软件及生态适配仍有较大差距[7] - 华为计划在9月开源UCM,首发于魔擎社区,后续逐步贡献给主流推理引擎社区及共享架构的存储厂商和生态伙伴[2] - 随着信息技术应用创新产业国产化改造提速,各行业意识到需加速构建国产推理生态[7] 商业应用与性能提升 - 华为AI推理加速方案结合UCM与OceanStor A系列存储技术,已与中国银联开展智慧金融AI推理加速应用试点[9] - 落地三大业务场景分别为客户之声、营销策划和办公助手[9] - 国外主流AI大模型单用户输出速度已进入200 Tokens/s区间(时延5ms),而中国主流AI大模型单用户输出速度普遍小于60 Tokens/s(时延50至100ms)[8]
AI重磅!华为“黑科技”来了
中国基金报· 2025-08-12 15:40
行业趋势与背景 - AI产业从追求模型能力极限转向追求推理体验最优化 推理体验成为衡量AI模型价值的黄金标尺[1] - AI推理是AI产业下一阶段发展重心 直接关联用户满意度和商业可行性[1] - 模型规模化扩张、长序列需求激增及推理任务并发量增长导致KV Cache容量超出显存承载能力[2] - 国外领先芯片厂商通过硬件迭代、软件优化和生态绑定构建AI推理时代"铁三角" 中国企业单点硬件有突破但软件及生态适配仍有较大差距[2] - 信息技术应用创新产业国产化改造提速 各行业加速构建国产推理生态[2] 技术方案与性能 - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理记忆数据[2] - 通过动态KV逐层卸载和位置编码扩展技术 将超长序列Cache分层卸载至外置专业存储 实现10倍级推理上下文窗口扩展[3] - 根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动 融合稀疏注意力算法实现存算深度协同[4] - 长序列场景下TPS提升2至22倍 降低每个Token的推理成本[4] - 支持用户输入超过17万Tokens的超长序列推理 解决超长序列模型推不动的问题[5] 性能对比与行业影响 - 国外主流AI大模型单用户输出速度达200 Tokens/s(时延5ms) 中国主流模型普遍小于60 Tokens/s(时延50-100ms)[4] - AI应用向实际场景深度渗透 用户规模和请求量急剧攀升 模型分析和生成Token数呈指数级增长[4] - Token处理量增长导致服务器维护和电力消耗等运营成本持续攀升 保障流畅推理体验需加大算力投入[4] - Token经济时代来临 训练和推理效率与体验量纲都以Token为表征[5] 商业化应用 - 华为AI推理加速方案结合UCM与OceanStor A系列存储技术 与中国银联开展智慧金融AI推理加速应用试点[5] - 三大落地业务场景包括客户之声、营销策划和办公助手[5] - 华为计划9月在魔擎社区开源UCM 后续逐步贡献给主流推理引擎社区 共享给所有Share Everything存储厂商和生态伙伴[1]
AI重磅!华为“黑科技”来了
中国基金报· 2025-08-12 15:37
华为AI推理技术UCM发布 - 华为正式发布AI推理"黑科技"UCM(推理记忆数据管理器),旨在解决AI推理效率与用户体验难题 [2] - UCM是一款以KV Cache为中心的推理加速套件,融合多类型缓存加速算法工具,可分级管理推理过程中产生的KV Cache记忆数据 [7] - UCM通过动态KV逐层卸载、位置编码扩展等组合技术,实现10倍级推理上下文窗口扩展 [8] AI推理行业发展趋势 - AI产业已从"追求模型能力极限"转向"追求推理体验最优化",推理体验成为衡量AI模型价值的关键指标 [4] - 随着AI应用向各类实际场景深度渗透,用户规模和请求量急剧攀升,模型分析和生成的Token数呈现指数级增长态势 [11] - 国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s(时延50至100ms) [11] UCM技术优势 - UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,融合多种稀疏注意力算法实现存算深度协同 [11] - 在长序列场景下,UCM可使TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本 [11] - UCM支持用户输入超过17万Tokens的超长序列推理,避免超长序列模型推不动的问题 [15] 商业化应用进展 - 华为计划在9月开源UCM,将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区 [5] - 华为AI推理加速方案结合UCM与华为AI存储技术,与中国银联开展智慧金融AI推理加速应用试点 [12] - 三大落地业务场景分别是客户之声、营销策划、办公助手 [12]